NCS101 - Bài 6: Data Analysis - Đừng Để Con Số "Dắt Mũi", Hãy "Đọc Vị" Mô Hình
Dữ liệu không biết nói dối, chỉ có người làm dữ liệu hay "vẽ" ra sự thật. Đừng biến mình thành cái máy bấm nút (Button Pusher). Hãy học cách tư duy của một Nhà chiến lược dữ liệu (Data Strategist) để thuần phục con quái vật SmartPLS/SPSS.

Thú thật với các bạn, hồi cấp 3 Hải dốt Toán lắm (đủ điểm qua môn thôi). Nhưng giờ Hải vẫn chạy mô hình SEM (Structural Equation Modeling) ầm ầm, dạy cả sinh viên.
Vì sao? Vì chúng ta là nhà nghiên cứu ứng dụng, không phải nhà toán học. Phần mềm (SmartPLS/SPSS) nó làm hộ hết phép tính phức tạp rồi. Việc của mình là: Bấm nút và Đọc vị kết quả.
Nhưng đợi đã! Trước khi bấm nút "Analyze", bạn đã làm sạch "con cá" dữ liệu chưa? Hải đã hứa sẽ nói về Nghệ thuật làm sạch dữ liệu. Đừng có dại dột mà ném nguyên con cá còn đầy vảy, bùn đất (dữ liệu thô) vào nồi lẩu (phần mềm). Nó sẽ tanh ngòm và không ai nuốt nổi đâu!
Giai đoạn 0: Sơ chế "Con Cá" (Data Cleaning)
Đừng tin ai cả, hãy tự tay "mổ cá" để loại bỏ rác rưởi trước khi nấu:
- **Check Missing Data (Dữ liệu khuyết):** Có ô trống nào không? Nếu < 5% thì dùng Mean Replacement (lấp liếm bằng giá trị trung bình). Nếu > 15% ở một dòng? Xóa thẳng tay không hối tiếc!
- **Check Outliers (Dị biệt):** Có ông nào đánh toàn số 1 hoặc toàn số 5 từ đầu đến cuối không? Có ông nào trả lời bảng hỏi dài 50 câu trong vòng 30 giây không? (Siêu nhân à?). Xóa ngay những dòng rác đó, họ đang "troll" nghiên cứu của bạn đấy.
- **Check Normality (Phân phối chuẩn):** Dữ liệu hình cái chuông hay méo xẹo? Với SmartPLS thì không cần quá khắt khe, nhưng với SPSS thì đây là "lệnh bài" để được phép chạy các bước tiếp theo.
Vòng 1: Soi "Nước Dùng" (Measurement Model)
Cá sạch rồi, ném vào nồi rồi. Nhưng đừng vội "nổi lửa"! Trước khi đợi lẩu chín, phải check lại cái "nước dùng" (Measurement Model) xem nó có đậm đặc, chuẩn vị không. Nước dùng mà lèo tèo thì cá có tươi mấy ăn cũng như đấm vào mồm. Đừng để tình trạng sơn Alpha xanh lét trên một nồi nước dùng pha toàn muối với nước lọc.
*Hình 1: Mô hình "Nồi Lẩu" 3 lớp trong SEM*
1. Outer Loadings (Hệ số tải ngoài): "Độ ngọt" của thịt cá
Outer Loadings là "nồng độ chất" của câu hỏi đóng góp vào biến. Loadings < 0.7 nghĩa là thịt cá bị bở, không có chất. Đặc biệt nếu < 0.4 thì vứt ngay miếng cá đó đi. Đừng cố "đấm ăn xôi" giữ lại những câu hỏi rác chỉ để cứu Alpha. Reviewer sành sỏi nhìn bảng Loadings mà thấy lởm khởm là họ đánh trượt ngay vì tội "nấu lẩu bằng cá ươn".
⚠️ [LƯU Ý CHẾT NGƯỜI]: Nước dùng ngon nhưng có bị nhiễm chì không? (CMB - Common Method Bias).
Nếu người trả lời cứ đánh lung tung theo quán tính (kiểu "gì cũng đồng ý"), thì toàn bộ kết quả là "ảo". Hãy dùng VIF (Full Collinearity test) để check xem có vi khuẩn CMB không (~ VIF < 3.3). Reviewer Q1 cực kỳ soi cái này!
2. "Kính chiếu yêu" HTMT (Validity): Cá thật hay Cá giả?
Tưởng tượng bạn dùng một cái cân bị lệch 1kg. Cân 100 lần nó đều ra kết quả giống nhau (Reliability cực cao), nhưng kết quả đó SAI bét (Validity bằng không).
Ở tạp chí Q1, họ dùng HTMT để soi Discriminant Validity (Giá trị phân biệt). Nếu HTMT > 0.85, nghĩa là Biến A và Biến B là "anh em sinh đôi" mặc áo khác màu. Bạn đang tự lừa mình dối người. Reviewer sẽ vỗ mặt: "Em tách ra làm hai biến làm gì cho chật nồi?".
Vòng 2: Thử "Vị Lẩu" (Structural Model)
Nước dùng ngon rồi, giờ là lúc xem các nguyên liệu kết hợp với nhau ra sao.
3. VIF: Căn bệnh "Các vị át mùi nhau"
Đa cộng tuyến (Multicollinearity). Nếu các biến độc lập "yêu nhau" (VIF > 3.3), chúng sẽ dẫm chân lên nhau. Giống như cho quá nhiều gừng nó sẽ át hết mùi sả, bạn không biết vị nào thực sự làm nên nồi lẩu. VIF cao làm hệ số Beta bị méo mó, mất giá trị tiên đoán.
4. f2 (Effect Size): Nồng độ cồn trong rượu nhắm
P-value < 0.05 chỉ là cái vé vào cửa. Nhưng f2 mới là nồng độ cồn. f2 bé tí (0.02) nghĩa là bạn chỉ đang "gãi ngứa" cho biến phụ thuộc thôi. Đừng vỗ ngực xưng tên là có đóng góp thực tiễn! Muốn phần Thảo luận (Discussion) hay, phải tìm được những thằng f2 > 0.15 (Tác động trung bình) hoặc > 0.35 (Tác động mạnh).
5. Q2 (Predictive Relevance): Khả năng "Gây nghiện"
Mô hình của bạn có giải thích được dữ liệu CŨ (R-square) không? Quá thường. Nó có tiên đoán được dữ liệu MỚI (Q-square) không? Đó mới là đẳng cấp của PhD. Đừng để mô hình của bạn chỉ giỏi "vuốt đuôi" quá khứ.
Vòng 3: Gia Vị "Hủy Diệt" (God Tier)
Muốn nồi lẩu đạt tầm Michelin, hãy chơi hệ nâng cao:
- **Mediation (Biến trung gian):** Mổ xẻ cơ chế tác động bên trong.
- **Moderation (Biến điều tiết):** Trả lời câu hỏi "Khi nào?" lẩu mới ngon (ví dụ: ăn lúc nóng).
- **MGA/MICOM:** So sánh các nhóm (Tây/Ta, Nam/Nữ) chuẩn chỉ. Không chạy MICOM mà đi so sánh là "so sánh cam với táo".
🛠️ [GÓC KỸ THUẬT]: AMOS vs SmartPLS - Ai hơn ai?
- **AMOS (CB-SEM):** Như dao mổ trâu. Cần dữ liệu chuẩn (Normal Distribution), mẫu lớn. Phải cực khắt khe về Model Fit (CFI > 0.9, RMSEA < 0.08).
- **SmartPLS (PLS-SEM):** Như dao gọt hoa quả đa năng. "Ăn tạp" hơn, không cần dữ liệu chuẩn, mẫu nhỏ chơi được hết. Nhưng bù lại, Model Fit của nó không "thần thánh" như AMOS.
-> Biết mình đang cầm dao gì để dùng cho đúng! Đừng mang dao gọt hoa quả đi mổ trâu.
[LỜI KHUYÊN GAM MÀU TỐI]: Khi Kết Quả "Xấu"
NCS sợ nhất là P-value > 0.05 (màu đỏ - bác bỏ giả thuyết). Đừng sợ! Trong khoa học, việc chứng minh "Lý thuyết cũ không còn đúng" đôi khi còn giá trị hơn việc "vuốt đuôi" lý thuyết cũ (Confirmation Bias). Cái bạn cần là giải thích ĐÚNG, chứ không phải cố đấm ăn xôi P-Hacking (xào nấu số liệu) để giải thích cho ĐẸP.
[CẢNH BÁO THẨM MỸ]: Đừng "Ném" Bảng Thô Vào Mặt Reviewer
Reviewer cực ghét việc NCS copy-paste nguyên cái bảng Output loằng ngoằng, phông nền xám xịt từ phần mềm vào bài báo. Nhìn cực kỳ "Phèn". Bảng biểu từ phần mềm chỉ là "nguyên liệu thô". Muốn lên Q1, bạn phải trình bày lại theo chuẩn APA 7th (kẻ bảng 3 dòng, font chữ chuẩn chỉ). Đừng để người ta nhìn bảng mà thấy bạn lười biếng.
Ghi chú thuật ngữ (Academic Glossary)
- **Outer Loadings:** Nồng độ đóng góp của từng câu hỏi vào biến.
- **HTMT:** Kính chiếu yêu phát hiện các biến trùng lặp (Discriminant Validity).
- **APA 7th:** "Sách trắng" về cái đẹp và quy chuẩn trình bày học thuật.
- **CMB (Common Method Bias):** Sai lệch do phương pháp đo lường chung.
[CHECK-LIST SINH TỒN]
Trước khi nộp bài, tự hỏi 4 câu:
✅ Đã làm sạch data chưa (Missing, Outliers)?
✅ "Nước dùng" (Loadings > 0.7 và HTMT < 0.85) ổn định chưa? Có bị nhiễm chì CMB không?
✅ "Vị lẩu" (VIF, f2, Q2) có đủ mạnh để chém gió về ý nghĩa thực tiễn không?
✅ Bảng biểu đã format chuẩn APA 7th chưa?
Nếu OK hết -> Chúc mừng, bạn đã thoát kiếp "Thợ bấm nút" để trở thành một Data Strategist thực thụ!
Lời Kết
Có kết quả đẹp rồi, số liệu "nước cất" rồi. Giờ làm sao để biến đống bảng biểu này thành một bài báo "sexy" khiến Reviewer phải gật đầu cái rụp?
👉 Mời các bạn đón đọc **Bài 7: Cấu Trúc IMRaD - Công Thức Viết Bài Báo Quốc Tế "Bao Đậu"**.
Hải chào thân ái và quyết thắng!

