R101 - Bài 6: Tương Quan & Hồi Quy Tuyến Tính (Regression) - Đi Tìm Chân Lý
Đây rồi! "Trùm cuối" của nghiên cứu định lượng. Hồi quy tuyến tính sẽ trả lời câu hỏi triệu đô: Yếu tố nào tác động mạnh nhất đến sự hài lòng của khách hàng?

Chào mừng các bạn đến với trận chung kết. Sau khi làm sạch dữ liệu, vẽ hình đẹp đẽ, kiểm định thang đo ok, giờ là lúc ta "thịt" bộ dữ liệu để lòi ra kết quả cuối cùng.
Mục tiêu: Tìm xem Lương (Salary), Đồng nghiệp (Colleague), Sếp (Boss) -> Yếu tố nào dự báo "tốt nhất" sự Hài lòng (Satisfaction)?
Lưu ý: Hồi quy cho ta biết mối liên hệ (Association), không chắc chắn là Nhân quả (Causation). Tuy nhiên trong kinh doanh, nếu lý thuyết hỗ trợ, ta có thể dùng nó để ra quyết định.

Đường thẳng hồi quy (màu cam) sẽ cố gắng đi qua giữa đám mây điểm. Khoảng cách từ điểm đến đường thẳng gọi là Phần dư (Residual).
1. Ma trận tương quan (Correlation Matrix)
Trước khi chạy mô hình, hãy xem các cặp biến có "tình ý" gì với nhau không.
`library(ggcorrplot)`
`corr <- cor(df_final)`
`ggcorrplot(corr, lab = TRUE)`
Nó sẽ vẽ ra một cái bản đồ nhiệt (Heatmap):
- Màu đỏ đậm (Gần 1): Tương quan dương cực mạnh (Lương tăng -> Hài lòng tăng).
- Màu xanh đậm (Gần -1): Tương quan âm (Áp lực tăng -> Hài lòng giảm).
- Màu trắng (Gần 0): Chả liên quan gì.
Nếu thấy biến Độc lập (X) mà tương quan quá mạnh với nhau (> 0.9) thì cẩn thận: Có thể bị Đa cộng tuyến (Hai ông chồng cùng nói một lúc, không biết nghe ông nào).
2. Hồi quy tuyến tính (Linear Regression)
Câu thần chú gọi Rồng Thần trong R:
`model <- lm(Satisfaction ~ Salary + Colleague + Boss, data = df_final)`
`summary(model)`
Bảng kết quả hiện ra. Nhìn vào đâu?
P-value (Pr(>|t|)): Tìm những dòng có dấu sao (< 0.001) hoặc (< 0.05). Đó là những yếu tố có ý nghĩa thống kê.
Estimate (Beta): Hệ số tác động.
- Estimate dương: Tác động thuận chiều.
- Estimate âm: Tác động ngược chiều.
- Số càng to (về trị tuyệt đối) -> Tác động càng mạnh.
R-squared: Mô hình giải thích được bao nhiêu % (như bài NCS101 đã nói).
3. Đừng quên kiểm tra sức khỏe mô hình (Assumptions)
Chạy ra kết quả chưa xong đâu. Phải khám sức khỏe cho nó.
Insight: Tại sao phải soi phần dư (Residuals)? Phần dư chính là những gì mô hình không giải thích được.
- Nếu phần dư lộn xộn ngẫu nhiên -> Tốt.
- Nếu phần dư có quy luật (VD: Mô hình dự báo sai lệch nhiều ở nhóm Thu nhập cao) -> Chứng tỏ bạn đang bỏ sót một biến quan trọng nào đó. Hiện tượng này gọi là Thiên lệch do biến bị bỏ sót (Omitted Variable Bias).
- Những điểm ngoại lai (Outliers) trong phần dư đôi khi lại là "Mỏ vàng" - Thị trường ngách (Niche Market) mà đối thủ bỏ qua.
Checklist:
- Đa cộng tuyến (Multicollinearity): `vif(model)` > 5 là báo động.
- Phân phối chuẩn của phần dư: `plot(model, which = 2)`. Các điểm phải ôm sát đường chéo.

