R101 - Bài 7: So Sánh Khác Biệt: T-test & ANOVA - Cuộc Chiến Giữa Các Phe Phái
Sếp hỏi: "Khách hàng Nam và Nữ, ai hài lòng hơn?". "Khách miền Bắc, Trung, Nam, ai chịu chi hơn?". Đừng đoán mò. Hãy dùng T-test và ANOVA để trả lời sếp bằng con số biết nói.

Trong kinh doanh và nghiên cứu, chúng ta suốt ngày phải đi so sánh.
- Sếp hỏi: "Chạy quảng cáo Facebook hiệu quả hơn hay Google hiệu quả hơn?"
- HR hỏi: "Nhân viên nam hay nữ có lương cao hơn?"
- Marketing hỏi: "Khách hàng ở HN, ĐN, SG, ai mua hàng nhiều nhất?"
Trả lời bằng cảm tính ("Em thấy hình như...") là ra đường ở ngay. Phải dùng kiểm định thống kê. Có 2 vũ khí chính:

T-test dùng để so sánh 2 phe (Nam vs Nữ). ANOVA dùng để "đấu lộn xộn" 3 phe trở lên (Bắc - Trung - Nam).
1. T-test: Cuộc đấu tay đôi (2 nhóm)
Dùng khi bạn muốn so sánh TRUNG BÌNH của 2 nhóm biến định tính (Ví dụ: Giới tính -> Nam/Nữ).
Cú pháp siêu ngắn gọn trong R:
`t.test(Income ~ Gender, data = df)`
(Dịch: So sánh Thu nhập (Income) theo Giới tính (Gender)).
Đọc kết quả:
Nhìn vào P-value:
- Nếu P < 0.05: Có sự khác biệt "có ý nghĩa thống kê". (Ví dụ: Nam lương cao hơn Nữ thật sự, chứ không phải do ngẫu nhiên).
- Nếu P > 0.05: Không có sự khác biệt (Hai nhóm như nhau).
Ví dụ: Sếp hỏi "Nam với Nữ ai lương cao hơn?"
2. ANOVA: Tam Quốc Diễn Nghĩa (> 2 nhóm)
Nếu bạn có 3 nhóm trở lên (Ví dụ: Vùng miền -> Bắc, Trung, Nam), dùng T-test so từng cặp thì rất mất thời gian và dễ sai. Hãy dùng ANOVA (Analysis of Variance).
Cú pháp:
`model_aov <- aov(Income ~ Region, data = df)`
`summary(model_aov)`
Đọc kết quả:
Cũng nhìn P-value (< 0.05). Nếu < 0.05, chứng tỏ "Ít nhất có một ông khác biệt với mấy ông còn lại".
Nhưng ông nào khác? Bắc khác Nam? Hay Trung khác Nam?
Để biết cụ thể, ta dùng thêm "kính lúp" TukeyHSD:
`TukeyHSD(model_aov)`
Nó sẽ so sánh từng cặp cho bạn: Bắc-Trung, Bắc-Nam, Trung-Nam. Cặp nào P < 0.05 là cặp đó khác nhau.
3. Visual hóa sự khác biệt
Số liệu khô khan khó thuyết phục sếp. Hãy vẽ cái Boxplot:
`ggplot(df, aes(x = Region, y = Income, fill = Region)) +`
` geom_boxplot() +`
` theme_minimal()`
Nhìn vào biểu đồ, sếp sẽ thấy ngay cái hộp nào cao hơn, hộp nào thấp hơn. Trực quan sinh động!

