Phiếu in A4 · tính tay Mức: nhập môn · ML cổ điển (B)
Bài B9
Cây quyết định: Gini — Gini impurity (CART)
Họ tên: Ngày: Thời gian: ~12 phút
Vì sao quan trọng. Gini đo xác suất "phân loại sai nếu gắn nhãn ngẫu nhiên theo tỉ lệ lớp". Cùng ý với entropy (thuần
→ 0, lộn xộn → cao) nhưng không có log → rẻ tính, là mặc định của nhiều thư viện cây.
💡 Trực giác
Gini = khả năng đoán trật khi rút ngẫu nhiên một mẫu và đoán nhãn theo tỉ lệ lớp. Thuần một lớp → không bao giờ trật
→ 0. Hai lớp đều nhau → trật nhiều → Gini lớn (tối đa 0.5 với 2 lớp).
0
Cho sẵn
8 mẫu
Cha: 4 Có / 4 Không. Chia thành: nhánh trái (3 Có, 1 Không),
nhánh phải (1 Có, 3 Không).
Vì sao: chỉ cần bình phương tỉ lệ — không cần log → tính nhanh hơn entropy.
1
Gini cha
4:4
1 − [(4/8)² + (4/8)²] = 1 − (0.25 + 0.25) =
Vì sao: 2 lớp cân bằng → Gini cực đại 0.5 (bẩn nhất).
Gini và entropy thường chọn cùng phép chia; Gini không cần log nên nhanh hơn. Cả hai = 0 khi nhánh thuần.
✎ Tự kiểm tra — đáp án
Gini nhánh thuần → 0.
Khác entropy → Không dùng log (chỉ bình phương) → rẻ hơn.
Rút ra. Gini = 1 − Σp²; chọn phép chia làm Gini sau nhỏ nhất. Cùng tinh thần entropy nhưng nhanh.
Hết Phần B (ML cổ điển); Bài tiếp (B10): lề hình học của SVM.