← Mục lục
Làm toán AI ✍️ · Toán × AI
Phiếu in A4 · tính tay
Mức: nhập môn · ML cổ điển (B)
Bài B9

Cây quyết định: Gini — Gini impurity (CART)

Họ tên: Ngày: Thời gian: ~12 phút
Vì sao quan trọng. Gini đo xác suất "phân loại sai nếu gắn nhãn ngẫu nhiên theo tỉ lệ lớp". Cùng ý với entropy (thuần → 0, lộn xộn → cao) nhưng không có log → rẻ tính, là mặc định của nhiều thư viện cây.
Gini(S) = 1 − Σ pₖ²   |   Gini_split = Σ (|con|/|cha|)·Gini(con)  (chọn split nhỏ nhất)
💡 Trực giác Gini = khả năng đoán trật khi rút ngẫu nhiên một mẫu và đoán nhãn theo tỉ lệ lớp. Thuần một lớp → không bao giờ trật → 0. Hai lớp đều nhau → trật nhiều → Gini lớn (tối đa 0.5 với 2 lớp).
0

Cho sẵn

8 mẫu
Cha: 4 Có / 4 Không. Chia thành: nhánh trái (3 Có, 1 Không), nhánh phải (1 Có, 3 Không).
Vì sao: chỉ cần bình phương tỉ lệ — không cần log → tính nhanh hơn entropy.
1

Gini cha

4:4
1 − [(4/8)² + (4/8)²] = 1 − (0.25 + 0.25) =
Vì sao: 2 lớp cân bằng → Gini cực đại 0.5 (bẩn nhất).
2

Gini mỗi nhánh

con
Gini(trái) =
Gini(phải) =
Mẹo: nhánh thuần → 0; nhánh (3:1) → 1 − [(3/4)²+(1/4)²].
3

Gini sau chia (trọng số)

chọn nhỏ nhất
Gini_split = (|trái|/8)·Gini(trái) + (|phải|/8)·Gini(phải) =   (gain = 0.5 − split = )
Vì sao: chọn phép chia có Gini sau nhỏ nhất ⇔ "Gini gain" lớn nhất.
Làm toán AI ✍️ — Bài B9 · GiniTrang 1/3 · ĐỀ
Làm toán AI ✍️ · Toán × AI
Phiếu in A4 · tính tay
Gini — tiếp theo
Bài B9

Gini — so với entropy

4

So với entropy

cùng ý
Điền gain (Bước 3) vào cây: gain =
Gini và entropy thường chọn phép chia; Gini tính hơn.
Vì sao: Gini không cần log (chỉ bình phương) nên rẻ hơn; cả hai = 0 khi nhánh thuần.
✎ Tự kiểm tra
  1. Gini của một nhánh thuần bằng bao nhiêu? →
  2. Gini khác entropy ở điểm tính toán nào? →
Làm toán AI ✍️ — Bài B9 · GiniTrang 2/3 · ĐỀ
Làm toán AI ✍️ · Toán × AI
ĐÁP ÁN
Bài B9

Gini — lời giải & kiểm tra

1

Gini cha

1 − (0.25 + 0.25) = 0.5
2

Gini mỗi nhánh

Gini(trái): 1 − [(3/4)² + (1/4)²] = 0.375
Gini(phải): 1 − [(1/4)² + (3/4)²] = 0.375
3

Gini sau chia

(4/8)·0.375 + (4/8)·0.375 = 0.375  |  gain = 0.5 − 0.375 = 0.125
4

So với entropy

cùng ý
Gini và entropy thường chọn cùng phép chia; Gini không cần log nên nhanh hơn. Cả hai = 0 khi nhánh thuần.
✎ Tự kiểm tra — đáp án
  1. Gini nhánh thuần → 0.
  2. Khác entropy → Không dùng log (chỉ bình phương) → rẻ hơn.
Rút ra. Gini = 1 − Σp²; chọn phép chia làm Gini sau nhỏ nhất. Cùng tinh thần entropy nhưng nhanh. Hết Phần B (ML cổ điển); Bài tiếp (B10): lề hình học của SVM.
Làm toán AI ✍️ — Bài B9 · GiniTrang 3/3 · ĐÁP ÁN