← Mục lục
Làm toán AI ✍️ · Toán × AI
Phiếu in A4 · tính tay
Mức: nhập môn · ML cổ điển (B)
Bài B8

Cây quyết định: Entropy & IG — Entropy & Information Gain

Họ tên: Ngày: Thời gian: ~14 phút
Vì sao quan trọng. Cây hỏi từng câu "có/không" để tách lớp — dễ hiểu, dễ giải thích. Bí quyết: chọn câu hỏi làm dữ liệu "sạch lớp" nhất. Entropy đo độ lẫn lộn; IG đo lợi ích một phép chia. Đây cũng là nền của Random Forest, XGBoost.
H(S) = −Σ pₖ·log₂ pₖ   |   IG = H(cha) − Σ (|con|/|cha|)·H(con)
💡 Trực giác Entropy = mức bất ngờ / lộn xộn: nửa–nửa (0.5/0.5) → H=1 (rối nhất); thuần một lớp → H=0 (chắc chắn). Chọn phép chia kéo các nhánh con về càng thuần càng tốt — đó là information gain lớn.
0

Cho sẵn + bảng log₂

8 mẫu
Cha: 4 Có / 4 Không. Một đặc trưng chia thành: nhánh trái (3 Có, 1 Không), nhánh phải (1 Có, 3 Không).
Bảng: log₂(1/2)=−1 · log₂(1/4)=−2 · log₂(3/4)=−0.415 · log₂(1)=0
Vì sao: entropy dùng log₂ nên đơn vị là bit; chỉ cần tra bảng các phân số đẹp.
1

Entropy cha

4:4
H = −(4/8)log₂(4/8) − (4/8)log₂(4/8) =
Vì sao: 50–50 là trạng thái lộn xộn nhất → entropy cực đại = 1 bit.
2

Entropy mỗi nhánh

con
H(trái) =
H(phải) =
Mẹo: nhánh thuần (toàn một lớp) → H = 0; nhánh (3:1) → tra bảng 3/4, 1/4.
3

Information Gain

giảm entropy
IG = H(cha) − [(|trái|/8)·H(trái) + (|phải|/8)·H(phải)] =
Vì sao: trọng số mỗi nhánh = tỉ lệ số mẫu rơi vào nhánh đó; IG = entropy giảm được nhờ phép chia.
Làm toán AI ✍️ — Bài B8 · Entropy & IGTrang 1/3 · ĐỀ
Làm toán AI ✍️ · Toán × AI
Phiếu in A4 · tính tay
Entropy & IG — tiếp theo
Bài B8

Entropy & IG — chọn câu hỏi tốt nhất

4

Chọn câu hỏi tốt nhất

cây cha → 2 con
Điền IG (Bước 3) vào nhánh: IG =
Cây chọn phép chia có IG nhất.
Vì sao: IG càng lớn → các nhánh con càng "sạch lớp" → phép chia càng đáng dùng.
Cây thử mọi đặc trưng, chọn IG cao nhất, rồi lặp trên từng nhánh tới khi thuần (H=0) hoặc đạt điều kiện dừng.
✎ Tự kiểm tra
  1. Entropy bằng 0 nghĩa là gì? →
  2. Cây chọn phép chia theo tiêu chí nào? →
Làm toán AI ✍️ — Bài B8 · Entropy & IGTrang 2/3 · ĐỀ
Làm toán AI ✍️ · Toán × AI
ĐÁP ÁN
Bài B8

Entropy & IG — lời giải & kiểm tra

1

Entropy cha

H(cha) = −(4/8)(−1) − (4/8)(−1) = 1
2

Entropy mỗi nhánh

H(trái): −(3/4)(−0.415) − (1/4)(−2) = 0.81
H(phải): −(1/4)(−2) − (3/4)(−0.415) = 0.81
3

Information Gain

IG = 1 − [(4/8)·0.81 + (4/8)·0.81] = 1 − 0.81 = 0.19
4

Chọn câu hỏi tốt nhất

cây cha → 2 con
IG càng lớn càng đáng chia. Cây thử mọi đặc trưng, chọn IG cao nhất, rồi lặp trên từng nhánh tới khi thuần (H=0) hoặc đạt điều kiện dừng.
✎ Tự kiểm tra — đáp án
  1. Entropy = 0 → Nhánh thuần một lớp (không lộn xộn).
  2. Tiêu chí chia → Information Gain lớn nhất (giảm entropy nhiều nhất).
Rút ra. Entropy đo lộn xộn, IG đo lợi ích chia; cây tham lam chọn IG lớn nhất ở mỗi bước. Bài tiếp (B9): độ "bẩn" thay bằng Gini (CART) — rẻ tính hơn, ý tưởng tương tự.
Làm toán AI ✍️ — Bài B8 · Entropy & IGTrang 3/3 · ĐÁP ÁN