← Mục lục
Làm toán AI ✍️ · Toán × AI
Phiếu in A4 · tính tay
Mức: nhập môn · ML cổ điển (B)
Bài B7

Naive Bayes — Naive Bayes classifier

Họ tên: Ngày: Thời gian: ~13 phút
Vì sao quan trọng. Naive Bayes đảo ngược xác suất: từ "thư rác hay viết chữ X" suy ra "thấy X thì có phải rác". Giả định độc lập "ngây thơ" biến phép tính thành phép nhân đơn giản mà hiệu quả.
P(lớp | x) ∝ P(lớp) · ∏ᵢ P(xᵢ | lớp)   →   chọn lớp có tích lớn nhất
💡 Trực giác Mỗi đặc trưng bỏ một lá phiếu cho từng lớp; nhân hết với "thành kiến ban đầu" P(lớp), tích cao nhất thì thắng. "Naive" = coi các đặc trưng không liên quan nhau.
0

Cho sẵn — thư chứa {khuyến mãi}

2 lớp
Tiền nghiệm: P(rác) = 0.4   P(thường) = 0.6
"khuyến mãi": P(km|rác) = 0.6   P(km|thường) = 0.1
"bạn": P(bạn|rác) = 0.2   P(bạn|thường) = 0.5
Vì sao: tiền nghiệm = "thành kiến" trước khi đọc; likelihood = từ đó hay gặp trong mỗi loại.
1

Điểm cho lớp "rác"

nhân
P(rác)·P(km|rác) = 0.4·0.6 =
Vì sao: nhân thành kiến ban đầu với bằng chứng từ đặc trưng.
2

Điểm cho lớp "thường"

nhân
P(thường)·P(km|thường) = 0.6·0.1 =
Mẹo: chỉ cần so sánh hai tích — chưa cần chuẩn hóa.
3

So sánh & chuẩn hóa

→ xác suất
Lớn hơn → dự đoán  |  P(rác|km) = điểm_rác / (điểm_rác + điểm_thường) =
Vì sao: chia tổng để biến tích thô thành xác suất thật.
Làm toán AI ✍️ — Bài B7 · Naive BayesTrang 1/3 · ĐỀ
Làm toán AI ✍️ · Toán × AI
Phiếu in A4 · tính tay
Naive Bayes — tiếp theo
Bài B7

Naive Bayes — thêm đặc trưng & hình

4

Thêm đặc trưng "bạn"

nhân tiếp
Thư còn chữ "bạn" → nhân thêm P(bạn|·):
rác: ·0.2 =  |  thường: ·0.5 = → dự đoán
Vì sao: mỗi đặc trưng mới nhân thêm một "lá phiếu"; điểm hai lớp đều co lại nhưng thứ hạng có thể đổi.
Xác suất 0 cho một từ sẽ "giết" cả tích → thực tế dùng làm trơn Laplace (cộng 1 vào mọi đếm).
5

Vẽ & so sánh hai cột

tích phiếu
Vì sao: hai cột là điểm tích lũy của mỗi lớp; cột cao hơn thì lớp đó thắng.
Tự vẽ chiều cao hai cột (rác/thường) theo điểm Bước 1–2; chuẩn hóa = chia cho tổng hai cột.
✎ Tự kiểm tra
  1. Giả định "naive" là gì? →
  2. Vì sao cần làm trơn (Laplace)? →
Làm toán AI ✍️ — Bài B7 · Naive BayesTrang 2/3 · ĐỀ
Làm toán AI ✍️ · Toán × AI
ĐÁP ÁN
Bài B7

Naive Bayes — lời giải & kiểm tra

1–2

Điểm hai lớp

điểm_rác = 0.4·0.6 = 0.24  |  điểm_thường = 0.6·0.1 = 0.06
3

Dự đoán & xác suất

0.24 > 0.06 → dự đoán RÁC  |  P(rác|km) = 0.24/(0.24+0.06) = 0.80
4

Thêm đặc trưng "bạn"

nhân tiếp
rác: 0.24·0.2 = 0.048  |  thường: 0.06·0.5 = 0.03RÁC
Xác suất 0 cho một từ sẽ "giết" cả tích → thực tế dùng làm trơn Laplace (cộng 1 vào mọi đếm).
5

Hình minh họa

tích phiếu
Hai cột là điểm tích lũy của mỗi lớp; lớp có cột cao hơn thắng. Chuẩn hóa = chia cho tổng hai cột.
✎ Tự kiểm tra — đáp án
  1. Giả định "naive" → Các đặc trưng độc lập với nhau khi đã biết lớp.
  2. Vì sao làm trơn? → Tránh xác suất 0 làm cả tích về 0.
Rút ra. Naive Bayes = P(lớp)·∏P(đặc trưng|lớp), chọn lớp lớn nhất; nhanh và mạnh cho văn bản. Bài tiếp (B8): chia dữ liệu bằng cây quyết định dựa trên entropy & information gain.
Làm toán AI ✍️ — Bài B7 · Naive BayesTrang 3/3 · ĐÁP ÁN