Làm toán AI ✍️ · Toán × AI

Phiếu in A4 · tính tay
Mức: nhập môn · ML cổ điển (B)

Bài B7

Naive Bayes — Naive Bayes classifier

Họ tên: Ngày: Thời gian: ~13 phút

Vì sao quan trọng. Naive Bayes đảo ngược xác suất: từ "thư rác hay viết chữ X" suy ra "thấy X thì có phải rác". Giả định độc lập "ngây thơ" biến phép tính thành phép nhân đơn giản mà hiệu quả.

P(lớp | x) ∝ P(lớp) · ∏ᵢ P(xᵢ | lớp) → chọn lớp có tích lớn nhất

💡 Trực giác Mỗi đặc trưng bỏ một lá phiếu cho từng lớp; nhân hết với "thành kiến ban đầu" P(lớp), tích cao nhất thì thắng. "Naive" = coi các đặc trưng không liên quan nhau.

0

Cho sẵn — thư chứa {khuyến mãi}

2 lớp

Tiền nghiệm: P(rác) = 0.4 P(thường) = 0.6
"khuyến mãi": P(km|rác) = 0.6 P(km|thường) = 0.1
"bạn": P(bạn|rác) = 0.2 P(bạn|thường) = 0.5

Vì sao: tiền nghiệm = "thành kiến" trước khi đọc; likelihood = từ đó hay gặp trong mỗi loại.

1

Điểm cho lớp "rác"

nhân

P(rác)·P(km|rác) = 0.4·0.6 =

Vì sao: nhân thành kiến ban đầu với bằng chứng từ đặc trưng.

2

Điểm cho lớp "thường"

nhân

P(thường)·P(km|thường) = 0.6·0.1 =

Mẹo: chỉ cần so sánh hai tích — chưa cần chuẩn hóa.

3

So sánh & chuẩn hóa

→ xác suất

Lớn hơn → dự đoán | P(rác|km) = điểm_rác / (điểm_rác + điểm_thường) =

Vì sao: chia tổng để biến tích thô thành xác suất thật.

Làm toán AI ✍️ — Bài B7 · Naive BayesTrang 1/3 · ĐỀ

Làm toán AI ✍️ · Toán × AI

Phiếu in A4 · tính tay
Naive Bayes — tiếp theo

Bài B7

Naive Bayes — thêm đặc trưng & hình

4

Thêm đặc trưng "bạn"

nhân tiếp

Thư còn chữ "bạn" → nhân thêm P(bạn|·):
rác: ·0.2 = | thường: ·0.5 = → dự đoán

Vì sao: mỗi đặc trưng mới nhân thêm một "lá phiếu"; điểm hai lớp đều co lại nhưng thứ hạng có thể đổi.

Xác suất 0 cho một từ sẽ "giết" cả tích → thực tế dùng làm trơn Laplace (cộng 1 vào mọi đếm).

5

Vẽ & so sánh hai cột

tích phiếu

Vì sao: hai cột là điểm tích lũy của mỗi lớp; cột cao hơn thì lớp đó thắng.

Tự vẽ chiều cao hai cột (rác/thường) theo điểm Bước 1–2; chuẩn hóa = chia cho tổng hai cột.

✎ Tự kiểm tra

Giả định "naive" là gì? →
Vì sao cần làm trơn (Laplace)? →

Làm toán AI ✍️ — Bài B7 · Naive BayesTrang 2/3 · ĐỀ

Làm toán AI ✍️ · Toán × AI

ĐÁP ÁN

Bài B7

Naive Bayes — lời giải & kiểm tra

1–2

Điểm hai lớp

điểm_rác = 0.4·0.6 = 0.24 | điểm_thường = 0.6·0.1 = 0.06

3

Dự đoán & xác suất

0.24 > 0.06 → dự đoán RÁC | P(rác|km) = 0.24/(0.24+0.06) = 0.80

4

Thêm đặc trưng "bạn"

nhân tiếp

rác: 0.24·0.2 = 0.048 | thường: 0.06·0.5 = 0.03 → RÁC

Xác suất 0 cho một từ sẽ "giết" cả tích → thực tế dùng làm trơn Laplace (cộng 1 vào mọi đếm).

5

Hình minh họa

tích phiếu

Hai cột là điểm tích lũy của mỗi lớp; lớp có cột cao hơn thắng. Chuẩn hóa = chia cho tổng hai cột.

✎ Tự kiểm tra — đáp án

Giả định "naive" → Các đặc trưng độc lập với nhau khi đã biết lớp.
Vì sao làm trơn? → Tránh xác suất 0 làm cả tích về 0.

Rút ra. Naive Bayes = P(lớp)·∏P(đặc trưng|lớp), chọn lớp lớn nhất; nhanh và mạnh cho văn bản. Bài tiếp (B8): chia dữ liệu bằng cây quyết định dựa trên entropy & information gain.

Làm toán AI ✍️ — Bài B7 · Naive BayesTrang 3/3 · ĐÁP ÁN