k-NN — k láng giềng gần nhất — k-Nearest Neighbors

Họ tên: Ngày: Thời gian: ~12 phút

Vì sao quan trọng. k-NN cho thấy ý tưởng cốt lõi của ML: mẫu giống nhau thì nhãn giống nhau. Không huấn luyện, chỉ cần khoảng cách — nền tảng của truy hồi (retrieval) và nhiều hệ gợi ý.

d²(x, xᵢ) = Σ (xⱼ − xᵢⱼ)² → chọn k điểm d nhỏ nhất → nhãn = đa số phiếu

💡 Trực giác Hỏi k người hàng xóm gần nhất rồi theo số đông. k nhỏ → nhạy nhiễu; k lớn → mượt nhưng có thể "nuốt" ranh giới lớp. So sánh khoảng cách thì dùng d² là đủ (khỏi căn) → số đẹp hơn.

5 điểm & điểm hỏi Q

k = 3

P₁🔵(1,1) · P₂🔵(2,1)
P₃🔴(4,4) · P₄🔴(5,4) · P₅🔴(4,1)
Điểm hỏi Q = (2,2)

Vì sao: k-NN không học tham số — chỉ lưu dữ liệu rồi đo khoảng cách lúc dự đoán.

Khoảng cách d² tới Q

5 phép

d²(Q,P₁) = · d²(Q,P₂) = · d²(Q,P₃) = · d²(Q,P₄) = · d²(Q,P₅) =

Mẹo: d² = (Δx)² + (Δy)² — cộng bình phương hai hiệu tọa độ.

Chọn k=3 gần nhất & bỏ phiếu

đa số

3 điểm gần nhất:
Phiếu → 🔵 : 🔴 → Q thuộc lớp

Vì sao: chọn k lẻ để tránh hòa phiếu; đa số quyết định nhãn của Q.

✎ Tự kiểm tra

k-NN có "huấn luyện" không? →
Vì sao nên chọn k lẻ? →

Làm toán AI ✍️ — Bài B4 · k-NNTrang 1/2 · ĐỀ

Làm toán AI ✍️ · Toán × AI

ĐÁP ÁN

Bài B4

k-NN — lời giải & kiểm tra

Khoảng cách d²

P₁: 2 · P₂: 1 · P₃: 8 · P₄: 13 · P₅: 5

Bỏ phiếu k=3

3 gần nhất: P₂, P₁, P₅
🔵 2 : 🔴 1 → Q thuộc lớp 🔵 (Xanh)

✎ Tự kiểm tra — đáp án

k-NN có huấn luyện không? → Không — chỉ lưu dữ liệu và đo khoảng cách lúc dự đoán
Vì sao chọn k lẻ? → Tránh hòa phiếu giữa hai lớp

Rút ra. k-NN = đo khoảng cách + bỏ phiếu đa số; đơn giản nhưng chậm khi dữ liệu lớn (phải so mọi điểm). Bài tiếp (B5): gom cụm không nhãn — k-means.

Làm toán AI ✍️ — Bài B4 · k-NNTrang 2/2 · ĐÁP ÁN