Phiếu in A4 · tính tay Mức: nhập môn · ML cổ điển (B)
Bài B5
k-means 1 vòng — k-means clustering
Họ tên: Ngày: Thời gian: ~13 phút
Vì sao quan trọng. Nhiều khi ta có dữ liệu nhưng không có nhãn. k-means tự tìm cấu trúc nhóm — nền của
phân khúc khách hàng, nén màu ảnh, khởi tạo cho nhiều thuật toán khác.
Gán: cụm(xᵢ) = argminⱼ ‖xᵢ − μⱼ‖ | Cập nhật: μⱼ = trung bình các điểm thuộc cụm j
💡 Trực giác
Hai vòng xen kẽ: (1) mỗi điểm chọn tâm gần nhất làm nhà; (2) mỗi tâm dời về giữa đám con của mình.
Lặp tới khi không ai đổi nhà → cụm ổn định.
Gán lại với tâm mới → các điểm giữ nguyên cụm → đã hội tụ, dừng.
Vì sao: khi không điểm nào đổi nhà, tâm không dời nữa → thuật toán dừng.
4
Hình minh họa
2 cụm
× lam = tâm cũ, ★ cam = tâm mới đã dời về giữa cụm.
Mỗi đường nối điểm tới tâm cụm của nó.
Vì sao: k-means nhạy với tâm khởi tạo; khởi tạo xấu có thể ra cụm kém → chạy nhiều lần, chọn kết quả tốt nhất.
✎ Tự kiểm tra — đáp án
k-means có cần nhãn không? → Không — đây là học không giám sát.
Khi nào dừng? → Khi không điểm nào đổi cụm (tâm không dời nữa).
Rút ra. k-means = lặp gán-rồi-dời-tâm tới hội tụ; đơn giản nhưng phụ thuộc khởi tạo & số cụm k.
Bài tiếp (B6): giảm chiều dữ liệu bằng PCA (dùng trị riêng A11).
Làm toán AI ✍️ — Bài B5 · k-means 1 vòngTrang 3/3 · ĐÁP ÁN