One-hot Encoding

— Mã hóa nhãn rời rạc nhãn → vectơ 0/1 · Σeᵢ = 1

Vì sao quan trọng. Mạng nơ-ron làm việc với số thực, không với nhãn văn bản. One-hot biến "chó/mèo/chim" → [1,0,0]/[0,1,0]/[0,0,1] để có thể so sánh với đầu ra softmax. Cross-entropy loss = −Σ yᵢ·ln(pᵢ) chỉ còn −ln(p_{nhãn đúng}) vì các yᵢ còn lại = 0.

Nhãn k trong K lớp → vectơ e_k ∈ {0,1}^K, eₖ=1, eⱼ=0 (j≠k)

💡 Trực giác One-hot là "phân phối Categorical hoàn hảo chắc chắn 100%": tất cả xác suất dồn vào một lớp. Khi huấn luyện, ta muốn softmax output tiến gần nhất đến one-hot nhãn thật. Cross-entropy đo khoảng cách KL-divergence giữa hai phân phối này.

Xanh = nhãn thật (one-hot, 1 ô = 1); Cam = softmax dự đoán. Loss = −ln(pₖ) với k = vị trí 1 trong one-hot.

BÀI TẬP · K = 5 lớp

Mã hóa các nhãn sau thành vectơ one-hot

Nhãn 2

Nhãn 4

Nhãn 1

CROSS-ENTROPY · nhãn thật vs. dự đoán

Nhãn thật: lớp 4 | Softmax: p = […]

Loss = −ln(p_4) = −ln(0.6) =

✎ Tự kiểm tra

Nếu mô hình dự đoán đúng 100% (p_y = 1): Loss = ? →
Vectơ one-hot có bao nhiêu số 1? →

Làm toán AI ✍️ · One-hot EncodingTrang 1/2 · ĐỀ

One-hot Encoding

— lời giảiĐÁP ÁN

Loss = 0 khi p_y = 1 (hoàn hảo); Loss → ∞ khi p_y → 0 (sai chắc chắn). Đây là cơ chế phạt của cross-entropy.

ĐÁP ÁN ONE-HOT (K = 5)

Nhãn 2

Nhãn 4

Nhãn 1

CROSS-ENTROPY LOSS

y = one-hot(lớp 4) = [0,0,0,1,0]
Loss = −ln(p_4) = −ln(0.6) ≈ 0.51

Vì yᵢ = 0 với mọi i ≠ y, tổng −Σyᵢ ln pᵢ chỉ còn 1 số hạng.

✎ Tự kiểm tra — đáp án

p_y = 1: Loss = −ln(1) = 0
Vectơ one-hot luôn có đúng 1 số 1, các ô còn lại = 0

Rút ra. One-hot + softmax + cross-entropy = bộ ba chuẩn cho phân loại đa lớp. One-hot = mục tiêu "lý tưởng"; softmax = dự đoán xác suất; cross-entropy = đo khoảng cách. Trong language model: one-hot nhãn là token đúng tiếp theo; mô hình huấn luyện để softmax output khớp nhất với one-hot đó (tối thiểu cross-entropy = tối đa log-likelihood).

Làm toán AI ✍️ · One-hot EncodingTrang 2/2 · ĐÁP ÁN