Vì sao quan trọng. Nếu một đặc trưng đo bằng nghìn còn đặc trưng khác bằng phần trăm, gradient sẽ méo theo cái lớn.
Chuẩn hóa đặt mọi đặc trưng lên cùng thước → mạng học cân bằng, hội tụ nhanh (cũng là ý của BatchNorm/LayerNorm sau này).
💡 Trực giácMin-max giống "chấm điểm thang 0→1": nhỏ nhất = 0, lớn nhất = 1, còn lại nằm giữa. Z-score giống "lệch bao nhiêu
độ lệch chuẩn so với trung bình": 0 = đúng trung bình, +1 = trên một σ, −1 = dưới một σ.
0
Cho sẵn dữ liệu
4 số
dữ liệu = { 2, 4, 6, 8 }
Một đặc trưng với 4 quan sát. Ta sẽ đưa nó về thang [0,1] (min-max) và quanh 0 (z-score).
1
Min-max về [0, 1]
bám hai đầu
min = , max = ,
range = max − min =
với x = 4: (4 − min)/range =
(min→0, max→1)
Vì sao: trừ min để gốc về 0, chia range để trần về 1 → mọi giá trị gói gọn trong [0, 1].
Min-max bám hai đầu mút (nhạy ngoại lệ); z-score bám trung bình & độ trải (giữ phân phối). Chọn theo bài toán.
✎ Tự kiểm tra — đáp án
Min-max nhỏ nhất & lớn nhất? → 0 và 1.
Z-score = 0? → Giá trị đúng bằng trung bình μ.
Rút ra. Chuẩn hóa đưa đặc trưng về cùng thang để mạng học công bằng; min-max gói vào [0,1], z-score canh quanh 0/σ.
Bài tiếp (A20): one-hot — biến nhãn rời rạc thành vectơ 0/1 để đưa vào mô hình.
Làm toán AI ✍️ — Bài A19 · Chuẩn hóa dữ liệuTrang 2/2 · ĐÁP ÁN