Chuẩn hóa dữ liệu — min-max & z-score

Họ tên: Ngày: Thời gian: ~12 phút

Vì sao quan trọng. Nếu một đặc trưng đo bằng nghìn còn đặc trưng khác bằng phần trăm, gradient sẽ méo theo cái lớn. Chuẩn hóa đặt mọi đặc trưng lên cùng thước → mạng học cân bằng, hội tụ nhanh (cũng là ý của BatchNorm/LayerNorm sau này).

min-max: x' = (x − min) / (max − min) ∈ [0, 1]
z-score: x̂ = (x − μ) / σ (μ = trung bình, σ = độ lệch chuẩn)

💡 Trực giác Min-max giống "chấm điểm thang 0→1": nhỏ nhất = 0, lớn nhất = 1, còn lại nằm giữa. Z-score giống "lệch bao nhiêu độ lệch chuẩn so với trung bình": 0 = đúng trung bình, +1 = trên một σ, −1 = dưới một σ.

Cho sẵn dữ liệu

4 số

dữ liệu = { 2, 4, 6, 8 }

Một đặc trưng với 4 quan sát. Ta sẽ đưa nó về thang [0,1] (min-max) và quanh 0 (z-score).

Min-max về [0, 1]

bám hai đầu

min = , max = , range = max − min =
với x = 4: (4 − min)/range = (min→0, max→1)

Vì sao: trừ min để gốc về 0, chia range để trần về 1 → mọi giá trị gói gọn trong [0, 1].

Trung bình & độ lệch chuẩn

μ, σ

μ = (2 + 4 + 6 + 8)/4 =
σ = √( Σ(x − μ)²/4 ) = √ ≈

Tính phương sai trước (như A16), rồi lấy căn ra σ.

Z-score

quanh 0

z(giá trị lớn nhất) = (max − μ)/σ ≈
z(giá trị nhỏ nhất) = (min − μ)/σ ≈

Vì sao: z không thứ nguyên → so được giữa các đặc trưng khác đơn vị; dấu cho biết trên/dưới trung bình.

✎ Tự kiểm tra

Sau min-max, giá trị nhỏ nhất & lớn nhất thành? →
Z-score = 0 nghĩa là gì? →

Làm toán AI ✍️ — Bài A19 · Chuẩn hóa dữ liệuTrang 1/2 · ĐỀ

Làm toán AI ✍️ · Toán × AI

ĐÁP ÁN

Bài A19

Chuẩn hóa dữ liệu — lời giải

Min-max

min = 2 , max = 8 , range = 6
x = 4: (4 − 2)/6 = 0.33 (min→0, max→1)

μ & σ

μ = (2 + 4 + 6 + 8)/4 = 5
σ = √( 9 + 1 + 1 + 9 /4 ) = √5 ≈ 2.24

Z-score

z(max=8) = (8 − 5)/2.24 ≈ +1.34
z(min=2) ≈ −1.34

▦

So sánh: gốc → min-max → z-score

[0,1] vs quanh 0

Min-max bám hai đầu mút (nhạy ngoại lệ); z-score bám trung bình & độ trải (giữ phân phối). Chọn theo bài toán.

✎ Tự kiểm tra — đáp án

Min-max nhỏ nhất & lớn nhất? → 0 và 1.
Z-score = 0? → Giá trị đúng bằng trung bình μ.

Rút ra. Chuẩn hóa đưa đặc trưng về cùng thang để mạng học công bằng; min-max gói vào [0,1], z-score canh quanh 0/σ. Bài tiếp (A20): one-hot — biến nhãn rời rạc thành vectơ 0/1 để đưa vào mô hình.

Làm toán AI ✍️ — Bài A19 · Chuẩn hóa dữ liệuTrang 2/2 · ĐÁP ÁN