Phiếu in A4 · tính tay Mức: nhập môn · ML cổ điển (B)
Bài B6
PCA 2D — Principal Component Analysis
Họ tên: Ngày: Thời gian: ~14 phút
Vì sao quan trọng. Dữ liệu nhiều chiều khó nhìn và tốn tính. PCA giữ lại vài hướng mang nhiều thông tin nhất
(phương sai lớn) và bỏ phần "phẳng" — nén dữ liệu, khử nhiễu, trực quan hóa.
x' = x − x̄ | C = (1/m)·Σ x'·x'ᵀ | trục chính = vectơ riêng (λ lớn nhất) | tọa độ mới = x'·v
💡 Trực giác
Đám điểm như một vệt khói nghiêng. PCA xoay trục để trục thứ nhất nằm dọc theo chiều vệt dài nhất (trải nhiều
nhất). Chiếu lên trục đó giữ được phần lớn "hình dạng" dữ liệu chỉ bằng một chiều.
0
Dữ liệu cho sẵn
3 điểm 2D
(x, y)
1
1
2
2
3
3
Trung bình x̄ = (, )
Vì sao: PCA đo độ trải quanh trung bình, nên phải dời gốc về x̄ trước.
1
Trung tâm hóa
x − x̄
x'₁ = (, )
x'₂ = (, )
x'₃ = (, )
Mẹo: trừ x̄ khỏi từng điểm → đám điểm "dồn quanh gốc".
2
Hiệp phương sai C
2×2
C = (1/3)·Σ x'x'ᵀ
C₁₁ = C₁₂ = C₂₂ =
Vì sao: C đối xứng; phần tử ngoài đường chéo = mức đồng biến giữa hai trục.
3
Trục chính = vectơ riêng (λ lớn nhất)
hướng phương sai max
C tỉ lệ [[1, 1],[1, 1]] → λ lớn = ,
v = (, )/√2
Vì sao: hướng v là nơi dữ liệu trải dài nhất (mọi điểm gần như nằm trên đường này) → giữ gần 100% phương sai.
Làm toán AI ✍️ — Bài B6 · PCA 2DTrang 1/3 · ĐỀ
Làm toán AI ✍️ · Toán × AI
Phiếu in A4 · tính tay PCA 2D — tiếp theo
Bài B6
PCA 2D — vẽ trục chính
4
Vẽ trục chính qua đám điểm
hướng v
Vì sao: trục chính (vectơ riêng λ lớn) chạy dọc theo chiều dữ liệu trải dài nhất — gần như xuyên qua cả 3 điểm.
Tự kẻ đường thẳng qua trung bình x̄ theo hướng v = (1, 1)/√2; nhận xét cả 3 điểm gần như nằm trên đường.
✎ Tự kiểm tra
Trục chính PCA là vectơ riêng ứng trị riêng nào? →
λ lớn = 2, v = (1, 1)/√2 |
chiếu x'₃ = x'₃·v = 2/√2 = √2 ≈ 1.41
Trục phụ (vuông góc v) có phương sai 0 → bỏ đi không mất gì; đó là sức mạnh giảm chiều của PCA.
4
Hình minh họa
trục chính
Ba điểm gần như nằm trên một đường; trục chính (cam) chạy dọc theo đường đó —
chiều dữ liệu trải dài nhất.
✎ Tự kiểm tra — đáp án
Trục chính ứng trị riêng nào? → Lớn nhất (phương sai lớn nhất).
Vì sao trung tâm hóa? → Để đo phương sai quanh trung bình, không bị lệch bởi vị trí gốc.
Rút ra. PCA = trung tâm hóa → hiệp phương sai → vectơ riêng lớn nhất → chiếu; giữ thông tin
bằng ít chiều hơn. Hết mạch ML "thuần đại số"; Bài tiếp (B7): phân loại bằng xác suất — Naive Bayes.
Làm toán AI ✍️ — Bài B6 · PCA 2DTrang 3/3 · ĐÁP ÁN