Phiếu in A4 · tính tay Mức: nhập môn · ML cổ điển (B)
Bài B11
Gradient Boosting — ý tưởng (XGBoost/LightGBM)
Họ tên: Ngày: Thời gian: ~12 phút
Vì sao quan trọng. Một cây nông dự đoán dở, nhưng cộng dồn nhiều cây, mỗi cây sửa lỗi còn lại của cây trước,
thì rất mạnh — chiến thắng nhiều cuộc thi ML trên dữ liệu bảng. "Gradient" vì phần dư chính là gradient của loss MSE.
F₀ = trung bình | rₘ = y − Fₘ₋₁ (phần dư) | Fₘ = Fₘ₋₁ + η·hₘ(x) (hₘ khớp rₘ)
💡 Trực giác
Như sửa bài nhiều lượt: dự đoán thô trước, xem còn sai bao nhiêu (phần dư), rồi thêm một "miếng vá" nhỏ chuyên
chữa phần sai đó. Lặp vài lượt, mỗi lượt vá thêm một ít (×η để khỏi vá quá tay).
0
Cho sẵn
3 mẫu
y = (2, 4, 9) |
F₀ = trung bình | η = 0.5
Vì sao: bắt đầu bằng dự đoán "ngu nhất nhưng hợp lý" = trung bình; rồi sửa dần.
1
F₀ & phần dư
r = y − F₀
F₀ = (y₁+y₂+y₃)/3 =
r = (, , )
Vì sao: với loss MSE, phần dư chính là −gradient → "boosting theo gradient".
2
Mô hình yếu h₁ khớp dư
≈ r
h₁ = (, , ) (khớp đúng r ở ví dụ tối giản)
Mẹo: thực tế h₁ chỉ xấp xỉ r, không khớp hoàn hảo.
3
Cập nhật F₁ = F₀ + η·h₁
bước một phần
F₁ = F₀ + η·h₁ = (, , )
Vì sao: chỉ bước một phần (η<1) về phía đúng → giảm sai từ từ, tránh khớp quá (overfit).
Làm toán AI ✍️ — Bài B11 · Gradient BoostingTrang 1/3 · ĐỀ
Làm toán AI ✍️ · Toán × AI
Phiếu in A4 · tính tay Gradient Boosting — tiếp theo
Bài B11
Gradient Boosting — dư mới & hội tụ
4
Dư mới & lặp
r₂ = y − F₁
r₂ = y − F₁ = (, , ) → so với r₁ thì
Vì sao: sau khi vá một phần, sai số còn lại (dư mới) nhỏ hơn dư cũ → vòng sau tiếp tục co lại.
Lặp tiếp với h₂ khớp r₂… tổng các cây hội tụ về y. Mỗi vòng phần dư co lại.
5
Vẽ sai số qua các vòng
|r₁| → |r₂|
Vì sao: mỗi nhóm 3 cột là |dư| của 3 mẫu; nhóm sau (|r₂|) phải thấp hơn nhóm trước (|r₁|).
Tự vẽ chiều cao từng cột theo |r₁|, |r₂| đã tính; boosting kéo sai số xuống dần.
✎ Tự kiểm tra
Mỗi mô hình mới học cái gì? →
Vì sao nhân học suất η < 1? →
Làm toán AI ✍️ — Bài B11 · Gradient BoostingTrang 2/3 · ĐỀ
Lặp tiếp với h₂ khớp r₂… tổng các cây hội tụ về y. Mỗi vòng phần dư co lại.
5
Sai số thu nhỏ qua các vòng
|r₁| → |r₂|
Nhóm cột |r₁| (trước) cao hơn nhóm |r₂| (sau) — boosting kéo sai số xuống dần.
✎ Tự kiểm tra — đáp án
Mô hình mới học → Phần dư (sai số) của tổng các mô hình trước.
Vì sao η < 1 → Bước từ từ để tránh khớp quá, tăng khái quát.
Rút ra. Boosting = cộng dồn mô hình yếu, mỗi cái chữa dư của tổng trước (= đi theo gradient của loss).
Hết Phần B. Sang Phần C (nơ-ron) — Bài tiếp: lớp tuyến tính, hàm kích hoạt, một nơ-ron.
Làm toán AI ✍️ — Bài B11 · Gradient BoostingTrang 3/3 · ĐÁP ÁN