Bài học

3 bài đầu miễn phí. Mua trọn bộ để mở tất cả.

Nền tảng AIK1

Toán nền + ML cổ điển + Nơ-ron/MLP

41/41 phiếu

FREE — Miễn phí cho mọi người học

A1A

FREE

Vectơ: cộng, trừ, nhân vô hướng

Cộng/trừ từng ô, nhân hệ số — phép tay nền của mọi bài sau.

A2A

FREE

Độ dài & chuẩn

Tính √(Σx²) và Σ|x| — đo độ lớn của một vectơ.

01A

FREE

Tích vô hướng

Nhân từng cặp rồi cộng → một con số. Viên gạch của mọi phép tính AI.

A4A

FREE

Cosine similarity

dot ÷ (‖a‖‖b‖) → độ giống nhau về hướng giữa hai vectơ.

A5A

FREE

Phép chiếu vectơ

(a·b/‖b‖²)·b — bóng của a lên hướng b.

A6A

FREE

Ma trận chuyển vị

Lật hàng ↔ cột — thao tác xuất hiện khắp attention/backprop.

02A

FREE

Nhân ma trận

Xếp nhiều tích vô hướng: Cᵢⱼ = hàng i · cột j.

A8A

FREE

Ma trận × vectơ

Mỗi hàng một tích vô hướng → vectơ kết quả.

A9A

FREE

Định thức & nghịch đảo 2×2

ad − bc, rồi công thức nghịch đảo ma trận 2×2.

A10A

FREE

Hệ phương trình tuyến tính nhỏ

Khử Gauss cho hệ 2×2 bằng tay.

A11A

FREE

Trị riêng / vectơ riêng 2×2

Giải đa thức đặc trưng → trị riêng & vectơ riêng.

A12A

FREE

Đạo hàm một biến

Quy tắc lũy thừa/hằng — viên gạch của gradient.

A13A

FREE

Quy tắc chuỗi

dy/dx = dy/du · du/dx với số thật — gốc của backprop.

A14A

FREE

Gradient hàm nhiều biến

Đạo hàm riêng từng biến → gom thành vectơ ∇.

A15A

FREE

Ma trận Jacobian nhỏ

Bảng đạo hàm riêng 2×2 cho hàm vectơ → vectơ.

A16A

FREE

Xác suất, kỳ vọng, phương sai

Tính E[X], Var(X) trên một bảng nhỏ.

A17A

FREE

Phân phối Bernoulli / Categorical

Xác suất từng lớp, kiểm tổng = 1.

A18A

FREE

exp & log (dùng bảng tra)

Tra eˣ, ln x bằng bảng cho sẵn — phục vụ softmax/CE.

A19A

FREE

Chuẩn hóa dữ liệu: min-max & z-score

(x−min)/(max−min) và (x−μ)/σ.

A20A

FREE

One-hot encoding

Nhãn → vectơ 0/1 để máy hiểu được.

B1B

FREE

Hồi quy tuyến tính 1 biến

Least squares, tìm y = ax + b khớp dữ liệu.

B2B

FREE

Hồi quy tuyến tính nhiều biến

Normal equation nhỏ (XᵀX) bằng tay.

B3B

FREE

Hồi quy logistic 1 bước

sigmoid(wx+b) → loss → một bước cập nhật.

B4B

FREE

k-NN — k láng giềng gần nhất

Tính khoảng cách, bỏ phiếu chọn lớp.

B5B

FREE

k-means 1 vòng

Gán điểm vào cụm + cập nhật tâm cụm.

B6B

FREE

PCA 2D

Hiệp phương sai → trục chính → chiếu dữ liệu.

B7B

FREE

Naive Bayes

Nhân các xác suất → so sánh hậu nghiệm.

B8B

FREE

Cây quyết định: Entropy & Information Gain

Chọn split tốt nhất theo độ lợi thông tin.

B9B

FREE

Cây quyết định: Gini

Tính chỉ số Gini cho từng split.

B10B

FREE

SVM: lề hình học

Khoảng cách điểm tới siêu phẳng phân tách.

B11B

FREE

Gradient Boosting — ý tưởng

Khớp phần dư của mô hình trước, một bước.

03C

FREE

Lớp tuyến tính

Khối Lego của deep learning: W trộn đầu vào, b dịch chuyển.

C2C

FREE

Sigmoid chi tiết + đạo hàm

σ(z) và σ'(z) = σ(1−σ).

C3C

FREE

Tanh + đạo hàm

tanh(z) và đạo hàm 1 − tanh².

04C

FREE

Hàm kích hoạt

ReLU = max(0,z), sigmoid ép về (0,1). Vì sao cần phi tuyến.

05C

FREE

Một nơ-ron

z = w·x + b → a = f(z). Tế bào của mạng.

06C

FREE

Một lớp nơ-ron

Nhiều nơ-ron song song → vectơ h = ReLU(Wx + b).

07C

FREE

Lớp ẩn — MLP nhỏ

2 → 2(ẩn) → 1. Lan truyền xuôi qua hai lớp.

08C

FREE

Mạng sâu / rộng

So hai kiến trúc cùng số tham số, hình dáng khác hẳn.

C9C

FREE

Đếm tham số mạng

Σ(W + b) từng lớp → tổng tham số.

09C

FREE

Softmax đầu ra

Logit → eˣ → chuẩn hóa thành xác suất cộng = 1.

Huấn luyện & Kiến trúcK2

Tối ưu + Chuẩn hóa + CNN + RNN/LSTM

43/43 phiếu

Có trong gói: Cơ bản · Pro · Trọn bộ

D1D

🔒

MSE / MAE

Trung bình bình phương / tuyệt đối của sai số.

D2D

🔒

Binary Cross-Entropy

−[y ln p + (1−y) ln(1−p)] cho bài nhị phân.

17D

🔒

Cross-Entropy

ℒ = −ln p(đúng); gradient gọn g = p − y.

D4D

🔒

KL Divergence

Σ p ln(p/q) — khoảng cách giữa hai phân phối.

10D

🔒

Gradient — một bước học

θ ← θ − η∇: bi lăn xuống đáy parabol. Vai trò của η.

D6D

🔒

Gradient descent 2 biến

Đi theo ∇ trên mặt đường đồng mức.

12D

🔒

Backpropagation

Forward ra ℒ, backward bằng quy tắc chuỗi ra mọi gradient.

D8D

🔒

Backprop qua MLP nhiều lớp

δ lan ngược qua từng lớp ẩn.

D9D

🔒

Backprop qua Softmax + CE

Rút gọn đẹp: g = p − y.

D10D

🔒

SGD vanilla (1 mini-batch)

Trung bình gradient cả batch → một bước cập nhật.

D11D

🔒

Momentum

v ← βv + ∇; θ ← θ − ηv — quán tính giúp đi nhanh.

D12D

🔒

RMSProp

Chia bước theo √(trung bình ∇²) từng tham số.

23D

🔒

Adam — một bước cập nhật

m, v, hiệu chỉnh bias, bước thích nghi θ ← θ − η·m̂/√v̂.

D14D

🔒

AdamW (weight decay)

Tách phạt trọng số ra khỏi gradient của Adam.

E1E

🔒

Khởi tạo trọng số (Xavier / He)

Tính phương sai khởi tạo theo fan-in.

E2E

🔒

Vanishing / Exploding gradient

Nhân chuỗi đạo hàm < 1 hoặc > 1 → tắt/nổ.

E3E

🔒

L2 regularization / weight decay

Thêm λ‖w‖² vào loss & gradient.

E4E

🔒

L1 regularization

λΣ|w| — đẩy trọng số nhỏ về 0 (thưa).

E5E

🔒

Dropout (mask + scale)

Nhân mask 0/1 rồi chia (1−p) khi huấn luyện.

E6E

🔒

BatchNorm — chuẩn hóa theo batch

μ, σ trên batch rồi γ, β.

20E

🔒

LayerNorm / RMSNorm

Chuẩn hóa theo hàng: μ, σ, γ, β; RMSNorm rẻ hơn.

E8E

🔒

Learning rate schedule (step / cosine)

Tính η tại bước t theo lịch.

E9E

🔒

Gradient clipping

Cắt gradient theo chuẩn ‖g‖ để tránh nổ.

E10E

🔒

Mini-batch vs full-batch

Trung bình gradient theo cỡ batch khác nhau.

E11E

🔒

Early stopping

Đọc đường train/val, chọn điểm dừng.

16F

🔒

CNN — một bộ lọc

Trượt kernel 3×3 → feature map → ReLU → max-pool.

F2F

🔒

Kích thước đầu ra (stride, padding)

(W − K + 2P)/S + 1.

F3F

🔒

Conv nhiều kênh (RGB)

Cộng tích chập trên 3 kênh màu.

F4F

🔒

Nhiều bộ lọc → nhiều feature map

Mỗi filter cho một bản đồ đặc trưng.

F5F

🔒

Max / Average Pooling

Lấy max / trung bình mỗi cửa sổ.

F6F

🔒

Receptive field

Vùng ảnh ảnh hưởng tới một ô sâu.

F7F

🔒

Conv 1×1

Trộn kênh theo từng điểm ảnh.

F8F

🔒

Transposed conv (upsampling)

Trải ô ra lưới lớn hơn để phóng to.

F9F

🔒

Kết nối tắt (Residual / skip)

y = F(x) + x — giúp mạng rất sâu học được.

F10F

🔒

Đếm tham số một lớp conv

K·K·Cᵢₙ·Cₒᵤₜ + bias.

21G

🔒

RNN — một bước hồi quy

hₜ = tanh(Wₓxₜ + Wₕhₜ₋₁ + b): ký ức qua thời gian.

G3G

🔒

RNN trải nhiều bước (BPTT)

Chạy 3 bước, thấy gradient nhân chuỗi qua thời gian.

22G

🔒

LSTM — một ô nhớ

Cổng quên / vào / ra với số thật; băng chuyền ký ức.

G5G

🔒

GRU 1 ô

Cổng cập nhật / đặt lại — gọn hơn LSTM.

G6G

🔒

Bi-directional RNN

Gộp hai chiều xuôi/ngược của chuỗi.

G7G

🔒

Seq2seq encoder → decoder

Nén chuỗi → vectơ ngữ cảnh → giải mã.

G8G

🔒

Giải mã: Greedy vs Beam search

Chọn token theo xác suất, giữ top-b nhánh.

G9G

🔒

Teacher forcing

Dùng nhãn thật làm đầu vào bước kế khi huấn luyện.

Transformer & LLMK3

Attention + LLM + Mô hình sinh

29/29 phiếu

Có trong gói: Pro · Trọn bộ

19G

🔒

Embedding & Positional

Tra bảng token → vectơ, cộng dấu vị trí sin/cos.

H1H

🔒

Scaled dot-product attention

QKᵀ/√d → softmax → ·V (bản chi tiết từng bước).

11H

🔒

Self-Attention

Q, K, V → S = QKᵀ → √d → softmax → O = A·V.

14H

🔒

Khối GPT — Masked Attention

Thêm mask nhân quả → ma trận chú ý tam giác dưới.

18H

🔒

Multi-Head Attention

Chạy nhiều đầu song song, Concat rồi trộn bằng Wᴼ.

15H

🔒

Cross-Attention

Decoder lấy Q hỏi sang bộ nhớ K,V của encoder.

13H

🔒

Khối Transformer

Z=LN(X+Attn), Y=LN(Z+FFN(Z)). Viên gạch của GPT/BERT.

H7H

🔒

Positional Encoding sin/cos (chi tiết)

Tính nhiều vị trí × nhiều tần số.

H8H

🔒

RoPE — Rotary embedding

Xoay một cặp chiều theo vị trí token.

H9H

🔒

Padding mask trong attention

Che các token đệm khỏi điểm chú ý.

H10H

🔒

KV cache — sinh token tiếp theo

Tái dùng K,V cũ, chỉ tính cho token mới.

H11H

🔒

FFN trong Transformer

Hai lớp Linear + GELU, tính riêng từng ô.

I1I

🔒

Tokenization / BPE

Gộp cặp ký tự hay gặp nhất, từng bước.

I2I

🔒

Logits → softmax → sampling

top-k, top-p và nhiệt độ τ.

I3I

🔒

Perplexity

exp(trung bình −ln p) — đo độ 'ngạc nhiên'.

26I

🔒

Mixture of Experts

Router softmax chọn top-k chuyên gia cho mỗi token.

I5I

🔒

LoRA — cập nhật hạng thấp

ΔW = B·A với hạng nhỏ, tiết kiệm tham số.

I6I

🔒

Quantization int8

scale + làm tròn trọng số về số nguyên.

I7I

🔒

Embedding similarity / RAG retrieval

Cosine giữa truy vấn & tài liệu → chọn top.

I8I

🔒

Greedy decode trọn một chuỗi

Sinh từng token đến khi kết thúc.

I9I

🔒

Repetition penalty / logit bias

Điều chỉnh logit trước softmax.

I10I

🔒

Chat template → token hóa

Gói system/user/assistant thành chuỗi token.

24J

🔒

Autoencoder / VAE

Nén x → z → dựng lại; reparam z = μ + σ⊙ε để sinh mẫu.

J2J

🔒

VAE — reparam + KL (chi tiết)

z = μ + σ⊙ε; phạt KL kéo về N(0,1).

J3J

🔒

GAN — một bước D và G

Discriminator chấm thật/giả, generator học lừa.

J4J

🔒

Diffusion: forward (thêm nhiễu)

xₜ = √ᾱ x₀ + √(1−ᾱ) ε.

25J

🔒

Diffusion — một bước khử nhiễu

Đoán nhiễu ε → ước lượng x̂₀ → trộn lại ít nhiễu hơn.

J6J

🔒

Noise schedule

Tính β, α, ᾱ theo từng bước thời gian.

J7J

🔒

Sampling DDPM vs DDIM

So hai cách lấy mẫu khi sinh ảnh.

Chuyên sâu & Dự ánK4

RL + Đánh giá + Nâng cao + Capstone

25/25 phiếu

Có trong gói: Trọn bộ

K1K

🔒

Phần thưởng & chiết khấu

Return G = Σ γᵏ rₖ — cộng thưởng có chiết khấu.

K2K

🔒

Phương trình Bellman

V(s) ← r + γ V(s').

K3K

🔒

Q-learning — một cập nhật

Q ← Q + α[r + γ max Q' − Q].

K4K

🔒

SARSA

Cập nhật theo hành động thực sự đã đi.

K5K

🔒

Chính sách ε-greedy

Cân giữa khám phá ngẫu nhiên và khai thác tham lam.

K6K

🔒

Policy Gradient (REINFORCE)

∇ log π · G, một bước cập nhật chính sách.

K7K

🔒

Advantage / baseline

A = G − V để giảm phương sai.

K8K

🔒

PPO — ý tưởng cắt (clip)

Kẹp tỉ lệ xác suất để bước cập nhật an toàn.

L1L

🔒

Ma trận nhầm lẫn → Acc/P/R/F1

Đếm TP/FP/FN/TN → Accuracy, Precision, Recall, F1.

L2L

🔒

ROC & AUC

Vẽ điểm theo ngưỡng, tính diện tích hình thang.

L3L

🔒

Cosine similarity (đo embedding)

So hai vectơ biểu diễn bằng cosine.

L4L

🔒

BLEU — n-gram

Đếm n-gram trùng + brevity penalty.

L5L

🔒

Top-k accuracy

Đúng nếu nhãn nằm trong top-k dự đoán.

L6L

🔒

Calibration (độ tin cậy)

So xác suất dự đoán với tần suất thực tế.

L7L

🔒

FLOPs — đếm phép tính một lớp

Đếm nhân–cộng của matmul / conv.

L8L

🔒

Độ trễ & thông lượng (ý tưởng)

Ước lượng thời gian chạy và throughput.

M1M

🔒

GNN — message passing một bước

Gộp tin nhắn từ các đỉnh hàng xóm.

M2M

🔒

Contrastive learning (InfoNCE)

Kéo cặp dương lại, đẩy cặp âm ra.

M3M

🔒

Triplet loss

anchor – positive – negative.

M4M

🔒

Multi-modal (CLIP)

Cosine ảnh × chữ trong cùng không gian.

M5M

🔒

Knowledge distillation

Học từ nhãn mềm của mô hình thầy.

N1N

🔒

MLP phân loại điểm 2D — đủ vòng

forward → loss → backward → cập nhật, trọn một vòng.

N2N

🔒

Mini-CNN nhận chữ số

conv → pool → FC → softmax.

N3N

🔒

Mini-GPT: 2 token, sinh 1 token

embedding → attention → FFN → logits.

N4N

🔒

Logistic regression hội tụ

Lặp vài vòng đến khi loss giảm rõ.