AI by Hand ✍️

Bài học

3 bài đầu miễn phí. Mua trọn bộ để mở tất cả.

Nền tảng AIK1

Toán nền + ML cổ điển + Nơ-ron/MLP

41/41 phiếu

FREE — Miễn phí cho mọi người học

A1A
FREE

Vectơ: cộng, trừ, nhân vô hướng

Cộng/trừ từng ô, nhân hệ số — phép tay nền của mọi bài sau.

A2A
FREE

Độ dài & chuẩn

Tính √(Σx²) và Σ|x| — đo độ lớn của một vectơ.

01A
FREE

Tích vô hướng

Nhân từng cặp rồi cộng → một con số. Viên gạch của mọi phép tính AI.

A4A
FREE

Cosine similarity

dot ÷ (‖a‖‖b‖) → độ giống nhau về hướng giữa hai vectơ.

A5A
FREE

Phép chiếu vectơ

(a·b/‖b‖²)·b — bóng của a lên hướng b.

A6A
FREE

Ma trận chuyển vị

Lật hàng ↔ cột — thao tác xuất hiện khắp attention/backprop.

02A
FREE

Nhân ma trận

Xếp nhiều tích vô hướng: Cᵢⱼ = hàng i · cột j.

A8A
FREE

Ma trận × vectơ

Mỗi hàng một tích vô hướng → vectơ kết quả.

A9A
FREE

Định thức & nghịch đảo 2×2

ad − bc, rồi công thức nghịch đảo ma trận 2×2.

A10A
FREE

Hệ phương trình tuyến tính nhỏ

Khử Gauss cho hệ 2×2 bằng tay.

A11A
FREE

Trị riêng / vectơ riêng 2×2

Giải đa thức đặc trưng → trị riêng & vectơ riêng.

A12A
FREE

Đạo hàm một biến

Quy tắc lũy thừa/hằng — viên gạch của gradient.

A13A
FREE

Quy tắc chuỗi

dy/dx = dy/du · du/dx với số thật — gốc của backprop.

A14A
FREE

Gradient hàm nhiều biến

Đạo hàm riêng từng biến → gom thành vectơ ∇.

A15A
FREE

Ma trận Jacobian nhỏ

Bảng đạo hàm riêng 2×2 cho hàm vectơ → vectơ.

A16A
FREE

Xác suất, kỳ vọng, phương sai

Tính E[X], Var(X) trên một bảng nhỏ.

A17A
FREE

Phân phối Bernoulli / Categorical

Xác suất từng lớp, kiểm tổng = 1.

A18A
FREE

exp & log (dùng bảng tra)

Tra eˣ, ln x bằng bảng cho sẵn — phục vụ softmax/CE.

A19A
FREE

Chuẩn hóa dữ liệu: min-max & z-score

(x−min)/(max−min) và (x−μ)/σ.

A20A
FREE

One-hot encoding

Nhãn → vectơ 0/1 để máy hiểu được.

B1B
FREE

Hồi quy tuyến tính 1 biến

Least squares, tìm y = ax + b khớp dữ liệu.

B2B
FREE

Hồi quy tuyến tính nhiều biến

Normal equation nhỏ (XᵀX) bằng tay.

B3B
FREE

Hồi quy logistic 1 bước

sigmoid(wx+b) → loss → một bước cập nhật.

B4B
FREE

k-NN — k láng giềng gần nhất

Tính khoảng cách, bỏ phiếu chọn lớp.

B5B
FREE

k-means 1 vòng

Gán điểm vào cụm + cập nhật tâm cụm.

B6B
FREE

PCA 2D

Hiệp phương sai → trục chính → chiếu dữ liệu.

B7B
FREE

Naive Bayes

Nhân các xác suất → so sánh hậu nghiệm.

B8B
FREE

Cây quyết định: Entropy & Information Gain

Chọn split tốt nhất theo độ lợi thông tin.

B9B
FREE

Cây quyết định: Gini

Tính chỉ số Gini cho từng split.

B10B
FREE

SVM: lề hình học

Khoảng cách điểm tới siêu phẳng phân tách.

B11B
FREE

Gradient Boosting — ý tưởng

Khớp phần dư của mô hình trước, một bước.

03C
FREE

Lớp tuyến tính

Khối Lego của deep learning: W trộn đầu vào, b dịch chuyển.

C2C
FREE

Sigmoid chi tiết + đạo hàm

σ(z) và σ'(z) = σ(1−σ).

C3C
FREE

Tanh + đạo hàm

tanh(z) và đạo hàm 1 − tanh².

04C
FREE

Hàm kích hoạt

ReLU = max(0,z), sigmoid ép về (0,1). Vì sao cần phi tuyến.

05C
FREE

Một nơ-ron

z = w·x + b → a = f(z). Tế bào của mạng.

06C
FREE

Một lớp nơ-ron

Nhiều nơ-ron song song → vectơ h = ReLU(Wx + b).

07C
FREE

Lớp ẩn — MLP nhỏ

2 → 2(ẩn) → 1. Lan truyền xuôi qua hai lớp.

08C
FREE

Mạng sâu / rộng

So hai kiến trúc cùng số tham số, hình dáng khác hẳn.

C9C
FREE

Đếm tham số mạng

Σ(W + b) từng lớp → tổng tham số.

09C
FREE

Softmax đầu ra

Logit → eˣ → chuẩn hóa thành xác suất cộng = 1.

Huấn luyện & Kiến trúcK2

Tối ưu + Chuẩn hóa + CNN + RNN/LSTM

43/43 phiếu

Có trong gói: Cơ bản · Pro · Trọn bộ

D1D
🔒

MSE / MAE

Trung bình bình phương / tuyệt đối của sai số.

D2D
🔒

Binary Cross-Entropy

−[y ln p + (1−y) ln(1−p)] cho bài nhị phân.

17D
🔒

Cross-Entropy

ℒ = −ln p(đúng); gradient gọn g = p − y.

D4D
🔒

KL Divergence

Σ p ln(p/q) — khoảng cách giữa hai phân phối.

10D
🔒

Gradient — một bước học

θ ← θ − η∇: bi lăn xuống đáy parabol. Vai trò của η.

D6D
🔒

Gradient descent 2 biến

Đi theo ∇ trên mặt đường đồng mức.

12D
🔒

Backpropagation

Forward ra ℒ, backward bằng quy tắc chuỗi ra mọi gradient.

D8D
🔒

Backprop qua MLP nhiều lớp

δ lan ngược qua từng lớp ẩn.

D9D
🔒

Backprop qua Softmax + CE

Rút gọn đẹp: g = p − y.

D10D
🔒

SGD vanilla (1 mini-batch)

Trung bình gradient cả batch → một bước cập nhật.

D11D
🔒

Momentum

v ← βv + ∇; θ ← θ − ηv — quán tính giúp đi nhanh.

D12D
🔒

RMSProp

Chia bước theo √(trung bình ∇²) từng tham số.

23D
🔒

Adam — một bước cập nhật

m, v, hiệu chỉnh bias, bước thích nghi θ ← θ − η·m̂/√v̂.

D14D
🔒

AdamW (weight decay)

Tách phạt trọng số ra khỏi gradient của Adam.

E1E
🔒

Khởi tạo trọng số (Xavier / He)

Tính phương sai khởi tạo theo fan-in.

E2E
🔒

Vanishing / Exploding gradient

Nhân chuỗi đạo hàm < 1 hoặc > 1 → tắt/nổ.

E3E
🔒

L2 regularization / weight decay

Thêm λ‖w‖² vào loss & gradient.

E4E
🔒

L1 regularization

λΣ|w| — đẩy trọng số nhỏ về 0 (thưa).

E5E
🔒

Dropout (mask + scale)

Nhân mask 0/1 rồi chia (1−p) khi huấn luyện.

E6E
🔒

BatchNorm — chuẩn hóa theo batch

μ, σ trên batch rồi γ, β.

20E
🔒

LayerNorm / RMSNorm

Chuẩn hóa theo hàng: μ, σ, γ, β; RMSNorm rẻ hơn.

E8E
🔒

Learning rate schedule (step / cosine)

Tính η tại bước t theo lịch.

E9E
🔒

Gradient clipping

Cắt gradient theo chuẩn ‖g‖ để tránh nổ.

E10E
🔒

Mini-batch vs full-batch

Trung bình gradient theo cỡ batch khác nhau.

E11E
🔒

Early stopping

Đọc đường train/val, chọn điểm dừng.

16F
🔒

CNN — một bộ lọc

Trượt kernel 3×3 → feature map → ReLU → max-pool.

F2F
🔒

Kích thước đầu ra (stride, padding)

(W − K + 2P)/S + 1.

F3F
🔒

Conv nhiều kênh (RGB)

Cộng tích chập trên 3 kênh màu.

F4F
🔒

Nhiều bộ lọc → nhiều feature map

Mỗi filter cho một bản đồ đặc trưng.

F5F
🔒

Max / Average Pooling

Lấy max / trung bình mỗi cửa sổ.

F6F
🔒

Receptive field

Vùng ảnh ảnh hưởng tới một ô sâu.

F7F
🔒

Conv 1×1

Trộn kênh theo từng điểm ảnh.

F8F
🔒

Transposed conv (upsampling)

Trải ô ra lưới lớn hơn để phóng to.

F9F
🔒

Kết nối tắt (Residual / skip)

y = F(x) + x — giúp mạng rất sâu học được.

F10F
🔒

Đếm tham số một lớp conv

K·K·Cᵢₙ·Cₒᵤₜ + bias.

21G
🔒

RNN — một bước hồi quy

hₜ = tanh(Wₓxₜ + Wₕhₜ₋₁ + b): ký ức qua thời gian.

G3G
🔒

RNN trải nhiều bước (BPTT)

Chạy 3 bước, thấy gradient nhân chuỗi qua thời gian.

22G
🔒

LSTM — một ô nhớ

Cổng quên / vào / ra với số thật; băng chuyền ký ức.

G5G
🔒

GRU 1 ô

Cổng cập nhật / đặt lại — gọn hơn LSTM.

G6G
🔒

Bi-directional RNN

Gộp hai chiều xuôi/ngược của chuỗi.

G7G
🔒

Seq2seq encoder → decoder

Nén chuỗi → vectơ ngữ cảnh → giải mã.

G8G
🔒

Giải mã: Greedy vs Beam search

Chọn token theo xác suất, giữ top-b nhánh.

G9G
🔒

Teacher forcing

Dùng nhãn thật làm đầu vào bước kế khi huấn luyện.

Transformer & LLMK3

Attention + LLM + Mô hình sinh

29/29 phiếu

Có trong gói: Pro · Trọn bộ

19G
🔒

Embedding & Positional

Tra bảng token → vectơ, cộng dấu vị trí sin/cos.

H1H
🔒

Scaled dot-product attention

QKᵀ/√d → softmax → ·V (bản chi tiết từng bước).

11H
🔒

Self-Attention

Q, K, V → S = QKᵀ → √d → softmax → O = A·V.

14H
🔒

Khối GPT — Masked Attention

Thêm mask nhân quả → ma trận chú ý tam giác dưới.

18H
🔒

Multi-Head Attention

Chạy nhiều đầu song song, Concat rồi trộn bằng Wᴼ.

15H
🔒

Cross-Attention

Decoder lấy Q hỏi sang bộ nhớ K,V của encoder.

13H
🔒

Khối Transformer

Z=LN(X+Attn), Y=LN(Z+FFN(Z)). Viên gạch của GPT/BERT.

H7H
🔒

Positional Encoding sin/cos (chi tiết)

Tính nhiều vị trí × nhiều tần số.

H8H
🔒

RoPE — Rotary embedding

Xoay một cặp chiều theo vị trí token.

H9H
🔒

Padding mask trong attention

Che các token đệm khỏi điểm chú ý.

H10H
🔒

KV cache — sinh token tiếp theo

Tái dùng K,V cũ, chỉ tính cho token mới.

H11H
🔒

FFN trong Transformer

Hai lớp Linear + GELU, tính riêng từng ô.

I1I
🔒

Tokenization / BPE

Gộp cặp ký tự hay gặp nhất, từng bước.

I2I
🔒

Logits → softmax → sampling

top-k, top-p và nhiệt độ τ.

I3I
🔒

Perplexity

exp(trung bình −ln p) — đo độ 'ngạc nhiên'.

26I
🔒

Mixture of Experts

Router softmax chọn top-k chuyên gia cho mỗi token.

I5I
🔒

LoRA — cập nhật hạng thấp

ΔW = B·A với hạng nhỏ, tiết kiệm tham số.

I6I
🔒

Quantization int8

scale + làm tròn trọng số về số nguyên.

I7I
🔒

Embedding similarity / RAG retrieval

Cosine giữa truy vấn & tài liệu → chọn top.

I8I
🔒

Greedy decode trọn một chuỗi

Sinh từng token đến khi kết thúc.

I9I
🔒

Repetition penalty / logit bias

Điều chỉnh logit trước softmax.

I10I
🔒

Chat template → token hóa

Gói system/user/assistant thành chuỗi token.

24J
🔒

Autoencoder / VAE

Nén x → z → dựng lại; reparam z = μ + σ⊙ε để sinh mẫu.

J2J
🔒

VAE — reparam + KL (chi tiết)

z = μ + σ⊙ε; phạt KL kéo về N(0,1).

J3J
🔒

GAN — một bước D và G

Discriminator chấm thật/giả, generator học lừa.

J4J
🔒

Diffusion: forward (thêm nhiễu)

xₜ = √ᾱ x₀ + √(1−ᾱ) ε.

25J
🔒

Diffusion — một bước khử nhiễu

Đoán nhiễu ε → ước lượng x̂₀ → trộn lại ít nhiễu hơn.

J6J
🔒

Noise schedule

Tính β, α, ᾱ theo từng bước thời gian.

J7J
🔒

Sampling DDPM vs DDIM

So hai cách lấy mẫu khi sinh ảnh.

Chuyên sâu & Dự ánK4

RL + Đánh giá + Nâng cao + Capstone

25/25 phiếu

Có trong gói: Trọn bộ

K1K
🔒

Phần thưởng & chiết khấu

Return G = Σ γᵏ rₖ — cộng thưởng có chiết khấu.

K2K
🔒

Phương trình Bellman

V(s) ← r + γ V(s').

K3K
🔒

Q-learning — một cập nhật

Q ← Q + α[r + γ max Q' − Q].

K4K
🔒

SARSA

Cập nhật theo hành động thực sự đã đi.

K5K
🔒

Chính sách ε-greedy

Cân giữa khám phá ngẫu nhiên và khai thác tham lam.

K6K
🔒

Policy Gradient (REINFORCE)

∇ log π · G, một bước cập nhật chính sách.

K7K
🔒

Advantage / baseline

A = G − V để giảm phương sai.

K8K
🔒

PPO — ý tưởng cắt (clip)

Kẹp tỉ lệ xác suất để bước cập nhật an toàn.

L1L
🔒

Ma trận nhầm lẫn → Acc/P/R/F1

Đếm TP/FP/FN/TN → Accuracy, Precision, Recall, F1.

L2L
🔒

ROC & AUC

Vẽ điểm theo ngưỡng, tính diện tích hình thang.

L3L
🔒

Cosine similarity (đo embedding)

So hai vectơ biểu diễn bằng cosine.

L4L
🔒

BLEU — n-gram

Đếm n-gram trùng + brevity penalty.

L5L
🔒

Top-k accuracy

Đúng nếu nhãn nằm trong top-k dự đoán.

L6L
🔒

Calibration (độ tin cậy)

So xác suất dự đoán với tần suất thực tế.

L7L
🔒

FLOPs — đếm phép tính một lớp

Đếm nhân–cộng của matmul / conv.

L8L
🔒

Độ trễ & thông lượng (ý tưởng)

Ước lượng thời gian chạy và throughput.

M1M
🔒

GNN — message passing một bước

Gộp tin nhắn từ các đỉnh hàng xóm.

M2M
🔒

Contrastive learning (InfoNCE)

Kéo cặp dương lại, đẩy cặp âm ra.

M3M
🔒

Triplet loss

anchor – positive – negative.

M4M
🔒

Multi-modal (CLIP)

Cosine ảnh × chữ trong cùng không gian.

M5M
🔒

Knowledge distillation

Học từ nhãn mềm của mô hình thầy.

N1N
🔒

MLP phân loại điểm 2D — đủ vòng

forward → loss → backward → cập nhật, trọn một vòng.

N2N
🔒

Mini-CNN nhận chữ số

conv → pool → FC → softmax.

N3N
🔒

Mini-GPT: 2 token, sinh 1 token

embedding → attention → FFN → logits.

N4N
🔒

Logistic regression hội tụ

Lặp vài vòng đến khi loss giảm rõ.