Nền tảng AIK1
Toán nền + ML cổ điển + Nơ-ron/MLP
FREE — Miễn phí cho mọi người học
Vectơ: cộng, trừ, nhân vô hướng
Cộng/trừ từng ô, nhân hệ số — phép tay nền của mọi bài sau.
Độ dài & chuẩn
Tính √(Σx²) và Σ|x| — đo độ lớn của một vectơ.
Tích vô hướng
Nhân từng cặp rồi cộng → một con số. Viên gạch của mọi phép tính AI.
Cosine similarity
dot ÷ (‖a‖‖b‖) → độ giống nhau về hướng giữa hai vectơ.
Phép chiếu vectơ
(a·b/‖b‖²)·b — bóng của a lên hướng b.
Ma trận chuyển vị
Lật hàng ↔ cột — thao tác xuất hiện khắp attention/backprop.
Nhân ma trận
Xếp nhiều tích vô hướng: Cᵢⱼ = hàng i · cột j.
Ma trận × vectơ
Mỗi hàng một tích vô hướng → vectơ kết quả.
Định thức & nghịch đảo 2×2
ad − bc, rồi công thức nghịch đảo ma trận 2×2.
Hệ phương trình tuyến tính nhỏ
Khử Gauss cho hệ 2×2 bằng tay.
Trị riêng / vectơ riêng 2×2
Giải đa thức đặc trưng → trị riêng & vectơ riêng.
Đạo hàm một biến
Quy tắc lũy thừa/hằng — viên gạch của gradient.
Quy tắc chuỗi
dy/dx = dy/du · du/dx với số thật — gốc của backprop.
Gradient hàm nhiều biến
Đạo hàm riêng từng biến → gom thành vectơ ∇.
Ma trận Jacobian nhỏ
Bảng đạo hàm riêng 2×2 cho hàm vectơ → vectơ.
Xác suất, kỳ vọng, phương sai
Tính E[X], Var(X) trên một bảng nhỏ.
Phân phối Bernoulli / Categorical
Xác suất từng lớp, kiểm tổng = 1.
exp & log (dùng bảng tra)
Tra eˣ, ln x bằng bảng cho sẵn — phục vụ softmax/CE.
Chuẩn hóa dữ liệu: min-max & z-score
(x−min)/(max−min) và (x−μ)/σ.
One-hot encoding
Nhãn → vectơ 0/1 để máy hiểu được.
Hồi quy tuyến tính 1 biến
Least squares, tìm y = ax + b khớp dữ liệu.
Hồi quy tuyến tính nhiều biến
Normal equation nhỏ (XᵀX) bằng tay.
Hồi quy logistic 1 bước
sigmoid(wx+b) → loss → một bước cập nhật.
k-NN — k láng giềng gần nhất
Tính khoảng cách, bỏ phiếu chọn lớp.
k-means 1 vòng
Gán điểm vào cụm + cập nhật tâm cụm.
PCA 2D
Hiệp phương sai → trục chính → chiếu dữ liệu.
Naive Bayes
Nhân các xác suất → so sánh hậu nghiệm.
Cây quyết định: Entropy & Information Gain
Chọn split tốt nhất theo độ lợi thông tin.
Cây quyết định: Gini
Tính chỉ số Gini cho từng split.
SVM: lề hình học
Khoảng cách điểm tới siêu phẳng phân tách.
Gradient Boosting — ý tưởng
Khớp phần dư của mô hình trước, một bước.
Lớp tuyến tính
Khối Lego của deep learning: W trộn đầu vào, b dịch chuyển.
Sigmoid chi tiết + đạo hàm
σ(z) và σ'(z) = σ(1−σ).
Tanh + đạo hàm
tanh(z) và đạo hàm 1 − tanh².
Hàm kích hoạt
ReLU = max(0,z), sigmoid ép về (0,1). Vì sao cần phi tuyến.
Một nơ-ron
z = w·x + b → a = f(z). Tế bào của mạng.
Một lớp nơ-ron
Nhiều nơ-ron song song → vectơ h = ReLU(Wx + b).
Lớp ẩn — MLP nhỏ
2 → 2(ẩn) → 1. Lan truyền xuôi qua hai lớp.
Mạng sâu / rộng
So hai kiến trúc cùng số tham số, hình dáng khác hẳn.
Đếm tham số mạng
Σ(W + b) từng lớp → tổng tham số.
Softmax đầu ra
Logit → eˣ → chuẩn hóa thành xác suất cộng = 1.
Huấn luyện & Kiến trúcK2
Tối ưu + Chuẩn hóa + CNN + RNN/LSTM
Có trong gói: Cơ bản · Pro · Trọn bộ
MSE / MAE
Trung bình bình phương / tuyệt đối của sai số.
Binary Cross-Entropy
−[y ln p + (1−y) ln(1−p)] cho bài nhị phân.
Cross-Entropy
ℒ = −ln p(đúng); gradient gọn g = p − y.
KL Divergence
Σ p ln(p/q) — khoảng cách giữa hai phân phối.
Gradient — một bước học
θ ← θ − η∇: bi lăn xuống đáy parabol. Vai trò của η.
Gradient descent 2 biến
Đi theo ∇ trên mặt đường đồng mức.
Backpropagation
Forward ra ℒ, backward bằng quy tắc chuỗi ra mọi gradient.
Backprop qua MLP nhiều lớp
δ lan ngược qua từng lớp ẩn.
Backprop qua Softmax + CE
Rút gọn đẹp: g = p − y.
SGD vanilla (1 mini-batch)
Trung bình gradient cả batch → một bước cập nhật.
Momentum
v ← βv + ∇; θ ← θ − ηv — quán tính giúp đi nhanh.
RMSProp
Chia bước theo √(trung bình ∇²) từng tham số.
Adam — một bước cập nhật
m, v, hiệu chỉnh bias, bước thích nghi θ ← θ − η·m̂/√v̂.
AdamW (weight decay)
Tách phạt trọng số ra khỏi gradient của Adam.
Khởi tạo trọng số (Xavier / He)
Tính phương sai khởi tạo theo fan-in.
Vanishing / Exploding gradient
Nhân chuỗi đạo hàm < 1 hoặc > 1 → tắt/nổ.
L2 regularization / weight decay
Thêm λ‖w‖² vào loss & gradient.
L1 regularization
λΣ|w| — đẩy trọng số nhỏ về 0 (thưa).
Dropout (mask + scale)
Nhân mask 0/1 rồi chia (1−p) khi huấn luyện.
BatchNorm — chuẩn hóa theo batch
μ, σ trên batch rồi γ, β.
LayerNorm / RMSNorm
Chuẩn hóa theo hàng: μ, σ, γ, β; RMSNorm rẻ hơn.
Learning rate schedule (step / cosine)
Tính η tại bước t theo lịch.
Gradient clipping
Cắt gradient theo chuẩn ‖g‖ để tránh nổ.
Mini-batch vs full-batch
Trung bình gradient theo cỡ batch khác nhau.
Early stopping
Đọc đường train/val, chọn điểm dừng.
CNN — một bộ lọc
Trượt kernel 3×3 → feature map → ReLU → max-pool.
Kích thước đầu ra (stride, padding)
(W − K + 2P)/S + 1.
Conv nhiều kênh (RGB)
Cộng tích chập trên 3 kênh màu.
Nhiều bộ lọc → nhiều feature map
Mỗi filter cho một bản đồ đặc trưng.
Max / Average Pooling
Lấy max / trung bình mỗi cửa sổ.
Receptive field
Vùng ảnh ảnh hưởng tới một ô sâu.
Conv 1×1
Trộn kênh theo từng điểm ảnh.
Transposed conv (upsampling)
Trải ô ra lưới lớn hơn để phóng to.
Kết nối tắt (Residual / skip)
y = F(x) + x — giúp mạng rất sâu học được.
Đếm tham số một lớp conv
K·K·Cᵢₙ·Cₒᵤₜ + bias.
RNN — một bước hồi quy
hₜ = tanh(Wₓxₜ + Wₕhₜ₋₁ + b): ký ức qua thời gian.
RNN trải nhiều bước (BPTT)
Chạy 3 bước, thấy gradient nhân chuỗi qua thời gian.
LSTM — một ô nhớ
Cổng quên / vào / ra với số thật; băng chuyền ký ức.
GRU 1 ô
Cổng cập nhật / đặt lại — gọn hơn LSTM.
Bi-directional RNN
Gộp hai chiều xuôi/ngược của chuỗi.
Seq2seq encoder → decoder
Nén chuỗi → vectơ ngữ cảnh → giải mã.
Giải mã: Greedy vs Beam search
Chọn token theo xác suất, giữ top-b nhánh.
Teacher forcing
Dùng nhãn thật làm đầu vào bước kế khi huấn luyện.
Transformer & LLMK3
Attention + LLM + Mô hình sinh
Có trong gói: Pro · Trọn bộ
Embedding & Positional
Tra bảng token → vectơ, cộng dấu vị trí sin/cos.
Scaled dot-product attention
QKᵀ/√d → softmax → ·V (bản chi tiết từng bước).
Self-Attention
Q, K, V → S = QKᵀ → √d → softmax → O = A·V.
Khối GPT — Masked Attention
Thêm mask nhân quả → ma trận chú ý tam giác dưới.
Multi-Head Attention
Chạy nhiều đầu song song, Concat rồi trộn bằng Wᴼ.
Cross-Attention
Decoder lấy Q hỏi sang bộ nhớ K,V của encoder.
Khối Transformer
Z=LN(X+Attn), Y=LN(Z+FFN(Z)). Viên gạch của GPT/BERT.
Positional Encoding sin/cos (chi tiết)
Tính nhiều vị trí × nhiều tần số.
RoPE — Rotary embedding
Xoay một cặp chiều theo vị trí token.
Padding mask trong attention
Che các token đệm khỏi điểm chú ý.
KV cache — sinh token tiếp theo
Tái dùng K,V cũ, chỉ tính cho token mới.
FFN trong Transformer
Hai lớp Linear + GELU, tính riêng từng ô.
Tokenization / BPE
Gộp cặp ký tự hay gặp nhất, từng bước.
Logits → softmax → sampling
top-k, top-p và nhiệt độ τ.
Perplexity
exp(trung bình −ln p) — đo độ 'ngạc nhiên'.
Mixture of Experts
Router softmax chọn top-k chuyên gia cho mỗi token.
LoRA — cập nhật hạng thấp
ΔW = B·A với hạng nhỏ, tiết kiệm tham số.
Quantization int8
scale + làm tròn trọng số về số nguyên.
Embedding similarity / RAG retrieval
Cosine giữa truy vấn & tài liệu → chọn top.
Greedy decode trọn một chuỗi
Sinh từng token đến khi kết thúc.
Repetition penalty / logit bias
Điều chỉnh logit trước softmax.
Chat template → token hóa
Gói system/user/assistant thành chuỗi token.
Autoencoder / VAE
Nén x → z → dựng lại; reparam z = μ + σ⊙ε để sinh mẫu.
VAE — reparam + KL (chi tiết)
z = μ + σ⊙ε; phạt KL kéo về N(0,1).
GAN — một bước D và G
Discriminator chấm thật/giả, generator học lừa.
Diffusion: forward (thêm nhiễu)
xₜ = √ᾱ x₀ + √(1−ᾱ) ε.
Diffusion — một bước khử nhiễu
Đoán nhiễu ε → ước lượng x̂₀ → trộn lại ít nhiễu hơn.
Noise schedule
Tính β, α, ᾱ theo từng bước thời gian.
Sampling DDPM vs DDIM
So hai cách lấy mẫu khi sinh ảnh.
Chuyên sâu & Dự ánK4
RL + Đánh giá + Nâng cao + Capstone
Có trong gói: Trọn bộ
Phần thưởng & chiết khấu
Return G = Σ γᵏ rₖ — cộng thưởng có chiết khấu.
Phương trình Bellman
V(s) ← r + γ V(s').
Q-learning — một cập nhật
Q ← Q + α[r + γ max Q' − Q].
SARSA
Cập nhật theo hành động thực sự đã đi.
Chính sách ε-greedy
Cân giữa khám phá ngẫu nhiên và khai thác tham lam.
Policy Gradient (REINFORCE)
∇ log π · G, một bước cập nhật chính sách.
Advantage / baseline
A = G − V để giảm phương sai.
PPO — ý tưởng cắt (clip)
Kẹp tỉ lệ xác suất để bước cập nhật an toàn.
Ma trận nhầm lẫn → Acc/P/R/F1
Đếm TP/FP/FN/TN → Accuracy, Precision, Recall, F1.
ROC & AUC
Vẽ điểm theo ngưỡng, tính diện tích hình thang.
Cosine similarity (đo embedding)
So hai vectơ biểu diễn bằng cosine.
BLEU — n-gram
Đếm n-gram trùng + brevity penalty.
Top-k accuracy
Đúng nếu nhãn nằm trong top-k dự đoán.
Calibration (độ tin cậy)
So xác suất dự đoán với tần suất thực tế.
FLOPs — đếm phép tính một lớp
Đếm nhân–cộng của matmul / conv.
Độ trễ & thông lượng (ý tưởng)
Ước lượng thời gian chạy và throughput.
GNN — message passing một bước
Gộp tin nhắn từ các đỉnh hàng xóm.
Contrastive learning (InfoNCE)
Kéo cặp dương lại, đẩy cặp âm ra.
Triplet loss
anchor – positive – negative.
Multi-modal (CLIP)
Cosine ảnh × chữ trong cùng không gian.
Knowledge distillation
Học từ nhãn mềm của mô hình thầy.
MLP phân loại điểm 2D — đủ vòng
forward → loss → backward → cập nhật, trọn một vòng.
Mini-CNN nhận chữ số
conv → pool → FC → softmax.
Mini-GPT: 2 token, sinh 1 token
embedding → attention → FFN → logits.
Logistic regression hội tụ
Lặp vài vòng đến khi loss giảm rõ.