Vì sao quan trọng. Sigmoid biến điểm thô thành xác suất (đầu ra nhị phân) và từng là kích hoạt phổ biến. Hiểu đạo hàm
của nó giải thích vì sao mạng sâu dùng sigmoid bị tắt gradient ở hai đầu bão hòa.
💡 Trực giác
Sigmoid như công tắc mờ: z rất âm → gần 0 (tắt), rất dương → gần 1 (bật), quanh 0 → dốc nhất (nhạy). Ở hai đầu nó
phẳng lì → đạo hàm ≈ 0 → tín hiệu học gần như không qua được.
0
Cho sẵn + bảng tra σ
z = 1
z
−2
−1
0
1
2
σ(z)
0.12
0.27
0.5
0.73
0.88
Bảng cho sẵn để khỏi tính e−z bằng tay; mọi câu hỏi rơi đúng mốc trong bảng.
1
Giá trị σ(z)
tra bảng
σ(1) =
Vì sao: luôn nằm trong (0, 1) → đọc được như "độ bật" / xác suất.
2
Đạo hàm σ'(z) = σ(1 − σ)
dùng lại σ
σ'(1) = 0.73·(1 − 0.73) = 0.73·0.27 =
Không cần đạo hàm lại từ đầu — dùng chính giá trị σ vừa tra.
3
Đỉnh đạo hàm & bão hòa
≤ 0.25
tại z = 0: σ' = 0.5·0.5 = (lớn nhất)
tại z = 2: σ' = 0.88·0.12 = (đã nhỏ)
Vì sao: đạo hàm cực đại chỉ 0.25; càng ra biên càng nhỏ → nhân dồn qua nhiều lớp ⇒ vanishing gradient.
✎ Tự kiểm tra
Đạo hàm sigmoid lớn nhất bằng bao nhiêu, ở đâu? →
Vì sao sigmoid gây vanishing gradient? →
Làm toán AI ✍️ — Bài C2 · Sigmoid & đạo hàmTrang 1/2 · ĐỀ
Làm toán AI ✍️ · Toán × AI
ĐÁP ÁN
Bài C2
Sigmoid & đạo hàm — lời giải
1
σ(z)
σ(1) = 0.73
2
Đạo hàm
σ'(1) = 0.73·0.27 = 0.20
3
Đỉnh & bão hòa
z = 0: 0.5·0.5 = 0.25 (lớn nhất) ;
z = 2: 0.88·0.12 = 0.11 (đã nhỏ)
▦
Đường chữ S & tiếp tuyến tại z
độ dốc = σ'
Đường lam = σ(z); đường cam = tiếp tuyến tại z = 1, độ dốc = σ'(z) = 0.20.
Vì σ' ≤ 0.25, gradient teo nhanh ở mạng sâu — lý do ReLU (Bài C4) lên ngôi.
✎ Tự kiểm tra — đáp án
σ' lớn nhất? → 0.25 tại z = 0.
Vanishing? → σ' ≤ 0.25 và ≈ 0 ở vùng bão hòa → nhân dồn teo dần.
Rút ra. σ' = σ(1 − σ) ≤ 0.25; bão hòa hai đầu làm tắt gradient. Bài tiếp (C3): tanh — họ hàng đối xứng quanh 0.
Làm toán AI ✍️ — Bài C2 · Sigmoid & đạo hàmTrang 2/2 · ĐÁP ÁN