neural-fundamentals

Backpropagation

Lan truyền ngược: truy ngược lỗi qua từng lớp

Độ khóintermediate

1Ẩn dụ mở đầu1/8

Mạng đoán sai. Vậy lỗi đến từ LỚP NÀO?

Hình dung bạn là giáo viên chấm bài nhóm. Cả nhóm cùng làm một bài tập, kết quả cuối sai 5 điểmso với đáp án. Câu hỏi quan trọng không phải “sai hay đúng”, mà là mỗi thành viên góp bao nhiêu vào cái sai đó, để bạn biết ai cần học lại phần gì.

Mạng nơ-ron cũng vậy. Khi ŷ khác target 0.2 đơn vị, câu hỏi thú vị là: weight nào chịu trách nhiệm bao nhiêu? Câu trả lời cho cả triệu weight cùng một lúc chính là backpropagation. Nó “truy ngược lỗi” từ đầu ra về từng lớp bằng quy tắc chuỗi, chỉ tốn một lần duyệt ngược.

Forward

Dữ liệu chảy từ trái sang phải, mạng đưa ra dự đoán.

So loss

So dự đoán với đáp án, ra một con số sai lệch.

Backward

Truy ngược lỗi qua từng lớp, phân bổ trách nhiệm cho từng weight.

2Thử đoán2/8

Bạn đã biết phải 'truy ngược lỗi qua từng lớp'. Mạng có 1 triệu weight. Nếu bạn truy ngược NGÂY THƠ, tức mỗi weight chạy lại cả mạng một lần để đo ảnh hưởng, thì mất bao nhiêu lần duyệt mạng cho một bước cập nhật?

3Khám phá tương tác3/8

Hình minh họa

1Thí nghiệm 1: Sơ đồ mạng 2-3-1

Mạng có 2 đầu vào, 3 nơ-ron ẩn (sigmoid), 1 đầu ra (sigmoid). Tổng 9 weight. Mục tiêu y = 0.8. Bấm các nút dưới để thấy forward, backward, và cập nhật diễn ra trên cùng một sơ đồ.

Learning rate η0.80

η nhỏ thì học chậm. η vừa thì mượt. η lớn thì dao động hoặc phân kỳ.

Bước

0.568

Target

0.80

Loss

0.0269

Đường loss qua 0 bướcmin L = Infinity

2Thí nghiệm 2: Ba kịch bản learning rate

Bấm một nút để đặt mạng về trạng thái khởi tạo và chọn η tương ứng, rồi bấm Tự chạy ở trên để quan sát.

Ba điều đáng chú ý trong thí nghiệm

Thứ nhất: gradient ở cạnh cuối (hidden → output) có con số đáng kể. Thứ hai: gradient ở cạnh đầu (input → hidden) nhỏ hơn, vì đã bị nhân thêm σ′(z) < 0.25. Thứ ba: sau mỗi bước, weight nào có gradient lớn thì đổi nhiều hơn weight nào có gradient nhỏ. Đây chính là “phân bổ trách nhiệm” bằng toán.

4Đi sâu vào sáu bước cụ thể4/8

Giờ mổ xẻ một mạng mini (một đầu vào → một ẩn → một ra) với số nhỏ để bạn có thể theo dõi mọi con số. Bấm Tiếp tục để xem từng bước. Con số ở mỗi bước được tính thật bằng công thức bạn vừa thấy.

1. Forward

Bước 1. Forward: lấy ŷ

x → z = w₁·x → h = σ(z) → z_out = w₂·h → ŷ = σ(z_out)

Cho đầu vào x₁ = 0.6, x₂ = 0.9. Với weight khởi tạo, mạng tính z = -0.09, activation h = σ(z) = 0.478. Qua lớp ra: z_out = w₂·h = 0.167, và dự đoán ŷ = σ(z_out) = 0.542. Forward KHÔNG vứt đi các con số này. Chúng sẽ dùng lại ở backward.

Sáu bước, chỉ nhân và cộng. Không phép thuật. Mỗi lớp nhớ activation của mình, tính đạo hàm cục bộ (một hai dòng), rồi nhân vào gradient truyền ngược. Làm như thế qua 100 lớp cũng không khó hơn, chỉ dài hơn. Đây là lý do bạn có thể viết backpropagation bằng tay cho mạng nhỏ, và framework làm tự động cho mạng tỉ tham số.

5Thử thách5/8

Mạng 2-3-1. Bạn tính được ∂L/∂ŷ = 0.3, ŷ = 0.7, và weight w₂ nối h₁ → ŷ bằng 0.5. Áp dụng chain rule, ∂L/∂h₁ bằng bao nhiêu?

Mạng 50 lớp, toàn sigmoid. Đạo hàm sigmoid cực đại = 0.25 (đạt khi activation = 0.5). Gradient ở LỚP ĐẦU TIÊN (xa output nhất) có độ lớn xấp xỉ bao nhiêu so với gradient ở lớp CUỐI?

6Giải thích toán6/8

Giải thích

Bạn đã thấy backprop chạy bằng số trong mạng mini ở Bước 4. Giờ ta viết lại bằng ba công thức tổng quát. Mỗi công thức kèm một hình minh hoạ và một câu “nó nghĩa là gì bằng tiếng Việt đời thường”.

Quy tắc chuỗi xuyên mạng

Gradient của loss theo một weight ở lớp đầu = tích các đạo hàm cục bộ suốt đường đi từ weight đó đến output.

\\frac{\\partial L}{\\partial w} = \\frac{\\partial L}{\\partial \\hat{y}} \\cdot \\frac{\\partial \\hat{y}}{\\partial z_{\\text{out}}} \\cdot \\frac{\\partial z_{\\text{out}}}{\\partial h} \\cdot \\frac{\\partial h}{\\partial z} \\cdot \\frac{\\partial z}{\\partial w}

“Để biết một weight ở lớp đầu ảnh hưởng loss bao nhiêu, đi ngược đường đi tín hiệu, nhân đạo hàm cục bộ ở mỗi đoạn.”

Gradient loss theo một weight, dạng gọn

Mỗi weight wᵢⱼ (nối nơ-ron j → nơ-ron i) có công thức: gradient sai số lan về nhân với activation đi vào.

\\frac{\\partial L}{\\partial w_{ij}} = \\delta_i \\cdot a_j

“Weight giữa A và B được cập nhật theo tích của hai thứ: A phát ra bao nhiêu (a_j), và B chịu trách nhiệm bao nhiêu cho lỗi cuối (δ_i).”

Cập nhật weight bằng gradient descent

Sau khi backprop xong, áp dụng công thức này cho MỌI weight cùng một lúc.

w \\leftarrow w - \\eta \\, \\frac{\\partial L}{\\partial w}

“Weight cũ trừ đi cỡ bước (η) nhân trách nhiệm (gradient). Làm đồng thời cho mọi weight. Đó là một lần gradient descent trên toàn mạng.”

Ba công thức ghép thành một thuật toán

(1) Chain rule cho biết làm sao đi ngược qua mạng; (2) công thức δ·a biến chain rule thành một phép tính cục bộ ở từng cạnh weight; (3) update rule dùng gradient để đi về phía loss nhỏ hơn. Ba mảnh này là toàn bộ thuật toán backpropagation. Những thứ còn lại (batch, momentum, Adam, learning rate schedule) chỉ là cải tiến xung quanh lõi này.

Để hiểu sâu về cách tính đạo hàm (chain rule, đạo hàm riêng, gradient), đọc giải tích cho backprop. Để hiểu cách dùng gradient để đi về minimum (learning rate, momentum, Adam), đọc gradient descent. Backprop chỉ tính gradient. Việc đi xuống đồi là của gradient descent.

7Tóm tắt & Liên kết7/8

Năm ý bạn mang về

Backprop trả lời câu hỏi: mỗi weight ảnh hưởng loss bao nhiêu. Gradient ∂L/∂w là đơn vị đo của 'trách nhiệm'.
Cách làm: bắt đầu từ ∂L/∂output (con số duy nhất biết trực tiếp), rồi áp quy tắc chuỗi để lan ngược về từng lớp.
Công thức gọn cho một weight: ∂L/∂w_ij = δ_i · a_j. Tích của gradient lan về và activation đi vào.
Gradient descent cập nhật: w ← w − η · ∂L/∂w. Dấu TRỪ vì gradient chỉ hướng TĂNG của loss.
Thách thức thực tế ở mạng sâu: vanishing hoặc exploding gradient. Giải pháp: ReLU, Batch Normalization, Residual Connection.

Bước kế tiếp trong lộ trình

Backprop chỉ TÍNH gradient. Phần quyết định đi về đâu là của gradient descent (bao gồm các biến thể như momentum, Adam). Và nền tảng toán của chain rule xuyên mạng nằm ở giải tích cho backprop. Nếu bạn thấy mấy công thức trên hơi khó, đọc bài đó trước rồi quay lại sẽ dễ hơn rất nhiều.

Một sự thật lịch sử

Ý tưởng backprop có từ Seppo Linnainmaa (1970) và Paul Werbos (1974), nhưng phải đến bài báo của Rumelhart, Hinton, Williams (1986) cộng đồng mới nhìn ra sức mạnh thực sự của nó cho mạng đa tầng. Gần 40 năm sau, mọi framework deep learning (PyTorch, TensorFlow, JAX) đều xây quanh đúng thuật toán này. Nó là công cụ toán học đứng sau mọi model lớn hiện tại, từ GPT đến Stable Diffusion.

8Kiểm tra8/8

Kiểm tra hiểu biết

Câu 1/7

Backpropagation trả lời cho câu hỏi gì bằng tiếng Việt đời thường?

Bạn có thể quay lại sơ đồ mạng và kịch bản learning rate bất cứ lúc nào để củng cố trực giác.

Chủ đề liên quan

Forward Propagation: Lan truyền thuận Gradient Descent: Gradient descent: xoay weight để loss giảm dần Loss Functions: Hàm loss: điểm số của model