math-foundations

Calculus for Backpropagation

Giải tích cho backpropagation

Độ khóintermediate

1Ẩn dụ mở đầu1/8

Mạng nơ-ron học như đầu bếp nếm canh

Đầu bếp múc một thìa canh, nếm, rồi quyết định: mặn hơn hay nhạt hơn bao nhiêu? Nếu hơi nhạt, thêm một nhúm muối. Nếu hơi mặn, đổ thêm chút nước. Câu hỏi “bao nhiêu” quan trọng không kém câu hỏi “hướng nào”. Nêm tay nặng sẽ hỏng nồi canh.

Cái đầu bếp đo bằng tay đó chính là đạo hàm: câu trả lời cho câu hỏi “thay đổi nhỏ này làm kết quả đổi bao nhiêu?”. Còn quy tắc chuỗi là cách đầu bếp truy ngược xem mỗi bước nấu (thêm muối → đun sôi → rắc hành) đóng góp bao nhiêu vào vị canh cuối cùng.

Bước nấu

Thêm muối, đun sôi, rắc hành. Mỗi bước là một hàm.

Nếm vị

So với “vị mong muốn” ra một con số gọi là loss.

Truy ngược

Bước nào nên sửa bao nhiêu? Chain rule trả lời.

2Thử đoán2/8

Bạn biết chain rule là NHÂN các đạo hàm cục bộ trên đường ống. Đường ống có ba đoạn với đạo hàm cục bộ lần lượt là 2, 3, và 4. Đạo hàm tổng (output theo đầu vào) bằng bao nhiêu?

3Khám phá tương tác3/8

Hình minh họa

1Thí nghiệm 1: đường ống hàm hợp

Dữ liệu x chảy qua ba đoạn ống g → h → f. Mỗi đoạn có một đạo hàm cục bộ, tức là thay đổi nhỏ ở đầu vào của đoạn đó làm đầu ra đổi bao nhiêu. Bấm vào một nút giao để xem chi tiết.

Lớp Ẩnh(g) = g²

Đạo hàm cục bộ: ∂h/∂g = 2g = 8.00

Ý nghĩa: g tăng 1 → h tăng 2g. Đây là một mảnh của câu trả lời cuối. Chain rule nhân tất cả các mảnh lại.

Kéo thanh x và quan sát: đạo hàm ∂h/∂g = 2g thay đổi theo g, trong khi ∂f/∂h = 1 giữ nguyên. Tích của chúng là gradient tổng.

Giá trị đầu vào x1.5

2Thí nghiệm 2: đạo hàm là độ dốc

Kéo thanh để di chuyển điểm trên parabol L(w) = (w − 3)² + 1. Đường tiếp tuyến màu cam cho biết độ dốc tại điểm đó, đúng bằng giá trị đạo hàm.

1.00

L(w)

5.00

dL/dw

-4.00

Độ dốc âm: loss đang giảm về bên phải, cần tăng w.

Vị trí weight w1

4Đi sâu hơn vào mạng hai lớp4/8

Giờ ta rút gọn mạng nơ-ron thành ba giai đoạn: vào → lớp ẩn → đầu ra → loss. Bấm “Tiếp tục” để thấy từng mảnh đạo hàm cục bộ xuất hiện, rồi cách chúng nhân lại với nhau.

x → a₁

Bước 1: Lớp vào

x → a₁

Giá trị đầu vào x chạy qua lớp đầu tiên theo công thức a₁ = w₁·x + b₁. Đạo hàm cục bộ của a₁ theo x chính là w₁, tức là hệ số của lớp này.

Chain rule không phải phép thuật. Nó chỉ là cách tổ chức việc cộng hưởng các thay đổi nhỏ. Mỗi lớp chỉ cần biết đạo hàm cục bộ CỦA RIÊNG NÓ. Sau đó, gradient của toàn mạng được ráp lại bằng phép nhân. Nhờ vậy, mạng tỉ tham số hôm nay huấn luyện được trong vài giờ, chứ không phải vài tháng.

5Thử thách5/8

Cho f(g(x)) với g(x) = 3x và f(g) = g². Áp dụng chain rule, df/dx tại x = 2 bằng bao nhiêu?

Trong một mạng 5 lớp, mọi đạo hàm cục bộ đều bằng 0.3. Gradient của loss theo weight ở lớp đầu tiên (tính qua chain rule) có độ lớn bao nhiêu?

6Giải thích toán6/8

Giải thích

Bạn đã thấy bằng hình: mỗi lớp là một “đoạn ống” có đạo hàm cục bộ. Giờ ta viết lại bằng ba công thức, mỗi công thức đi kèm một câu “nó nghĩa là gì bằng tiếng Việt đời thường”.

Quy tắc chuỗi cho hai lớp hàm

Nếu y = f(g(x)), đạo hàm tổng bằng tích đạo hàm cục bộ.

\frac{dy}{dx} = \frac{dy}{dg} \cdot \frac{dg}{dx}

“Muốn biết y thay đổi bao nhiêu khi x đổi một tí, hãy xem g thay đổi bao nhiêu khi x đổi, rồi y thay đổi bao nhiêu khi g đổi, cuối cùng nhân lại.”

Đạo hàm riêng: một biến mỗi lần

Khi loss L phụ thuộc nhiều weight, ∂L/∂wᵢ chỉ hỏi: “giữ các weight khác yên, đổi riêng wᵢ thì L đổi bao nhiêu?”.

\frac{\partial L}{\partial w_i} = \lim_{h \to 0} \frac{L(\ldots, w_i + h, \ldots) - L(\ldots, w_i, \ldots)}{h}

“Trong một phòng có 5 người, câu hỏi ‘nếu chỉ một mình bạn thay đổi, nhóm sẽ thay đổi ra sao?’ là đạo hàm riêng.”

Gradient: gom tất cả đạo hàm riêng thành một vector

Mỗi thành phần ứng với một weight. Vector này chỉ hướng loss tăng nhanh nhất, nên ta đi NGƯỢC nó.

\nabla L = \left[ \frac{\partial L}{\partial w_1}, \frac{\partial L}{\partial w_2}, \ldots, \frac{\partial L}{\partial w_n} \right]

“Tưởng tượng bạn đứng trên sườn đồi sương mù. Gradient là ngón tay chỉ hướng dốc lên. Gradient descent là: đi ngược ngón tay đó, từng bước nhỏ.”

Ba công thức, một câu chuyện

Đạo hàm (một biến) đi tới đạo hàm riêng (nhiều biến, lắc một thanh), rồi tới gradient (gom lại thành vector), cuối cùng là quy tắc chuỗi (nhân các gradient cục bộ xuyên qua các lớp). Đây là toàn bộ bộ công cụ toán bạn cần để hiểu backpropagation.

Công cụ đã đủ. Bước kế tiếp là ráp chúng lại thành một thuật toán huấn luyện hoàn chỉnh. Xem Gradient: mũi tên chỉ đường xuống dốc để thấy gradient descent hoạt động trên một mặt 2D có thể tương tác.

7Tóm tắt và liên kết7/8

Bốn ý bạn mang về

Đạo hàm trả lời: 'thay đổi nhỏ này làm kết quả đổi bao nhiêu'. Trong ML, đó là dL/dw.
Đạo hàm riêng giữ mọi biến khác yên, chỉ lắc một biến. Gradient là vector gom mọi đạo hàm riêng lại.
Quy tắc chuỗi nhân các đạo hàm cục bộ xuyên qua mạng. Đó là nền tảng của backpropagation.
Mỗi lớp chỉ cần biết đạo hàm cục bộ của mình. Backprop ráp các mảnh lại bằng phép nhân, không cần thần thánh.

Xem ứng dụng thực tế

Toán này không chỉ là lý thuyết. Meta dùng đúng những công thức trên để huấn luyện LLaMA 3.1 với 405 tỉ tham số. Xem cách làm ở Giải tích trong huấn luyện mô hình.

8Kiểm tra8/8

Kiểm tra hiểu biết

Câu 1/6

Đạo hàm dL/dw = -4 nghĩa là gì theo cách dễ hiểu nhất?

Bạn có thể làm lại quiz và thử lại visualizations bất cứ lúc nào.

Chủ đề liên quan

Backpropagation: Lan truyền ngược: truy ngược lỗi qua từng lớp Gradient Descent: Gradient descent: xoay weight để loss giảm dần Loss Functions: Hàm loss: điểm số của model