math-foundations

Gradient Intuition

Gradient: mũi tên chỉ đường xuống dốc

Độ khóintermediate

1Ẩn dụ mở đầu1/8

Bạn đang trên núi sương mù

Bạn bị lạc trên đồi, sương phủ kín, chỉ thấy được vài mét mặt đất dưới chân. Bạn cần xuống đến thung lũng để trú ẩn. Làm sao đi được khi không thấy gì xa hơn chân mình?

Câu trả lời rất gọn: đi về phía dốc xuống mạnh nhất. Nhìn đất dưới chân, bên nào thấp hơn rõ rệt thì bước về đó. Lặp lại. Cuối cùng bạn sẽ tới đáy. Có thể không phải đáy sâu nhất, nhưng chắc chắn là một đáy.

Đó chính là gradient descent. Máy học cũng đi đúng như vậy. Chỉ khác là đồi của nó là mặt loss, và tọa độ là weights.

Đồi

Mặt loss L(x, y). Mỗi tọa độ là một bộ weight.

Ngón tay

Gradient ∇L: chỉ hướng dốc lên.

Bước chân

θ ← θ − η∇L: bước ngược lại để xuống.

2Thử đoán2/8

Bạn đã biết phải đi ngược hướng dốc xuống. Giờ chọn độ dài MỖI BƯỚC. Bạn đặt bước rất to (η lớn) để xuống thật nhanh. Chuyện gì dễ xảy ra nhất?

3Khám phá tương tác3/8

Hình minh họa

1Thí nghiệm 1: Thả bóng lên mặt loss

Bấm vào bản đồ contourđể đặt bóng ở vị trí đó. Các đường cong là “đường đồng mức” loss, giống đường đồng mức trên bản đồ địa hình. Xanh là thấp (gần đáy), đỏ là cao.

Bản đồ contour của L(x, y)

Vị trí: (-3.00, 3.00)·Loss: 5.739·Bước: 0

|∇L| = 1.851

Learning rate η0.250

0.01 · stall0.25 · êm0.7 · nảy1.5 · nổ

Learning rate vừa phải, bóng lăn êm

Quan sát bóng lăn gần như thẳng về đáy theo đường cong tự nhiên. Đây là vùng “hội tụ mượt”, mục tiêu của mọi setup huấn luyện.

2Thí nghiệm 2: Ba tình huống mẫu

Bấm một nút để xem kịch bản đã cấu hình sẵn. Bóng sẽ được đặt ở vị trí và η tương ứng, rồi bạn bấm “Tự chạy” ở trên để xem.

4Đi sâu vào một vòng4/8

Giờ mổ xẻ chi tiết một bước gradient descent. Bấm “Tiếp tục” để xem từng giai đoạn.

1. Đọc tọa độ hiện tại

Bạn đang ở điểm (x, y) trên đồi. Sương mù che kín đỉnh, bạn chỉ nhìn được đất ngay dưới chân.

Gradient descent không phải phép thuật. Nó chỉ là nguyên tắc cũ nhất của người leo núi: khi sương mù, hãy đi về phía dốc xuống mạnh nhất. Điều duy nhất chúng ta thêm vào là hằng số η (learning rate), để kiểm soát cỡ bước sao cho không lao đầu xuống vực.

5Thử thách5/8

Bạn đặt bóng ở đỉnh đồi cao (ví dụ tọa độ (6, 3)), rồi bật learning rate to (η = 1.3). Bấm 'Tự chạy'. Điều gì xảy ra?

Bóng của bạn đang lăn ngoan về đáy. Sau vài bước, gradient tại vị trí bóng giảm dần. Điều này có nghĩa là gì?

6Giải thích toán6/8

Giải thích

Đã thấy bằng hình: bóng lăn xuống đồi, ngón tay chỉ hướng dốc lên, bước ngược hướng đó. Giờ ghi lại bằng hai công thức, mỗi công thức đi kèm một câu giải thích bằng tiếng Việt đời thường.

Gradient là vector các đạo hàm riêng

Mỗi thành phần trả lời: “giữ các weight khác yên, đổi riêng wᵢ thì loss đổi bao nhiêu?”

\nabla L(\theta) = \left[ \frac{\partial L}{\partial \theta_1}, \frac{\partial L}{\partial \theta_2}, \ldots, \frac{\partial L}{\partial \theta_n} \right]

“Đứng tại một điểm, gradient là mũi tên chỉ ra xa đáy. Luôn đi ngược mũi tên đó.”

Công thức cập nhật: một dòng gói cả kỷ nguyên deep learning

η (eta) kiểm soát cỡ bước. Vector θ chứa toàn bộ weight của mô hình.

\theta \leftarrow \theta - \eta \, \nabla L(\theta)

“Ở tọa độ cũ, cộng thêm một mũi tên ngược gradient, bạn ra tọa độ mới, gần đáy hơn.”

Tại sao mặt loss thực tế gồ ghề hơn nhiều?

Trong bài này mặt loss chỉ có 2 chiều, để bạn nhìn được. Thực tế mạng nơ-ron có hàng tỉ chiều, mặt loss rất gồ ghề với nhiều saddle point (điểm yên ngựa) và local minimum. May mắn là thực nghiệm cho thấy hầu hết các local minimum trên mạng lớn cho chất lượng tương đương. Các biến thể như gradient descent + momentum giúp thoát khỏi nhiều bẫy cạn.

Khi bạn huấn luyện mạng nơ-ron thực, gradient descent là vòng lặp cốt lõi. Còn cách tính gradient qua các lớp là công việc của giải tích cho backprop. Hai mảnh ghép này cùng tạo nên toàn bộ kỷ nguyên deep learning hiện đại.

7Tóm tắt & Liên kết7/8

Ba ý bạn mang về

Gradient là vector chỉ hướng loss tăng nhanh nhất. Đi ngược gradient để loss giảm nhanh nhất, đó là gradient descent.
Learning rate η kiểm soát cỡ bước. Quá to thì phân kỳ, quá nhỏ thì stall, vừa đủ thì hội tụ. Tinh chỉnh η là nghệ thuật quan trọng bậc nhất trong ML.
Trên mặt loss thực tế (hàng tỉ chiều), gradient descent không đảm bảo tới minimum toàn cục. Tuy nhiên trong thực nghiệm, local minimum đa phần cho chất lượng tương đương.

Bước kế tiếp trong lộ trình

Tiếp tục với gradient descent để đi sâu vào các biến thể (momentum, Adam, SGD) và cách áp dụng trong huấn luyện mạng thực. Để hiểu cách tính gradient qua các lớp, đọc giải tích cho backprop.

Một sự thật nhỏ

Khi Geoffrey Hinton và đồng nghiệp huấn luyện được mạng sâu vào giai đoạn 2006-2012, họ không phát minh ra gradient descent. Thuật toán này đã có từ Cauchy năm 1847. Cái họ tìm ra là cách giữ cho gradient không chếtqua nhiều lớp (ReLU, dropout, khởi tạo thông minh), để ý tưởng “đi ngược gradient” vẫn hoạt động trên mạng hơn 100 lớp.

8Kiểm tra8/8

Kiểm tra hiểu biết

Câu 1/6

Gradient tại một điểm trên mặt loss có nghĩa là gì bằng tiếng Việt đời thường?

Bạn có thể làm lại quiz và nghịch tiếp bản đồ contour bất cứ lúc nào.

Chủ đề liên quan

Derivatives. an Intuitive Introduction: Đạo hàm là độ dốc tại một điểm Gradient Descent: Gradient descent: xoay weight để loss giảm dần Calculus for Backpropagation: Giải tích cho backpropagation