Gradient Intuition
Gradient — mũi tên chỉ đường xuống dốc
Bạn đang trên núi sương mù
Bạn bị lạc trên đồi, sương phủ kín, chỉ thấy được vài mét mặt đất dưới chân. Bạn cần xuống đến thung lũng để trú ẩn. Làm sao đi được khi không thấy gì xa hơn chân mình?
Câu trả lời đơn giản: đi về phía dốc xuống mạnh nhất. Nhìn đất dưới chân, bên nào thấp hơn rõ rệt — bước về đó. Lặp lại. Cuối cùng bạn sẽ tới đáy — có thể không phải đáy sâu nhất, nhưng chắc chắn là một đáy.
Đó chính là gradient descent. Máy học cũng đi đúng như vậy — chỉ khác, đồi của nó là mặt loss, và tọa độ là weights.
Đồi
Mặt loss L(x, y) — mỗi tọa độ là một bộ weight.
Ngón tay
Gradient ∇L — chỉ hướng dốc lên.
Bước chân
θ ← θ − η∇L — bước ngược lại để xuống.
Bạn đã biết phải đi ngược hướng dốc xuống. Giờ chọn độ dài MỖI BƯỚC. Bạn đặt bước rất to (η lớn) để xuống thật nhanh. Chuyện gì dễ xảy ra nhất?
Hình minh họa
Bấm vào bản đồ contourđể đặt bóng ở vị trí đó. Các đường cong là các “đường đồng mức” loss — như đường đồng mức trên bản đồ địa hình. Xanh = thấp (gần đáy), đỏ = cao.
Bấm một nút để xem kịch bản đã cấu hình sẵn. Bóng sẽ được đặt ở vị trí và η tương ứng, rồi bạn bấm “Tự chạy” ở trên để xem.
Giờ mổ xẻ chi tiết MỘT bước gradient descent. Bấm “Tiếp tục” để xem từng giai đoạn.
1. Đọc tọa độ hiện tại
Bạn đang ở điểm (x, y) trên đồi. Không nhìn thấy đỉnh vì sương mù — chỉ nhìn được đất dưới chân.
Bạn đặt bóng ở đỉnh đồi cao (ví dụ tọa độ (6, 3)), rồi bật learning rate to (η = 1.3). Bấm 'Tự chạy'. Điều gì xảy ra?
Bóng của bạn đang lăn ngoan về đáy. Sau vài bước, gradient tại vị trí bóng giảm dần. Điều này có nghĩa là gì?
Giải thích
Đã thấy bằng hình: bóng lăn xuống đồi, ngón tay chỉ hướng dốc lên, bước ngược hướng đó. Giờ ghi lại bằng hai công thức — mỗi công thức đi kèm một câu giải thích bằng tiếng Việt đời thường.
Gradient là vector các đạo hàm riêng
Mỗi thành phần trả lời: “giữ các weight khác yên, đổi riêng wᵢ thì loss đổi bao nhiêu?”
“Đứng tại một điểm, gradient là mũi tên chỉ ra xa đáy. Luôn đi ngược mũi tên đó.”
Công thức cập nhật — một dòng, cả kỷ nguyên deep learning
η (eta) kiểm soát cỡ bước. Vector θ chứa toàn bộ weight của mô hình.
“Ở tọa độ cũ, cộng thêm một mũi tên ngược gradient, bạn ra tọa độ mới — gần đáy hơn.”
Khi bạn huấn luyện mạng nơ-ron thực, gradient descent là vòng lặp cốt lõi — còn cách tính gradient qua các lớp là công việc của giải tích cho backprop. Hai mảnh ghép này cùng tạo nên toàn bộ kỷ nguyên deep learning hiện đại.
- Gradient là vector chỉ hướng loss TĂNG nhanh nhất. Đi NGƯỢC gradient để loss giảm nhanh nhất — đó là gradient descent.
- Learning rate η kiểm soát cỡ bước: quá to → phân kỳ, quá nhỏ → stall, vừa đủ → hội tụ. Tinh chỉnh η là nghệ thuật quan trọng bậc nhất trong ML.
- Trên mặt loss thực tế (hàng tỉ chiều), gradient descent không đảm bảo tới minimum toàn cục — nhưng trong thực nghiệm, local minimum đa phần cho chất lượng tương đương.
Kiểm tra hiểu biết
Gradient tại một điểm trên mặt loss có nghĩa là gì bằng tiếng Việt đời thường?