Stochastic Gradient Descent

Hạ gradient ngẫu nhiên

Độ khóadvanced

1Dự đoán1/8

Bạn muốn tìm quán phở ngon nhất thành phố. Cách nào nhanh nhưng vẫn đáng tin?

2Khám phá2/8

Hình minh họa

Nhấn Chạy đua để so sánh cả 3 phương pháp tìm cực tiểu trên cùng bề mặt loss.

3Khoảnh khắc Aha3/8

SGD đánh đổi sự ổn định lấy tốc độ. giống Grab bike len lỏi qua đường đông đúc: nhanh nhưng lắc lư. Mini-batch GD là Grab car: ổn định hơn, vẫn nhanh, và là lựa chọn mặc định của mọi framework deep learning!

4Thử thách4/8

Dataset có 1.000.000 ảnh. Batch GD cần tính gradient trên CẢ triệu ảnh mỗi bước. Vấn đề lớn nhất là gì?

5So sánh chi tiết5/8

Giải thích

Ba biến thể của Gradient Descent khác nhau ở lượng dữ liệu dùng để ước lượng gradient mỗi bước:

Phương pháp	Dữ liệu/bước	Đường đi	Khi nào dùng
Batch GD	Toàn bộ N mẫu	Mượt mà, thẳng hướng	Dataset nhỏ (< 10K mẫu)
SGD	1 mẫu	Zigzag, nhiễu nhiều	Online learning, dữ liệu streaming
Mini-batch	B mẫu (32-256)	Hơi dao động, nhưng hướng đúng	Mặc định cho mọi bài toán

Công thức cập nhật cho cả 3 đều giống nhau, chỉ khác cách tính gradient:

\theta \leftarrow \theta - \alpha \cdot \frac{1}{|\mathcal{B}|} \sum_{i \in \mathcal{B}} \nabla L_i(\theta)

Với $|\mathcal{B}|$ = N (Batch), = 1 (SGD), hoặc = B nhỏ (Mini-batch).

Bí mật của noise

Nhiễu từ SGD/mini-batch không chỉ là nhược điểm. nó hoạt động như một dạng regularization tự nhiên. Nghiên cứu cho thấy mô hình huấn luyện bằng SGD tổng quát hóa tốt hơn Batch GD vì noise giúp thoát khỏi các cực tiểu "sắc" (sharp minima). nơi mô hình overfit.

sgd_training.py

import torch
from torch.utils.data import DataLoader

# Mini-batch: chia dataset thành các lô nhỏ
loader = DataLoader(dataset, batch_size=64, shuffle=True)

optimizer = torch.optim.SGD(model.parameters(), lr=0.01)

for epoch in range(10):
    for batch_x, batch_y in loader:  # mỗi lô 64 mẫu
        pred = model(batch_x)         # forward pass
        loss = loss_fn(pred, batch_y)  # tính loss trên lô nhỏ
        loss.backward()                # tính gradient
        optimizer.step()               # cập nhật trọng số
        optimizer.zero_grad()          # xóa gradient cũ

Chọn batch size như thế nào?

Bắt đầu với 32 hoặc 64. Tăng lên 128-256 nếu GPU còn dư RAM. Batch lớn hơn → gradient ổn định hơn nhưng cập nhật ít hơn mỗi epoch. Quy tắc: nếu tăng batch size gấp đôi, tăng learning rate gấp đôi. Xem thêm các optimizer nâng cao (Adam, AdamW) để tăng tốc hội tụ.

6Thử thách nâng cao6/8

Bạn tăng batch size từ 32 lên 256 nhưng giữ nguyên learning rate. Điều gì có thể xảy ra?

7Tóm tắt7/8

SGD. Điểm chốt

Batch GD tính gradient trên toàn bộ dữ liệu: ổn định nhưng chậm và tốn RAM.
SGD cập nhật sau mỗi mẫu: nhanh nhưng dao động mạnh (nhiễu).
Mini-batch GD (32-256 mẫu) là mặc định: cân bằng tốc độ + ổn định + vừa GPU.
Noise của SGD giúp thoát local minima. một dạng regularization tự nhiên.
Quy tắc: tăng batch size gấp đôi → tăng learning rate gấp đôi (linear scaling).

8Kiểm tra8/8

Kiểm tra hiểu biết

Câu 1/4

Tại sao noise trong SGD lại có thể là ưu điểm?

Chủ đề liên quan

Gradient Descent: Gradient descent: xoay weight để loss giảm dần Optimizers: Bộ tối ưu hóa Learning Rate: Tốc độ học Epochs, Batches & Iterations: Epoch và batch: chia nhỏ đề thi để model không ngộp