Quay lại trang chủ13/25 trong danh mục

neural-fundamentals

Weight Initialization

Khởi tạo trọng số

Độ khóadvanced

1Dự đoán1/8

10 vận động viên chuẩn bị chạy đua. Nếu TẤT CẢ đứng chung một vạch xuất phát chính xác cùng vị trí, kết quả sẽ thế nào?

2Khám phá2/8

Hình minh họa

fan_in (số nơ-ron lớp trước): 128

Var = 1/fan_in → phương sai ổn định qua các lớp (cho sigmoid/tanh)

Trung bình

-0.0020

Phương sai

0.00638

Max |w|

0.2017

Phương sai activation qua 6 lớp (dùng ReLU):

Lớp 0

1.00

Lớp 1

0.50

Lớp 2

0.25

Lớp 3

0.13

Lớp 4

0.06

Lớp 5

0.03

3Khoảnh khắc Aha3/8

Weight initialization chọn "vạch xuất phát" cho mạng. Zeros = tất cả đứng cùng chỗ (symmetry). Random lớn = nhảy hỗn loạn (exploding). Xavier/He = phân bổ hợp lý để phương sai ổn định qua mọi lớp. giống cách sắp xếp chỗ ngồi trên xe buýt: đều nhau, không ai quá chật, không ai quá thoải mái!

4Thử thách4/8

Bạn dùng tanh activation nhưng He initialization (Var = 2/fan_in). Kết quả có thể xảy ra?

5Giải thích5/8

Giải thích

Mục tiêu: giữ phương sai ổn định qua các lớp. không tăng (bùng nổ) cũng không giảm (triệt tiêu) (xem vanishing/exploding gradients).

Xavier (Glorot, 2010):

W \sim \mathcal{N}\left(0, \frac{1}{n_{\text{in}}}\right) \quad \text{hoặc} \quad W \sim \mathcal{U}\left(-\frac{\sqrt{6}}{\sqrt{n_{\text{in}} + n_{\text{out}}}}, \frac{\sqrt{6}}{\sqrt{n_{\text{in}} + n_{\text{out}}}}\right)

He (Kaiming, 2015):

W \sim \mathcal{N}\left(0, \frac{2}{n_{\text{in}}}\right)

Hệ số 2 trong He bù đắp việc ReLU "tắt" 50% output (max(0,x) loại bỏ một nửa phân phối). chọn init phụ thuộc vào hàm kích hoạt.

weight_init.py

import torch.nn as nn

model = nn.Sequential(
    nn.Linear(784, 256), nn.ReLU(),
    nn.Linear(256, 128), nn.ReLU(),
    nn.Linear(128, 10),
)

# He init cho ReLU (PyTorch mặc định Kaiming uniform)
for m in model.modules():
    if isinstance(m, nn.Linear):
        nn.init.kaiming_normal_(m.weight, nonlinearity='relu')
        nn.init.zeros_(m.bias)  # bias luôn init = 0

# Xavier init cho Sigmoid/Tanh
# nn.init.xavier_normal_(m.weight)

# Kiểm tra phương sai ban đầu
with torch.no_grad():
    x = torch.randn(100, 784)
    for layer in model:
        x = layer(x)
        if isinstance(layer, nn.Linear):
            print(f"Var = {x.var().item():.4f}")

Thực tế: framework đã xử lý cho bạn

PyTorch mặc định dùng Kaiming uniform cho nn.Linear, Xavier cho nn.Embedding. Bạn chỉ cần thay đổi khi dùng activation khác thường hoặc debug vấn đề gradient. Với BatchNorm, initialization ít quan trọng hơn.

6Thử thách nâng cao6/8

Fan_in = 10000 (lớp đầu tiên của mạng xử lý ảnh lớn). Xavier init cho Var = 1/10000 = 0.0001. Trọng số sẽ rất nhỏ. Có vấn đề gì không?

7Tóm tắt7/8

Weight Initialization. Điểm chốt

Zeros = symmetry problem (mọi nơ-ron giống hệt nhau). Random lớn = bùng nổ gradient.
Xavier (Var=1/fan_in): giữ phương sai ổn định cho sigmoid/tanh.
He (Var=2/fan_in): bù ReLU tắt 50% → tiêu chuẩn cho ReLU. Nhân 2 so với Xavier.
Quy tắc: ReLU → He, Sigmoid/Tanh → Xavier. Với BatchNorm, init ít quan trọng hơn.
PyTorch mặc định dùng Kaiming. thường không cần thay đổi trừ khi debug gradient.

8Kiểm tra8/8

Kiểm tra hiểu biết

Câu 1/4

Tại sao khởi tạo tất cả trọng số = 0 là ý tưởng tệ?

Chủ đề liên quan

Vanishing & Exploding Gradients: Gradient triệt tiêu & bùng nổ Batch Normalization: Chuẩn hóa theo lô Activation Functions: Hàm kích hoạt: cái uốn cong của mạng nơ-ron