neural-fundamentals

Activation Functions

Hàm kích hoạt: cái uốn cong của mạng nơ-ron

Độ khóbeginner

1Câu chuyện mở đầu1/8

Không có hàm kích hoạt, mọi mạng đều là một đường thẳng

Hãy hình dung bạn xếp 100 lớp tuyến tính lên nhau, mỗi lớp là một phép nhân ma trận. Đầu vào đi qua lớp một, ra một véc-tơ mới, đi tiếp lớp hai, lại ra một véc-tơ mới, cứ thế suốt 100 tầng. Bạn kỳ vọng mạng càng sâu càng giỏi. Nhưng có một sự thật lạ: nhân bao nhiêu ma trận rồi cũng ra một ma trận khác. Cả 100 lớp gộp lại vẫn chỉ là một phép tính tuyến tính khổng lồ.

Tuyến tính nghĩa là bạn chỉ uốn lượn được bằng các đường thẳng. Trong khi đó, thế giới thực toàn đường cong: ảnh con mèo không nằm trên một mặt phẳng, hai nhóm khách hàng cũng không tách được bằng một nét bút. Cái cần nhỏ giải quyết việc này gọi là hàm kích hoạt. Mỗi lớp chèn thêm một đường cong nhỏ để uốn thẳng thành cong. Nhờ vậy, chỉ cần bẻ cong một chút ở mỗi tầng, mạng bỗng biểu diễn được gần như mọi thứ.

Trước khi thêm

100 lớp tuyến tính = 1 lớp. Mạng chỉ kẻ được đường thẳng.

Cần thứ gì đó?

Một đường cong nhỏ xen giữa hai lớp, gọi là phi tuyến.

Sau khi thêm

Mạng uốn được vô số đường cong, biểu diễn cả ảnh, âm thanh, ngôn ngữ.

2Thử đoán2/8

Bạn đã biết cần một hàm kích hoạt phi tuyến để 'bẻ cong' sau mỗi lớp. Trong bốn hàm dưới, hàm nào KHÔNG thật sự giúp mạng học đường biên cong?

3Khám phá3/8

Hình minh họa

Đây là năm hàm kích hoạt phổ biến nhất. Mỗi tab cho bạn một đường cong. Hãy kéo thanh trượt bên dưới để đẩy đầu vào x chạy từ −5 đến 5 và quan sát điểm màu nhảy theo.

Đầu vào x1.20

ReLUMiền giá trị: [0, +∞)

f(1.20) = 1.200Cắt thẳng ở 0: âm thành 0, dương giữ nguyên

Cú hích của deep learning hiện đại. Cắt mọi số âm về 0, giữ nguyên số dương. Cực nhanh, và gradient không bị nén ở vùng dương. Tuy nhiên, nơ-ron có thể chết nếu rơi luôn vào vùng âm.

So sánh bốn hàm cùng một lúc

Cùng đầu vào x = 1.20

Giữ thanh trượt ở trên, quan sát bốn hàm phản ứng khác nhau ra sao với cùng một x. Đây là cách nhanh nhất để cảm nhận tính cách của mỗi hàm.

ReLUMiền giá trị: [0, +∞)

f(1.20) = 1.200Cắt thẳng ở 0: âm thành 0, dương giữ nguyên

SigmoidMiền giá trị: (0, 1)

f(1.20) = 0.769Bóp mọi số về khoảng 0 tới 1, hình chữ S

TanhMiền giá trị: (−1, 1)

f(1.20) = 0.834Bóp về khoảng −1 tới 1, đối xứng quanh 0

Leaky ReLUMiền giá trị: (−∞, +∞)

f(1.20) = 1.200ReLU nhưng vùng âm vẫn rò rỉ một chút

4Đi sâu: vì sao cần uốn cong4/8

Bấm từng bước để thấy vì sao chỉ một chút phi tuyến đã mở ra toàn bộ sức mạnh của mạng nơ-ron sâu.

Bài toán: XOR

Cấu hình xen kẽ (giống XOR)

Có bốn cụm điểm: hai cụm cam ở góc trên phải và dưới trái, hai cụm xanh ở hai góc còn lại. Nhìn mắt thường, ai cũng thấy hai màu, nhưng chúng xen kẽ. Đây là bài toán kinh điển mà mọi mô hình tuyến tính đều thất bại.

5Thử thách5/8

Khi bạn xếp 10 lớp sigmoid liên tiếp và cho backprop chạy ngược, gradient ở lớp đầu tiên thường gần với số nào nhất?

Nhìn tận mắt: tín hiệu co về 0,5 sau mỗi lớp sigmoid

x đầu vàoSố lớp6

Nếu bạn đưa đầu vào x qua sigmoid 6 lần liên tiếp, kết quả luôn nén về gần 0,5. Gradient đi ngược qua 6 lớp cũng bị nhân với một con số cực nhỏ theo.

2.500

0.924

σ1

0.716

σ2

0.672

σ3

0.662

σ4

0.660

σ5

0.659

σ6

Đạo hàm cực đại của sigmoid là 0,25. Sau 6 lớp, gradient bị nhân với 0,25^6 ≈ 2.44e-4. Đây là lý do mạng sâu dùng sigmoid gần như không học được, tức hiện tượng vanishing gradient.

6Khoảnh khắc hiểu6/8

Hàm kích hoạt không phải là tính năng phụ. Nó chính là cái biến một phép nhân ma trận thành một mạng học được.

Một mạng tuyến tính là một đường thẳng. Thêm một đường cong nhỏ vào mỗi lớp, bạn được một mạng vô cùng linh hoạt: có thể xấp xỉ mọi hàm, ôm mọi ranh giới, phân biệt mọi cấu hình dữ liệu.

7Giải thích7/8

Giải thích

Bạn đã thấy năm đường cong trong phần khám phá. Bên dưới là ba công thức ngắn nhất có thể, mỗi công thức đi kèm một hình minh hoạ và một câu giải thích bằng tiếng Việt. Đừng thuộc lòng; nhớ hình dáng đường cong là đủ.

ReLU cắt vuông ở 0

\mathrm{ReLU}(x) = \max(0, x)

ReLUMiền giá trị: [0, +∞)

f(1.50) = 1.500Cắt thẳng ở 0: âm thành 0, dương giữ nguyên

Bằng lời: nếu x âm, ra 0; nếu x dương, giữ nguyên. Một cái chặn ánh sáng đơn giản nhưng cực nhanh, và là hàm kích hoạt mặc định cho hầu hết các mô hình thị giác máy tính hiện đại.

Sigmoid bóp mọi số về (0, 1)

\sigma(x) = \frac{1}{1 + e^{-x}}

SigmoidMiền giá trị: (0, 1)

f(0.50) = 0.622Bóp mọi số về khoảng 0 tới 1, hình chữ S

Bằng lời: dù x là bao nhiêu, sigmoid đều nén về một số giữa 0 và 1. Rất tiện cho đầu ra nhị phân (phải/trái, đúng/sai). Nhưng ở lớp ẩn của mạng sâu, nó gây triệt tiêu gradient.

Softmax biến bảng điểm thành bảng xác suất

\mathrm{softmax}(z_i) = \frac{e^{z_i}}{\sum_{j} e^{z_j}}

Softmax: biến điểm số thành xác suấtMiền: (0, 1), tổng = 1

Hãy tưởng tượng model vừa nhìn một tấm ảnh và đưa ra bốn điểm số thô (logit) cho bốn lớp. Kéo từng thanh để đổi điểm số, rồi xem softmax biến chúng thành xác suất cộng lại bằng 1 ra sao.

Lớp chó, điểm số z₁ = 1.517.8%

Lớp mèo, điểm số z₂ = 2.865.4%

Lớp cá, điểm số z₃ = 0.45.9%

Lớp chim, điểm số z₄ = 1.010.8%

Tổng bốn xác suất: 1.000Dự đoán: mèo

Bằng lời: ai điểm cao sẽ chiếm phần lớn xác suất, các lớp còn lại chia phần còn lại. Công thức trông rối nhưng ý nghĩa khá thẳng: tổng luôn bằng 1. Đây là cách chuẩn đưa mạng đa lớp về một phân phối xác suất.

Quy tắc chọn hàm kích hoạt

Lớp ẩn mặc định: ReLU. Nếu thấy nơ-ron chết → Leaky ReLU. Đầu ra nhị phân: sigmoid. Đầu ra đa lớp: softmax. RNN/LSTM: tanh cho trạng thái ứng viên, sigmoid cho cổng. Hồi quy: không kích hoạt ở lớp cuối.

Bẫy thường gặp

Đừng thêm softmax vào trong model rồi cộng thêm CrossEntropyLoss (với PyTorch). Hàm loss đó đã tự làm log-softmax bên trong, thêm lần nữa sẽ gây sai gradient. Giữ lớp cuối dạng tuyến tính và để hàm loss lo phần còn lại.

Chi tiết về vì sao gradient triệt tiêu, xem tại Vanishing & Exploding Gradient. Lý thuyết về lớp perceptron một đơn vị (tổ tiên của mạng nhiều lớp) xem tại Perceptron.

8Tóm tắt & kiểm tra8/8

5 điều cần nhớ

Không có hàm kích hoạt, cả một mạng nơ-ron chỉ là một phép tính tuyến tính lớn, không uốn được đường cong.
ReLU cắt vuông ở 0: mặc định cho lớp ẩn vì nhanh và gradient không nén ở vùng dương.
Sigmoid bóp về (0, 1): hợp cho đầu ra nhị phân, nhưng gây triệt tiêu gradient ở mạng sâu.
Softmax dùng ở lớp cuối của phân loại đa lớp, biến điểm số thành xác suất cộng bằng 1.
Tanh và Leaky ReLU là hai bản đối xứng hoặc sửa lỗi của sigmoid và ReLU, dùng khi gradient lệch tâm hoặc có nơ-ron chết.

Thấy lý thuyết rồi, bây giờ xem thực chiến

Muốn thấy năm đường cong này được ghép lại trong một mạng 13 tầng để đánh bại nhà vô địch cờ vây thế giới? Xem Hàm kích hoạt trong AlphaGo.

Kiểm tra hiểu biết

Câu 1/7

Không có hàm kích hoạt, một mạng nơ-ron 100 lớp sẽ tương đương với điều gì?

Bạn có thể làm lại quiz bất kỳ lúc nào. Học thuộc hình dáng đường cong trước khi học thuộc công thức.

Chủ đề liên quan

Perceptron: Perceptron: viên gạch đầu tiên của mạng nơ-ron Multilayer Perceptron: MLP: xếp nhiều perceptron thành mạng Vanishing & Exploding Gradients: Gradient triệt tiêu & bùng nổ

Hình minh họa

Đầu vào x1.20

ReLUMiền giá trị: [0, +∞)

f(1.20) = 1.200Cắt thẳng ở 0: âm thành 0, dương giữ nguyên

So sánh bốn hàm cùng một lúc

Cùng đầu vào x = 1.20

Giữ thanh trượt ở trên, quan sát bốn hàm phản ứng khác nhau ra sao với cùng một x. Đây là cách nhanh nhất để cảm nhận tính cách của mỗi hàm.

ReLUMiền giá trị: [0, +∞)

f(1.20) = 1.200Cắt thẳng ở 0: âm thành 0, dương giữ nguyên

SigmoidMiền giá trị: (0, 1)

f(1.20) = 0.769Bóp mọi số về khoảng 0 tới 1, hình chữ S

TanhMiền giá trị: (−1, 1)

f(1.20) = 0.834Bóp về khoảng −1 tới 1, đối xứng quanh 0

Leaky ReLUMiền giá trị: (−∞, +∞)

f(1.20) = 1.200ReLU nhưng vùng âm vẫn rò rỉ một chút

Giải thích

ReLU cắt vuông ở 0

\mathrm{ReLU}(x) = \max(0, x)

ReLUMiền giá trị: [0, +∞)

f(1.50) = 1.500Cắt thẳng ở 0: âm thành 0, dương giữ nguyên

Sigmoid bóp mọi số về (0, 1)

\sigma(x) = \frac{1}{1 + e^{-x}}

SigmoidMiền giá trị: (0, 1)

f(0.50) = 0.622Bóp mọi số về khoảng 0 tới 1, hình chữ S

Softmax biến bảng điểm thành bảng xác suất

\mathrm{softmax}(z_i) = \frac{e^{z_i}}{\sum_{j} e^{z_j}}

Softmax: biến điểm số thành xác suấtMiền: (0, 1), tổng = 1

Lớp chó, điểm số z₁ = 1.517.8%

Lớp mèo, điểm số z₂ = 2.865.4%

Lớp cá, điểm số z₃ = 0.45.9%

Lớp chim, điểm số z₄ = 1.010.8%

Tổng bốn xác suất: 1.000Dự đoán: mèo

Quy tắc chọn hàm kích hoạt

Bẫy thường gặp

Kiểm tra hiểu biết

Câu 1/7

Không có hàm kích hoạt, một mạng nơ-ron 100 lớp sẽ tương đương với điều gì?