neural-fundamentals

Forward Propagation

Lan truyền thuận

Độ khóintermediate

1Ẩn dụ1/8

Dữ liệu đi như tin nhắn qua các trạm

Hãy tưởng tượng bạn gửi một tin nhắn từ Sài Gòn ra Hà Nội. Tin nhắn không bay thẳng. Nó đi qua nhiều trạm: trạm đầu mã hoá, trạm giữa chuyển tiếp, trạm cuối giải mã và đưa tới người nhận. Mỗi trạm xử lý một chút rồi chuyển cho trạm sau.

Quá trình này được gọi là forward propagation (lan truyền thuận). Dữ liệu đầu vào đi qua từng lớp, mỗi lớp biến đổi một chút rồi chuyển cho lớp sau, cho đến khi lớp cuối cùng đưa ra dự đoán.

Trạm đầu

Nhận đầu vào thô (ví dụ các đặc trưng của con vật: tai, lông, đuôi).

Trạm giữa

Các lớp ẩn pha trộn đặc trưng và thêm tính phi tuyến, nhờ vậy mạng học được khái niệm phức tạp.

Trạm cuối

Đưa ra dự đoán, thường là vector xác suất cho các lớp có thể xảy ra.

2Dự đoán2/8

Tại MỖI lớp trạm, lớp đó phải làm phép tính gì với đầu ra của lớp ngay trước để cho ra đầu vào cho lớp sau?

3Khám phá3/8

Hình minh họa

Mạng 3 lớp phân loại Mèo / Chó / Chim

Kéo ba thanh trượt để thay đổi đặc trưng đầu vào. Nhấn Phát để xem dữ liệu lan qua từng lớp, hoặc Bước để đi từng nhịp.

Đặc trưng đầu vào

x = [0.80, 0.60, 0.30]

Kích cỡ tai (x₁)0.80

0.001.00

Độ dày lông (x₂)0.60

0.001.00

Độ dài đuôi (x₃)0.30

0.001.00

Trọng số dươngTrọng số âmChưa kích hoạt

Bước 0/4

Chưa có dữ liệu. Nhấn Phát để bắt đầu.

Lưu ý khi kéo slider

Thay đổi x làm mạng tính lại TOÀN BỘ các giá trị z và a, nhưng trọng số W và b vẫn giữ nguyên. Đó là điều cốt lõi của forward propagation: cùng một công thức, cùng một bộ weights, chỉ khác đầu vào.

4Đi sâu4/8

Mở từng lớp trong một vòng forward propagation

Dưới đây là năm khoảnh khắc bên trong mạng cho đầu vào x = [0.80, 0.60, 0.30]. Nhấn Tiếp tục để lần lượt mở từng lớp. Hãy chú ý xem ai đang nói chuyện với ai.

Đầu vào

Đầu vào: vector ba đặc trưng

Tai

0.80

Lông

0.60

Đuôi

0.30

Đây là tin nhắn gốc mà mạng nhận được. Không có phép tính nào diễn ra ở lớp này. Nó chỉ truyền nguyên x cho lớp sau.

Quan sát cốt lõi

Cả hai lớp đều lặp lại cùng một cặp phép tính: (1) tổng có trọng số cộng bias, (2) hàm kích hoạt. Khác biệt duy nhất là kích thước ma trận và lựa chọn hàm kích hoạt. Dù mạng có 3 lớp hay 300 lớp, cấu trúc vẫn giống hệt, chỉ lặp nhiều hơn.

5Thử thách5/8

Bạn được cho một lớp ẩn nhỏ với hai đầu vào và hai nơ-ron. Thử tính nhẩm rồi chọn đáp án.

Đầu vào: x = [2, 3]. Trọng số W = [[1, -1], [2, 0]], bias b = [0, 1].

Lớp ẩn dùng hàm kích hoạt ReLU.

Nhắc: z = W·x + b, a = ReLU(z). Với dữ liệu ở đây, z[1] = 1·2 + 2·3 + 0 = 8; z[2] = (-1)·2 + 0·3 + 1 = -1.

Đầu ra a của lớp ẩn là gì?

Nếu bạn đổi bias của nơ-ron thứ hai từ 1 thành 5 (các số khác giữ nguyên), đầu ra mới là gì?

6Khoảnh khắc hiểu6/8

Forward propagation không có gì bí ẩn. Nó chỉ là hai phép tính lặp lại ở mỗi lớp: z = W·a + b rồi a = f(z).

Dữ liệu đi một chiều, mỗi trạm biến đổi một chút. Dù mạng có ba lớp hay ba trăm lớp, công thức vẫn đúng. Chỉ là lặp nhiều hơn.

7Giải thích7/8

Giải thích

Lan truyền thuận (forward propagation) là quá trình đưa dữ liệu đi qua mạng nơ-ron từ đầu vào tới đầu ra. Ở mỗi lớp, ta lặp đúng hai bước: biến đổi tuyến tính rồi áp dụng hàm kích hoạt.

Công thức một lớp (dạng ma trận)

z^{[l]} = W^{[l]} a^{[l-1]} + b^{[l]}, \quad a^{[l]} = f^{[l]}(z^{[l]})

Đọc thành lời Việt:“Ở lớp thứ l, lấy đầu ra của lớp trước là a^[l-1], nhân với ma trận trọng số W^[l], cộng bias b^[l] → ra z^[l]. Sau đó cho qua hàm kích hoạt f → ra a^[l].”

Cả vòng lan truyền viết gọn

\hat{y} = f^{[L]}\big(W^{[L]} \cdots f^{[2]}(W^{[2]} f^{[1]}(W^{[1]} x + b^{[1]}) + b^{[2]}) \cdots + b^{[L]}\big)

Đọc thành lời: đầu vào x đi vào, áp dụng công thức (nhân trọng số + bias) → hàm kích hoạt cho mọi lớp từ 1 tới L. Kết quả cuối cùng ŷ = a^[L] là dự đoán của mạng.

Ở lớp cuối: softmax cho phân loại

\operatorname{softmax}(z)_k = \dfrac{e^{z_k}}{\sum_{j} e^{z_j}}

Ý nghĩa:lấy mũ của mỗi logit rồi chia đều, ép các con số thành phân phối xác suất (cộng lại bằng 1, không âm). Đó là lý do đầu ra của mô hình phân loại luôn đọc được như “70% Mèo, 20% Chó, 10% Chim”.

Từ logits tới xác suất, ảnh chụp cho đầu vào hiện tại

Bên trái: logits z (có thể âm). Bên phải: sau softmax, phân phối xác suất với cột cao nhất chính là dự đoán.

Bỏ hàm kích hoạt là mất sức mạnh phi tuyến

Nếu tất cả lớp chỉ có phép nhân ma trận và không có hàm kích hoạt, toàn mạng sẽ sụp về một phép biến đổi tuyến tính duy nhất. Dù xếp 100 lớp, mạng vẫn tương đương một đường thẳng và không vẽ được ranh giới cong. ReLU, sigmoid, tanh chính là thứ tạo ra sức mạnh phi tuyến của mạng nơ-ron.

8Kết nối & Kiểm tra8/8

Forward propagation: 5 điều cần nhớ

Dữ liệu đi MỘT CHIỀU: đầu vào → lớp ẩn → lớp ra. Không bao giờ quay lại.
Mỗi lớp lặp đúng hai phép tính: z = W·a + b, rồi a = f(z).
Hàm kích hoạt (ReLU, sigmoid, tanh) cung cấp tính phi tuyến. Bỏ nó đi, mạng sụp về một đường thẳng.
Với phân loại, lớp cuối thường dùng softmax để biến logits thành xác suất cộng = 1.
W và b cố định trong forward propagation. Chúng chỉ đổi khi huấn luyện, qua backpropagation.

Bước tiếp theo: sửa sai bằng backpropagation

Forward propagation cho ra dự đoán ŷ. Nếu ŷ chưa khớp nhãn thực y, mạng phải học cách sửa. Quy trình này đi ngược chiều vừa rồi: mỗi lớp hỏi “tôi đã đóng góp bao nhiêu vào sai số?” rồi cập nhật trọng số. Xem tiếp tại lan truyền ngược, hoặc ôn lại hàm kích hoạt và kiến trúc MLP nếu cần.

Kiểm tra hiểu biết

Câu 1/7

Lan truyền thuận đi theo chiều nào trong mạng nơ-ron?

Chủ đề liên quan

Backpropagation: Lan truyền ngược: truy ngược lỗi qua từng lớp Multilayer Perceptron: MLP: xếp nhiều perceptron thành mạng Activation Functions: Hàm kích hoạt: cái uốn cong của mạng nơ-ron

Hình minh họa

Mạng 3 lớp phân loại Mèo / Chó / Chim

Kéo ba thanh trượt để thay đổi đặc trưng đầu vào. Nhấn Phát để xem dữ liệu lan qua từng lớp, hoặc Bước để đi từng nhịp.

Đặc trưng đầu vào

x = [0.80, 0.60, 0.30]

Kích cỡ tai (x₁)0.80

0.001.00

Độ dày lông (x₂)0.60

0.001.00

Độ dài đuôi (x₃)0.30

0.001.00

Trọng số dươngTrọng số âmChưa kích hoạt

Bước 0/4

Chưa có dữ liệu. Nhấn Phát để bắt đầu.

Giải thích

Công thức một lớp (dạng ma trận)

z^{[l]} = W^{[l]} a^{[l-1]} + b^{[l]}, \quad a^{[l]} = f^{[l]}(z^{[l]})

Cả vòng lan truyền viết gọn

\hat{y} = f^{[L]}\big(W^{[L]} \cdots f^{[2]}(W^{[2]} f^{[1]}(W^{[1]} x + b^{[1]}) + b^{[2]}) \cdots + b^{[L]}\big)

Ở lớp cuối: softmax cho phân loại

\operatorname{softmax}(z)_k = \dfrac{e^{z_k}}{\sum_{j} e^{z_j}}

Từ logits tới xác suất, ảnh chụp cho đầu vào hiện tại

Bên trái: logits z (có thể âm). Bên phải: sau softmax, phân phối xác suất với cột cao nhất chính là dự đoán.

Bỏ hàm kích hoạt là mất sức mạnh phi tuyến