neural-fundamentals

Neural Network Overview

Mạng nơ-ron: bộ não nhỏ trong máy tính

Độ khóbeginner

1Thử đoán1/8

Bộ não người có khoảng 86 tỷ nơ-ron, mỗi nơ-ron là một tế bào phức tạp. Mạng nơ-ron trong máy tính 'bắt chước' bộ não ở mức nào?

2Hiểu bằng hình ảnh2/8

Một nơ-ron đơn lẻ giống cái gì?

Hãy tưởng tượng một thợ cân đồ. Thợ nhận nhiều nguồn hàng, mỗi nguồn có độ “tin cậy” khác nhau. Thợ cân từng nguồn với độ tin cậy tương ứng, cộng lại, rồi tự hỏi: “Tổng này có đủ lớn để đáng tin không?” Nếu có, gửi tín hiệu đi tiếp. Nếu không, im lặng. Đó là toàn bộ công việc của một nơ-ron nhân tạo.

Ba đầu vào nhân với ba trọng số, cộng lại, qua công tắc ReLU, rồi ra tín hiệu. Tất cả nơ-ron trong mọi mạng lớn đều chỉ làm chuyện này.

Đầu vào (xᵢ)

Nguồn dữ liệu thô. Với bài phân loại hoa, đầu vào có thể là kích thước cánh và màu sắc.

Trọng số (wᵢ)

Con số nói rằng nơ-ron tin nguồn này bao nhiêu. Lớn nghĩa là tin nhiều, âm nghĩa là không thích. Đây là thứ được học.

Đầu ra (a)

Kết luận của nơ-ron sau khi cân nhắc. Tín hiệu được gửi tiếp cho nơ-ron ở lớp sau.

Tại sao một nơ-ron đơn lẻ lại yếu?

Một nơ-ron chỉ vẽ được đúng một đường thẳng trong không gian dữ liệu. Nhưng khi xếp ba nơ-ron song song ở một lớp rồi ghép nhiều lớp chồng lên nhau, bạn có một mạng có thể uốn cong, xoắn, vẽ biên giới phức tạp quanh bất cứ đám dữ liệu nào. Sức mạnh đến từ cách kết nối, không phải từ mỗi nơ-ron riêng lẻ.

3Khám phá3/8

Hình minh họa

Đây là một mạng nơ-ron nhỏ: 2 đầu vào qua 3 nơ-ron ẩn rồi tới 2 đầu ra. Mỗi đầu ra là một xác suất, cho biết mạng đang nghĩ dữ liệu thuộc lớp nào.

Bước 1. Kéo hai đầu vào

Đầu vào x₁: 0.60Đầu vào x₂: -0.40

Bước 2. Bấm vào một nơ-ron để xem dây nối

Trọng số dương (thúc đẩy)Trọng số âm (ức chế)Dây càng dày, trọng số càng lớn

Bước 3. Thử vặn các trọng số w (lớp ẩn)

Mỗi dây từ đầu vào sang nơ-ron ẩn có một con số gọi là trọng số. Trọng số càng lớn thì ảnh hưởng càng mạnh. Kéo thử và quan sát phần trăm đầu ra thay đổi theo thời gian thực.

Nơ-ron ẩn h1

w(x1 → h1)0.80w(x2 → h1)-0.60

Nơ-ron ẩn h2

w(x1 → h2)-0.50w(x2 → h2)0.90

Nơ-ron ẩn h3

w(x1 → h3)0.70w(x2 → h3)0.40

Kích hoạt lớp ẩn (sau ReLU)

h1: 0.82h2: 0.00h3: 0.26

ReLU giữ nguyên giá trị dương và biến giá trị âm về 0.

Xác suất đầu ra (softmax)

y1: 76.5%y2: 23.5%

Mạng nghĩ đây là lớp 1

Điều bạn vừa thấy trên màn hình

Mỗi lần bạn kéo slider x₁ hoặc x₂, hai con số đó đi qua 6 dây (2 × 3) sang ba nơ-ron ẩn. Mỗi nơ-ron ẩn cân, cộng, qua công tắc, rồi gửi tiếp qua 6 dây nữa (3 × 2) đến hai nơ-ron đầu ra. Tất cả chỉ gồm phép nhân và phép cộng. Không có phép màu.

Thử thêm: vặn trọng số w

Ở phần “Bước 3” bạn có 6 slider w. Vặn thử một cái về âm rất sâu, bạn sẽ thấy một nơ-ron ẩn tắt hẳn (ReLU cắt âm về 0), và xác suất đầu ra thay đổi mạnh. Đây chính là cách huấn luyện thay đổi hành vi của mạng: chỉ đổi trọng số, không đổi kiến trúc.

4Khoảnh khắc hiểu4/8

Mạng nơ-ron chỉ là phép nhân và phép cộng, xếp thành nhiều lớp, xen kẽ với một vài công tắc như ReLU. Mọi trí tuệ nằm trong các con số trọng số, không nằm trong một cấu trúc phức tạp nào cả.

Sức mạnh đến từ số lượng và cách kết nối: một nơ-ron thì yếu, nhưng một triệu nơ-ron kết nối khéo thì viết được thơ, dịch được tiếng, chơi được cờ vây.

5Đi sâu5/8

Tín hiệu đi qua mạng như thế nào? Năm chặng dưới đây

Cùng đi theo hai con số đầu vào x₁ = 0.6, x₂ = −0.4 xem chúng biến đổi thành hai phần trăm đầu ra thế nào. Bấm Tiếp tục để mở từng chặng.

Nhận đầu vào

Bước 1. Hai con số đi vào mạng

Mạng nhận hai đặc trưng của dữ liệu, ví dụ kích thước và màu sắc của một bông hoa. Đây là hai cảm giác đầu tiên.

Giá trị hiện tại

x1:0.60x2:-0.40

Giống như bộ não, cảm giác đến từ các giác quan. Ở đây là hai kênh dữ liệu thô.

6Thử thách6/8

Một nơ-ron có đầu vào x₁ = 2, x₂ = -1. Trọng số w₁ = 0.5, w₂ = 1. Bias b = 0. Giá trị z trước ReLU là bao nhiêu?

Một mạng có 2 đầu vào → 3 nơ-ron ẩn → 2 đầu ra (không có bias). Bạn cần bao nhiêu trọng số tổng cộng?

Nếu xoá hết hàm kích hoạt ReLU khỏi mạng, chuyện gì sẽ xảy ra?

7Giải thích7/8

Giải thích

Bạn đã thấy một mạng nhỏ hoạt động. Giờ gom lại thành hai công thức cốt lõi, đủ để hiểu mọi mạng nơ-ron, từ mạng nhỏ bạn vừa chơi cho đến GPT-4 với cả nghìn tỷ trọng số.

1. Một nơ-ron: cộng có trọng số rồi qua công tắc

z = \sum_{i} w_i \cdot x_i + b \quad \Longrightarrow \quad a = \sigma(z)

Đọc theo cách dân dã: “lấy từng đầu vào nhân với trọng số của nó, cộng tất cả lại, thêm bias b, rồi cho qua một hàm σ”. Hàm σ có thể là ReLU (nếu dương giữ nguyên, âm về 0), sigmoid (ép về khoảng 0 đến 1), hoặc tanh (ép về khoảng −1 đến +1). Trong ba hàm, ReLU là ngôi sao vì đơn giản và học nhanh.

Hình hoá ReLU: công tắc “âm thì tắt”

2. Cả một lớp cùng lúc: phép nhân ma trận

\mathbf{a}^{(l)} = \sigma\!\left( W^{(l)} \mathbf{a}^{(l-1)} + \mathbf{b}^{(l)} \right)

Đọc đơn giản: “đầu ra của lớp l bằng ma trận trọng số W nhân với đầu ra lớp trước, cộng bias, rồi qua hàm kích hoạt”. Thay vì tính từng nơ-ron một, máy tính làm cả lớp trong một phép nhân ma trận. Nhờ vậy GPU chạy nhanh gấp nghìn lần, và đó cũng là lý do card đồ hoạ NVIDIA bỗng dưng trở thành đế chế AI: chúng giỏi nhân ma trận.

Đếm trọng số của một mạng

Lớp có n_in đầu vào và n_out đầu ra thì có n_in × n_out trọng số, cộng thêm n_out bias. Một mạng 2 → 3 → 2 (giống demo) có: (2×3 + 3) + (3×2 + 2) = 9 + 8 = 17 tham số. GPT-4 có khoảng 1.8 nghìn tỷ tham số, gấp hơn 100 tỷ lần mạng nhỏ bạn vừa chơi!

Các loại mạng nơ-ron thường gặp

MLP: Multi-Layer Perceptron

Kiểu bạn vừa thấy: các lớp “đầy đủ” (mỗi nơ-ron nối với tất cả nơ-ron lớp sau). Tốt cho dữ liệu bảng.

CNN: Convolutional

Thêm phép tích chập, quét “ô vuông nhỏ” trên ảnh. Tốt cho ảnh, video. ResNet, YOLO thuộc loại này.

RNN / LSTM

Nơ-ron có “trí nhớ”, đọc chuỗi từ trái sang phải. Từng là vua xử lý ngôn ngữ trước Transformer.

Transformer

Kiến trúc đứng sau GPT, Gemini, Claude. Nơ-ron có thể “chú ý” đến bất kỳ phần nào của đầu vào.

Ghép mỗi khái niệm với ý nghĩa

Ghép mỗi thuật ngữ với lời giải thích dễ hiểu nhất.

Cột A

Cột B

Hai điều thường gây nhầm lẫn

Một:“Mạng nơ-ron” KHÔNG phải phiên bản số hoá của bộ não. Nó chỉ là phép toán cộng-nhân xếp chồng. Từ “nơ-ron” là tên mượn.

Hai: Mạng sâu hơn không có nghĩa là thông minh hơn. Nhiều lớp có thể dẫn đến vấn đề “gradient biến mất”. Các kỹ thuật như ResNet, batch norm ra đời để chữa chuyện này.

Mạng nơ-ron không chỉ nằm trong máy học lý thuyết. Nó đang chạy mỗi lần bạn hỏi Siri, dùng Google Dịch, mở khoá iPhone bằng khuôn mặt. Bước tiếp theo: đọc perceptron để hiểu nơ-ron đơn lẻ sâu hơn, hoặc hàm kích hoạt để biết ReLU, sigmoid, tanh khác nhau thế nào.

Một dòng ngàn vàng

“Mạng nơ-ron = nhiều phép nhân ma trận + vài công tắc phi tuyến, lặp đi lặp lại. Trí thông minh nằm trong các con số trọng số, được học từ dữ liệu.”

8Tóm tắt & Kiểm tra8/8

5 điều cần nhớ về mạng nơ-ron

Mạng nơ-ron = nhiều nơ-ron đơn giản xếp thành lớp, kết nối với nhau. Ý tưởng vay từ bộ não, nhưng đơn giản hơn rất nhiều.
Mỗi nơ-ron chỉ làm một việc: nhân các đầu vào với trọng số, cộng lại, thêm bias, rồi qua một công tắc (hàm kích hoạt).
Một lớp được tính đồng thời bằng phép nhân ma trận. Nhờ vậy GPU (giỏi nhân ma trận) chạy AI nhanh hơn CPU nhiều lần.
Hàm kích hoạt phi tuyến (ReLU, sigmoid, tanh) là bắt buộc. Không có nó, dù bao nhiêu lớp cũng chỉ học được đường thẳng.
Softmax ở đầu ra biến các con số thành xác suất, và mạng 'chọn' lớp có xác suất cao nhất.

Xem ứng dụng thực tế

Muốn xem mạng nơ-ron hoạt động trong sản phẩm bạn dùng hàng ngày? “Hey Siri” và “OK Google” dùng đúng ý tưởng này để biến giọng nói của bạn thành văn bản. Xem tiếp: Mạng nơ-ron trong trợ lý giọng nói.

Trước khi chuyển, kiểm tra nhanh xem bạn đã hiểu đến đâu. Sáu câu ngắn, mất khoảng hai phút.

Kiểm tra hiểu biết

Câu 1/6

Mạng nơ-ron nhân tạo lấy cảm hứng từ đâu, và mô phỏng tới mức nào?

Chủ đề liên quan

Perceptron: Perceptron: viên gạch đầu tiên của mạng nơ-ron Multilayer Perceptron: MLP: xếp nhiều perceptron thành mạng Backpropagation: Lan truyền ngược: truy ngược lỗi qua từng lớp Activation Functions: Hàm kích hoạt: cái uốn cong của mạng nơ-ron