Neural Network Overview
Mạng nơ-ron: bộ não nhỏ trong máy tính
Bộ não người có khoảng 86 tỷ nơ-ron, mỗi nơ-ron là một tế bào phức tạp. Mạng nơ-ron trong máy tính 'bắt chước' bộ não ở mức nào?
Một nơ-ron đơn lẻ giống cái gì?
Hãy tưởng tượng một thợ cân đồ. Thợ nhận nhiều nguồn hàng, mỗi nguồn có độ “tin cậy” khác nhau. Thợ cân từng nguồn với độ tin cậy tương ứng, cộng lại, rồi tự hỏi: “Tổng này có đủ lớn để đáng tin không?” Nếu có, gửi tín hiệu đi tiếp. Nếu không, im lặng. Đó là toàn bộ công việc của một nơ-ron nhân tạo.
Ba đầu vào nhân với ba trọng số, cộng lại, qua công tắc ReLU, rồi ra tín hiệu. Tất cả nơ-ron trong mọi mạng lớn đều chỉ làm chuyện này.
Nguồn dữ liệu thô. Với bài phân loại hoa, đầu vào có thể là kích thước cánh và màu sắc.
Con số nói rằng nơ-ron tin nguồn này bao nhiêu. Lớn nghĩa là tin nhiều, âm nghĩa là không thích. Đây là thứ được học.
Kết luận của nơ-ron sau khi cân nhắc. Tín hiệu được gửi tiếp cho nơ-ron ở lớp sau.
Hình minh họa
Đây là một mạng nơ-ron nhỏ: 2 đầu vào qua 3 nơ-ron ẩn rồi tới 2 đầu ra. Mỗi đầu ra là một xác suất, cho biết mạng đang nghĩ dữ liệu thuộc lớp nào.
Mỗi dây từ đầu vào sang nơ-ron ẩn có một con số gọi là trọng số. Trọng số càng lớn thì ảnh hưởng càng mạnh. Kéo thử và quan sát phần trăm đầu ra thay đổi theo thời gian thực.
Kích hoạt lớp ẩn (sau ReLU)
ReLU giữ nguyên giá trị dương và biến giá trị âm về 0.
Xác suất đầu ra (softmax)
Mạng nghĩ đây là lớp 1
Mạng nơ-ron chỉ là phép nhân và phép cộng, xếp thành nhiều lớp, xen kẽ với một vài công tắc như ReLU. Mọi trí tuệ nằm trong các con số trọng số, không nằm trong một cấu trúc phức tạp nào cả.
Sức mạnh đến từ số lượng và cách kết nối: một nơ-ron thì yếu, nhưng một triệu nơ-ron kết nối khéo thì viết được thơ, dịch được tiếng, chơi được cờ vây.
Tín hiệu đi qua mạng như thế nào? Năm chặng dưới đây
Cùng đi theo hai con số đầu vào x₁ = 0.6, x₂ = −0.4 xem chúng biến đổi thành hai phần trăm đầu ra thế nào. Bấm Tiếp tục để mở từng chặng.
Bước 1. Hai con số đi vào mạng
Mạng nhận hai đặc trưng của dữ liệu, ví dụ kích thước và màu sắc của một bông hoa. Đây là hai cảm giác đầu tiên.
Giá trị hiện tại
Giống như bộ não, cảm giác đến từ các giác quan. Ở đây là hai kênh dữ liệu thô.
Một nơ-ron có đầu vào x₁ = 2, x₂ = -1. Trọng số w₁ = 0.5, w₂ = 1. Bias b = 0. Giá trị z trước ReLU là bao nhiêu?
Một mạng có 2 đầu vào → 3 nơ-ron ẩn → 2 đầu ra (không có bias). Bạn cần bao nhiêu trọng số tổng cộng?
Nếu xoá hết hàm kích hoạt ReLU khỏi mạng, chuyện gì sẽ xảy ra?
Giải thích
Bạn đã thấy một mạng nhỏ hoạt động. Giờ gom lại thành hai công thức cốt lõi, đủ để hiểu mọi mạng nơ-ron, từ mạng nhỏ bạn vừa chơi cho đến GPT-4 với cả nghìn tỷ trọng số.
1. Một nơ-ron: cộng có trọng số rồi qua công tắc
Đọc theo cách dân dã: “lấy từng đầu vào nhân với trọng số của nó, cộng tất cả lại, thêm bias b, rồi cho qua một hàm σ”. Hàm σ có thể là ReLU (nếu dương giữ nguyên, âm về 0), sigmoid (ép về khoảng 0 đến 1), hoặc tanh (ép về khoảng −1 đến +1). Trong ba hàm, ReLU là ngôi sao vì đơn giản và học nhanh.
Hình hoá ReLU: công tắc “âm thì tắt”
2. Cả một lớp cùng lúc: phép nhân ma trận
Đọc đơn giản: “đầu ra của lớp l bằng ma trận trọng số W nhân với đầu ra lớp trước, cộng bias, rồi qua hàm kích hoạt”. Thay vì tính từng nơ-ron một, máy tính làm cả lớp trong một phép nhân ma trận. Nhờ vậy GPU chạy nhanh gấp nghìn lần, và đó cũng là lý do card đồ hoạ NVIDIA bỗng dưng trở thành đế chế AI: chúng giỏi nhân ma trận.
Các loại mạng nơ-ron thường gặp
MLP: Multi-Layer Perceptron
Kiểu bạn vừa thấy: các lớp “đầy đủ” (mỗi nơ-ron nối với tất cả nơ-ron lớp sau). Tốt cho dữ liệu bảng.
CNN: Convolutional
Thêm phép tích chập, quét “ô vuông nhỏ” trên ảnh. Tốt cho ảnh, video. ResNet, YOLO thuộc loại này.
RNN / LSTM
Nơ-ron có “trí nhớ”, đọc chuỗi từ trái sang phải. Từng là vua xử lý ngôn ngữ trước Transformer.
Transformer
Kiến trúc đứng sau GPT, Gemini, Claude. Nơ-ron có thể “chú ý” đến bất kỳ phần nào của đầu vào.
Ghép mỗi khái niệm với ý nghĩa
Ghép mỗi thuật ngữ với lời giải thích dễ hiểu nhất.
Cột A
Cột B
Một:“Mạng nơ-ron” KHÔNG phải phiên bản số hoá của bộ não. Nó chỉ là phép toán cộng-nhân xếp chồng. Từ “nơ-ron” là tên mượn.
Hai: Mạng sâu hơn không có nghĩa là thông minh hơn. Nhiều lớp có thể dẫn đến vấn đề “gradient biến mất”. Các kỹ thuật như ResNet, batch norm ra đời để chữa chuyện này.
Mạng nơ-ron không chỉ nằm trong máy học lý thuyết. Nó đang chạy mỗi lần bạn hỏi Siri, dùng Google Dịch, mở khoá iPhone bằng khuôn mặt. Bước tiếp theo: đọc perceptron để hiểu nơ-ron đơn lẻ sâu hơn, hoặc hàm kích hoạt để biết ReLU, sigmoid, tanh khác nhau thế nào.
“Mạng nơ-ron = nhiều phép nhân ma trận + vài công tắc phi tuyến, lặp đi lặp lại. Trí thông minh nằm trong các con số trọng số, được học từ dữ liệu.”
- Mạng nơ-ron = nhiều nơ-ron đơn giản xếp thành lớp, kết nối với nhau. Ý tưởng vay từ bộ não, nhưng đơn giản hơn rất nhiều.
- Mỗi nơ-ron chỉ làm một việc: nhân các đầu vào với trọng số, cộng lại, thêm bias, rồi qua một công tắc (hàm kích hoạt).
- Một lớp được tính đồng thời bằng phép nhân ma trận. Nhờ vậy GPU (giỏi nhân ma trận) chạy AI nhanh hơn CPU nhiều lần.
- Hàm kích hoạt phi tuyến (ReLU, sigmoid, tanh) là bắt buộc. Không có nó, dù bao nhiêu lớp cũng chỉ học được đường thẳng.
- Softmax ở đầu ra biến các con số thành xác suất, và mạng 'chọn' lớp có xác suất cao nhất.
Kiểm tra hiểu biết
Mạng nơ-ron nhân tạo lấy cảm hứng từ đâu, và mô phỏng tới mức nào?