Thư viện
248 chủ đề · 17 danh mục · lọc theo độ khó hoặc nhấn ⌘K để tìm nhanh.
Perceptron — Nơ-ron đơn giản nhất
Một nơ-ron nhân tạo có thể làm gì? Cộng có trọng số mọi đầu vào, rồi quyết định 'có' hay 'không'. Bạn sẽ tự tay chỉnh trọng số và nhìn đường quyết định xoay theo.
MLP — Xếp nhiều perceptron thành mạng
Một perceptron chỉ vẽ được đường thẳng. Xếp chúng thành nhiều lớp, bạn sẽ có được đường cong — chìa khoá cho gần như mọi mô hình hiện đại.
Hàm kích hoạt — Cái uốn cong của mạng nơ-ron
Không có hàm kích hoạt, cả một mạng nơ-ron chỉ là một phép tính tuyến tính khổng lồ. Kéo, thử, so sánh để thấy vì sao 5 đường cong nhỏ lại thay đổi mọi thứ.
Lan truyền thuận
Dữ liệu đi qua mạng như tin nhắn qua các trạm — mỗi trạm xử lý rồi chuyển cho trạm sau.
Lan truyền ngược — truy ngược lỗi qua từng lớp
Mạng đoán sai — lỗi đến từ lớp nào, weight nào cần sửa bao nhiêu? Backprop dùng quy tắc chuỗi để truy ngược lỗi từ đầu ra về từng trọng số, chỉ trong một lần duyệt.
Thuật toán Gradient Descent — xoay trọng số (weight) để giảm mất mát (loss)
Bạn đã hiểu gradient là mũi tên chỉ đường. Giờ áp vào bài toán huấn luyện thật: xoay các trọng số (weight) theo từng bước để mất mát (loss) giảm dần. So sánh ba cách bước: Vanilla, Momentum, Adam.
Hạ gradient ngẫu nhiên
Biến thể hiệu quả của gradient descent, cập nhật trọng số sau mỗi mẫu hoặc mỗi lô nhỏ.
Tốc độ học
Siêu tham số quan trọng nhất trong huấn luyện mạng nơ-ron, quyết định kích thước bước di chuyển khi tối ưu.
Hàm mất mát — Điểm số của mô hình
Loss là 'điểm số' của mô hình — càng thấp càng tốt. Chọn sai loss đồng nghĩa mô hình học sai mục tiêu. Kéo điểm dự đoán và thấy MSE, MAE, cross-entropy phản ứng rất khác nhau.
Học quá khớp vs học chưa đủ — Overfit & Underfit
Hai thái cực ngược nhau khi luyện mô hình. Học thuộc đề cũ → chết khi đề mới (overfit). Học mỗi lý thuyết → nhớ nhưng không làm nổi (underfit).
Chính quy hóa
Các kỹ thuật chống overfitting bằng cách thêm ràng buộc vào quá trình huấn luyện.
Chuẩn hóa theo lô
Kỹ thuật chuẩn hóa đầu vào mỗi lớp theo thống kê mini-batch để ổn định gradient, tăng tốc hội tụ, và giảm internal covariate shift.