neural-fundamentals

Loss Functions

Hàm loss: điểm số của model

Độ khóintermediate

1Thử đoán1/8

Bạn bắn cung, mũi tên cách tâm 50 cm. Huấn luyện viên muốn bạn tiến bộ nhanh, nên phạt thế nào?

2Hiểu bằng hình ảnh2/8

Loss đóng vai “kim la bàn” trên đường học

Hãy hình dung model đang đi tìm đáp án trong sương mù. Nó không nhìn thấy gì cả, chỉ nghe một tiếng lasau mỗi bước đi. Tiếng la đó là loss. Loss lớn nghĩa là “đi sai đường”. Loss nhỏ nghĩa là “đang đúng hướng”. Gradient descent chỉ việc đi theo tiếng la nhỏ dần.

Nhưng “la” có nhiều kiểu. Một giáo viên khó tính phạt 5 điểm cho mỗi lỗi. Một giáo viên gắt gao nhân đôi hình phạt khi bạn sai nặng. Một giáo viên công tâm ngó lơ vài outlier. Chọn kiểu giáo viên tức là chọn hàm loss.

MSE cho hồi quy

Phạt bình phương. Sai 2 lần thì đau 4 lần. Dành cho số liên tục: giá nhà, nhiệt độ, doanh thu.

MAE robust với outlier

Phạt trị tuyệt đối. Sai 2 lần thì đau 2 lần. Không bị outlier kéo lệch: thời gian giao hàng, ETA taxi.

CE cho phân loại

Phạt theo logarit. Tự tin đúng thì loss bằng 0. Tự tin sai thì loss bùng nổ. Dành cho spam/không spam, chó/mèo, nhãn ảnh.

3Khám phá3/8

Hình minh họa

Bấm một tab để đổi hàm loss. Trong mỗi tab, kéo chấm xanh (dự đoán) lên xuốngvà quan sát: cùng một dữ liệu nhưng cách mỗi loss “tính điểm” khác hẳn nhau.

MSE (mean squared error)

Bình phương mỗi sai lệch rồi lấy trung bình. Hậu quả: một điểm lệch xa đóng góp rất nhiều vào tổng loss. Hãy kéo một chấm xanh ra thật xa chấm cam, xem cột đóng góp đội lên ra sao.

Mỗi chấm cam là giá trị thực. Mỗi chấm xanh là dự đoán của model. Hãy kéo chấm xanh lên xuốngvà quan sát từng hàm loss “la” to nhỏ khác nhau ra sao.

MSE (bình phương trung bình): 32.1

7 điểm

Mỗi điểm đóng góp bao nhiêu vào tổng loss?

Điểm yếu

Thử bấm “Đẩy một điểm thành outlier”. Tổng MSE tăng đột biến do điểm #4 đóng góp quá nhiều. Model huấn luyện với MSE sẽ “bị thu hút” bởi điểm đó.

Tự rút ra

Cùng một bộ điểm, cùng cách dự đoán, nhưng loss khác nhau thì model sẽ học theo hướng khác nhau. MSE dồn sức “kéo” các điểm xa. MAE “bình đẳng” với mọi điểm. Huber dung hoà. CE chỉ quan tâm xác suất đúng. Chọn loss tức là chọn ưu tiên của model.

4Khoảnh khắc Aha4/8

Loss không phải “một công thức toán”. Nó là định nghĩa của cái đúng mà bạn dạy cho model.

Dạy bằng MSE, model sẽ tránh mọi sai số lớn bằng mọi giá. Dạy bằng MAE, model sẽ không hoảng lên vì vài outlier. Dạy bằng CE, model sẽ rất thận trọng trước khi “chắc chắn”. Đổi loss tức là đổi giáo viên, model sẽ ra tính cách khác.

5Đi sâu5/8

Khi nào dùng loss nào?

Có một phản xạ đơn giản mà kỹ sư ML kinh nghiệm áp dụng hằng ngày. Bấm Tiếp tục để lần lượt xem bốn trường hợp quan trọng nhất.

1. MSE cho hồi quy dữ liệu sạch

MSE cho hồi quy dữ liệu “đẹp”

Khi đầu ra là một con số liên tục (giá nhà, doanh thu, nhiệt độ) và dữ liệu không nhiều outlier. MSE cho gradient mượt, học nhanh, dễ tối ưu.

Ví dụ thực tế:model dự đoán giá nhà trên Batdongsan.com, nhiệt độ ngày mai, lượng khách đặt bàn. Dữ liệu “sạch sẽ”, không có siêu biệt thự làm rối.

6Thử thách6/8

Trước khi đi tiếp, hãy thử ba tình huống thực tế. Chọn loss bạn thấy hợp nhất.

Bài toán: dự đoán giá căn hộ tại Hà Nội, dữ liệu có vài biệt thự 100 tỷ (outlier). Chọn loss nào?

Bài toán: phân loại ảnh chó hoặc mèo (2 lớp). Chọn loss nào?

Bài toán: hệ thống xếp hạng kết quả tìm kiếm Tiki, item nào liên quan hơn thì xếp trước. Chọn loss nào?

7Giải thích7/8

Giải thích

Ba công thức dưới đây là ba “tiếng la” phổ biến nhất. Mỗi công thức đi kèm một hình minh hoạ và một câu giải thích bằng tiếng Việt. Bạn không cần thuộc lòng. Chỉ cần đọc được “đại ý” để chọn loss đúng khi gặp bài toán mới.

1. MSE: bình phương trung bình sai số

\text{MSE} = \frac{1}{N} \sum_{i=1}^{N} (y_i - \hat{y}_i)^2

Đọc: với mỗi điểm, lấy sai số (thực − dự đoán), bình phương, rồi lấy trung bình. Bình phương làm hai việc quan trọng: (1) bỏ dấu, sai trên hay sai dưới đều đáng lo; (2) phạt nặng sai số lớn. Nếu bạn đã học hồi quy tuyến tính, đây chính là loss mà OLS tối thiểu hoá.

Trực quan: bình phương biến sai số thành “hình vuông”

2. MAE: trị tuyệt đối trung bình sai số

\text{MAE} = \frac{1}{N} \sum_{i=1}^{N} |y_i - \hat{y}_i|

Đọc: với mỗi điểm, lấy trị tuyệt đối sai số, rồi lấy trung bình. Không có bình phương nên mỗi điểm đóng góp tỉ lệ thuận với sai lệch. Không còn “hình vuông” làm hình phạt bùng nổ. Nhờ vậy MAE robust với ngoại lai.

Trực quan: MAE đo “chiều dài”, MSE đo “diện tích”

3. Binary Cross-Entropy: phạt “tự tin sai”

\text{BCE} = -\big[y \log(\hat{y}) + (1 - y) \log(1 - \hat{y})\big]

Đọc: nếu nhãn thực y = 1, loss = −log(ŷ). Nếu y = 0, loss = −log(1 − ŷ). Khi model đoán đúng và tự tin (ŷ gần nhãn thực), −log(số gần 1) ≈ 0 → loss thấp. Khi model đoán sai và tự tin (ŷ ngược với nhãn thực), −log(số gần 0) → ∞ → loss bùng nổ. Đây là cơ chế “phạt tự tin sai” mà MSE không có.

Vì sao CE dùng logarit mà không dùng (y − ŷ)²?

Với xác suất gần biên (ŷ gần 0 hoặc 1), đạo hàm của MSE rất nhỏ. Model học chậm. Đạo hàm của CE khi đó vẫn mạnh → tín hiệu gradient rõ ràng → học nhanh. Nhờ vậy Softmax + Cross-Entropy trở thành tổ hợp chuẩn của mọi mạng phân loại hiện đại, từ ResNet đến GPT.

Bẫy hay gặp

MAE có đạo hàm không xác định tại 0. Thực tế hay dùng Smooth L1(một biến thể của Huber) thay thế. Cross-Entropy cần “clamp” ŷ tránh log(0) = −∞, nên các thư viện như PyTorch mặc định dùng BCEWithLogitsLoss gộp sigmoid + log tính ổn định.

Bảng so sánh nhanh

Loss	Bài toán	Điểm mạnh	Ví dụ Việt Nam
MSE	Hồi quy	Phạt nặng sai số lớn, học nhanh	Dự đoán giá vàng, nhiệt độ Đà Lạt
MAE	Hồi quy có outlier	Robust, không bị kéo lệch	Shopee ước lượng thời gian giao hàng
Huber	Hồi quy cân bằng	MSE + MAE, mượt và robust	Grab dự đoán ETA chuyến xe
Binary CE	Phân loại 2 lớp	Phạt nặng tự tin sai	Gmail chặn thư rác tiếng Việt
Categorical CE	Phân loại N lớp	Softmax + log phối hợp mượt	Zalo gán nhãn chủ đề bài viết
Hinge / Pairwise	SVM, Ranking	Biên cứng, tập trung vào mẫu khó	Tiki xếp hạng kết quả tìm kiếm

Một câu để gói cả bài

Loss là mục tiêu duy nhất mà thuật toán huấn luyện được phép nhìn thấy. Đổi loss tức là đổi mục tiêu. Chọn loss đúng quan trọng hơn chọn model đúng. Sai loss thì model càng mạnh càng đi sai xa.

Loss đi tay trong tay với gradient descent. Loss cho biết “đang sai bao nhiêu”, gradient cho biết “phải đi theo hướng nào để sai ít hơn”. Không có loss thì gradient descent không có thứ để tối thiểu hoá. Không có gradient descent thì loss chỉ là một con số vô nghĩa. Backpropagationsau đó đưa gradient của loss về từng tham số trong mạng. Ba khái niệm làm thành “bộ ba huấn luyện” của mọi model hiện đại.

8Tóm tắt & kiểm tra8/8

5 điều cần nhớ về hàm mất mát

Loss là 'điểm số' của model. Càng thấp càng tốt. Chọn sai loss tức là model học sai mục tiêu.
Hồi quy dữ liệu sạch → MSE. Hồi quy có outlier → MAE hoặc Huber. Phân loại → Cross-Entropy. Xếp hạng → Hinge / Pairwise.
MSE phạt bình phương: một outlier đóng góp rất nhiều. MAE phạt tuyến tính: outlier không thống trị được.
Cross-Entropy phạt 'tự tin sai' bằng logarit. Đạo hàm vẫn mạnh khi sigmoid ở biên, nên học nhanh hơn MSE trong phân loại.
Loss phải khả vi để gradient descent hoạt động. Metric (accuracy, F1...) là thứ bạn báo cáo, không phải thứ model tối thiểu hoá.

Liên kết với các bài khác

Loss là thứ mà gradient descent tối thiểu hoá. Đạo hàm của loss lan qua mạng nhờ backpropagation. Nếu bạn đã học hồi quy tuyến tính, MSE ở đây chính là hàm mục tiêu mà OLS giải được dưới dạng đóng.

Bạn đã hoàn thành bài. Kiểm tra nhanh xem mình đã “đoán” đúng loss cho mọi tình huống chưa.

Kiểm tra hiểu biết

Câu 1/6

Model dự đoán xác suất spam = 0.99 nhưng email thực tế KHÔNG phải spam (y = 0). Cross-entropy sẽ thế nào?

Chủ đề liên quan

Gradient Descent: Gradient descent: xoay weight để loss giảm dần Backpropagation: Lan truyền ngược: truy ngược lỗi qua từng lớp Overfitting & Underfitting: Overfit và underfit: hai cách học sai của model