Supervised, Unsupervised & RL in Netflix
Ba kiểu học trong Netflix
Công ty nào đang ứng dụng Ba kiểu học: có giám sát, không giám sát, tăng cường?
Bạn mở Netflix buổi tối, lướt dọc trang chủ và liên tục nghĩ “phim này hợp gu mình”. Đó không phải tình cờ — mỗi hàng phim bạn thấy đều đến từ một thuật toán khác nhau.
Netflix kết hợp cả ba kiểu học máy cùng lúc: có giám sát đoán điểm phim bạn sẽ chấm, không giám sát chia 247 triệu người dùng thành hơn 2.000 cộng đồng sở thích, và tăng cường chọn ảnh bìa nào khiến bạn nhấn vào. Ba công cụ, một trang chủ — hàng tỉ đô la doanh thu năm.
Vấn đề công ty cần giải quyết
Thư viện Netflix có hàng nghìn phim và series. Với 247 triệu thuê bao, không một biên tập viên nào có thể chọn phim cho từng người. Nếu trang chủ hiển thị sai — hàng phim nhàm chán, ảnh bìa không hấp dẫn — người dùng rời đi và huỷ thuê bao.
Vấn đề cốt lõi: với mỗi người trong số hàng trăm triệu thuê bao, Netflix phải dự đoán chính xác bạn muốn gì, phân nhóm hàng triệu người giống bạn, và thử nghiệm liên tục cách trình bày nội dung. Không kiểu học máy đơn lẻ nào giải cả ba việc đó.
Cách Ba kiểu học giải quyết vấn đề
Thu thập mọi dấu vết hành vi.Lượt xem, thời lượng, tua lại, dừng, thiết bị, thời gian trong ngày — Netflix ghi lại tất cả. Đây là “nguyên liệu” cho cả ba kiểu học máy.
Học có giám sát — đoán điểm đánh giá.Với cặp (người dùng, phim) đã có điểm, Netflix huấn luyện mô hình đoán điểm cho phim bạn chưa xem. Đây là trái tim của hệ thống từ thời giải thưởng Netflix Prize (1 triệu đô-la Mỹ, 2009). Sau này kỹ thuật tiến hoá sang “matrix factorization” và deep learning, nhưng ý tưởng vẫn là học từ nhãn có sẵn.
Học không giám sát — phân nhóm sở thích.Netflix chia 247 triệu người thành hơn 2.000 “cộng đồng sở thích” (taste communities) bằng thuật toán phân cụm. Không ai đặt tên “cộng đồng mê phim Bắc Âu lạnh” trước — máy tự thấy nhóm và gộp lại. Hàng “Gợi ý cho bạn” dùng chính cấu trúc ẩn này.
Học tăng cường — chọn ảnh bìa tối ưu. Mỗi phim có 10+ ảnh bìa. Netflix dùng mô hình bandit: với mỗi người, chọn một ảnh, đo tỉ lệ nhấn, cập nhật xác suất chọn lần sau. Thăng bằng giữa khai thác (ảnh đã biết hiệu quả) và khám phá (ảnh mới có thể còn tốt hơn).
A/B testing liên tục. Hàng trăm thử nghiệm chạy song song. Kết quả phản hồi ngược vào cả ba loại mô hình. Mỗi click, mỗi giây xem đều cải thiện hệ thống cho lần tới.
Thử tự tay
Trang chủ Netflix — bấm từng hàng để hiện thuật toán phía sau
Đây là phiên bản rút gọn của trang chủ Netflix. Mỗi hàng là một thuật toán khác nhau. Bấm vào một hàng để xem kiểu học máy đứng sau nó.
Cùng một lượt xem, ba hệ thống nhìn khác nhau
Giả sử bạn vừa xem hết Money Heist. Cùng một sự kiện đó, ba hệ thống bên trong Netflix rút ra ba kết luận rất khác nhau:
Có giám sát nghĩ gì?
“Người này vừa xem hết 8 tập. Khả năng cao họ đánh giá 4.5/5 cho Money Heist. Cập nhật bảng điểm trong bộ nhớ.”
Không giám sát nghĩ gì?
“Người này giờ đã ở cụm ‘mê phim tội phạm tiết tấu cao’. Cập nhật vector đại diện cho người xem này.”
Nó không học gì thêm về Money Heist. Nó nhớ: “với người này, ảnh bìa ‘bí ẩn u tối’ vừa được hiển thị và họ đã nhấn vào. Tăng xác suất chọn ảnh đó lần tới.” Đó là tất cả.
Thử thách: ghép việc với kiểu học
Netflix muốn tự động gán nhãn 'phù hợp với trẻ em' cho 10.000 phim chưa được kiểm duyệt thủ công, dựa trên một ít phim ĐÃ kiểm duyệt và đánh dấu trước đó. Đây là bài toán thuộc kiểu học nào?
Netflix phát hiện một bộ phim mới có lượt xem cao bất thường ở một nhóm người dùng mà trước nay không ai xem loại phim ấy. Hệ thống nào đã 'ghi nhận' hiện tượng này trước tiên?
- Có giám sát → đoán điểm bạn sẽ chấm cho phim (dùng cho Top 10, xếp hạng).
- Không giám sát → chia 247 triệu người thành 2.000+ cộng đồng sở thích (dùng cho 'Gợi ý cho bạn', 'Vì bạn đã xem').
- Tăng cường → chọn ảnh bìa có tỉ lệ nhấn cao nhất cho mỗi người (dùng cho banner đầu trang).
- Ba kiểu phối hợp — mỗi hàng phim bạn thấy đều có một thuật toán riêng đứng sau.
Muốn hiểu sâu từng kiểu học? Quay lại bài lý thuyết để tự chạy lại ba kiểu bằng tay.
Kiểm tra nhanh
Kiểm tra hiểu biết
Netflix hiển thị hàng 'Top 10 Việt Nam hôm nay'. Đây chủ yếu là sản phẩm của kiểu học nào?
Con số thật
Nếu không có Ba kiểu học, app sẽ ra sao?
Nếu chỉ dùng một kiểu học, Netflix sẽ hỏng ở một phía. Chỉ có giám sát — đoán điểm chính xác nhưng không hiểu bạn thuộc nhóm nào. Chỉ không giám sát — thấy được nhóm nhưng không biết xếp phim nào lên đầu. Chỉ tăng cường — chọn ảnh bìa tối ưu nhưng không biết nội dung phim nào đáng hiển thị.
Không có kết hợp cả ba, trang chủ sẽ trở lại thời “Hot 100 cho tất cả mọi người”. Và với 247 triệu người gu khác nhau, một bảng xếp hạng chung là con đường nhanh nhất để mất thuê bao.