Tủ sách Học máy được tuyển chọn, dịch sang tiếng Việt.
Bộ sưu tập sách, khoá học, blog và lộ trình do cộng đồng awesome-machine-learning tổng hợp. Chỉ giữ lại các nguồn vẫn được duy trì trong vòng 12 tháng qua. Mỗi mục được dịch và chú thích để bạn hiểu nhanh trước khi nhấp.
01Sách
Học máy và Khai phá dữ liệu
16 mụcKevin P. Murphy, ấn bản 2022. Sách 'phải đọc' cho nghiên cứu sinh. Phủ đầy đủ nền tảng tối ưu, lý thuyết quyết định, đại số tuyến tính trước khi đi vào học sâu hiện đại.
Phần tiếp theo, ấn bản 2023. Tập trung vào các chủ đề chuyên sâu hơn như diffusion và mô hình sinh.
Cuốn sách 100 trang gói gọn toàn bộ kiến thức học máy cốt lõi. Đọc nhanh, ôn tập tốt.
Sách 'vỡ lòng' về học thống kê kèm mã R. Dễ tiếp cận hơn cuốn ESL của cùng nhóm tác giả.
Phiên bản Python của ISL. Cùng nội dung, đổi ngôn ngữ thực hành.
Kinh điển của Hastie, Tibshirani, Friedman. Toán nặng, dành cho người đã quen ISL.
Bayes 'qua mã': toàn bộ là Jupyter Notebook tương tác. Phù hợp dân kỹ thuật ngại công thức.
Allen Downey. Học Bayes bằng mã Python, không cần giải tích nâng cao.
Sutton và Barto. Sách giáo khoa chuẩn của RL, ấn bản 2.
Stanford. Kỹ thuật xử lý dữ liệu cực lớn (MapReduce, MinHash, PageRank).
Nền tảng toán cho ML: đại số tuyến tính, giải tích, xác suất, tối ưu. Đọc trước khi vào sách lý thuyết.
Abhishek Thakur. Quyển 'sổ tay' thực chiến từ Grandmaster Kaggle.
Yuan Tang. Các pattern để mở rộng pipeline ML từ laptop đến cụm phân tán.
Robert Ness. Xây model AI có khả năng suy luận về quan hệ nhân quả.
Babushkin và Kravchenko. Cách lập kế hoạch và thiết kế ứng dụng ML thành công.
Sổ tay khai thác Generative AI một cách an toàn và có cấu trúc.
Học sâu (Deep Learning)
6 mụcGoodfellow, Bengio, Courville. Sách giáo khoa MIT Press, vẫn là tham chiếu chuẩn.
François Chollet. Bản cập nhật mới nhất, theo Keras 3.
Andrew Trask. Học sâu bằng cách viết lại từ đầu trong NumPy.
Michael Nielsen. Sách online, trực quan, lý tưởng cho người mới.
Toán phía sau từng kiến trúc DL phổ biến: CNN, RNN, Transformer.
Sách mới về đánh giá model AI một cách có hệ thống.
Xử lý ngôn ngữ tự nhiên
3 mụcSách online chính thức của thư viện NLTK. Vẫn là cửa ngõ cho người mới.
Cập nhật cho thời đại Transformer: RAG, fine-tuning, đa ngôn ngữ.
Paul Azunre. Chuyển giao tri thức từ model lớn sang bài toán cụ thể.
Toán nền: Xác suất, Đại số tuyến tính, Tối ưu
4 mụcAllen Downey. Thống kê thực hành bằng Python, không công thức rườm rà.
Boyd và Vandenberghe. Kinh điển về tối ưu lồi.
Sổ tay công thức ma trận. Luôn cần khi đạo hàm các model.
FreeCodeCamp. Sách dẫn nhập toán cho AI, ngôn ngữ dễ tiếp cận.
02Khoá học
Nhập môn: chọn một trong số này
6 mụcKhoá kinh điển trên Coursera. Vẫn là điểm khởi đầu được đề xuất nhiều nhất cho người mới.
5 khoá nhỏ về mạng neural, CNN, RNN, Transformer. Do Andrew Ng và DeepLearning.AI tổ chức.
Khoá ngắn của MIT, cập nhật mỗi năm. Bài giảng kèm lab thực hành.
Triết lý 'code-first' của Jeremy Howard. Học bằng cách build model ngay.
Khoá rút gọn 15 giờ của Google, kèm bài tập tương tác.
Giải thích trực quan, tương tác các khái niệm cốt lõi của ML.
Chuyên sâu và nâng cao
10 mụcBài giảng RL của David Silver (DeepMind). Playlist YouTube đầy đủ.
Khoá nổi tiếng của Stanford về thị giác máy tính: slide, bài tập, video.
UC Berkeley. RL chuyên sâu, có slide và video.
Daphne Koller. Chuyên đề Coursera 3 phần về mô hình đồ thị xác suất.
Đưa model DL vào sản phẩm thật: MLOps, monitoring, deployment.
DeepLearning.AI. Chuyên về vận hành model ML ở quy mô sản xuất.
mlcourse.ai. Bài giảng kèm bài viết Medium, có cộng đồng tích cực.
28 bài học tương tác về training pipeline, model serving, feature store, monitoring.
32 bài học về RAG, vector DB, agentic AI, deployment, kèm AI tutor và whiteboard.
Cách tiếp cận lấy dữ liệu làm trung tâm thay vì lấy model.
LLM và AI tạo sinh
4 mụcXây ứng dụng thật bằng LLM, kèm phần thực hành đánh giá model.
Khoá ngắn của DeepLearning.AI về prompt cho model thị giác.
Arize. Nguyên lý quan sát model ML trong sản xuất.
Các micro-course rất ngắn về Pandas, ML, DL, máy tính lượng tử, có chứng chỉ.
03Blog và Podcast
Blog kỹ thuật
12 mụcBài viết tương tác chất lượng cao. Lý tưởng để hiểu các khái niệm phức tạp.
Giải thích trực quan các kiến trúc mạng (LSTM, attention, RNN).
Bài viết và YouTube về LLM, Transformer, từ 'zero to hero'.
Tác giả sách Python ML. Newsletter và bài viết về LLM rất chắc tay.
Tổng hợp survey-style về RL, agent, diffusion. Lý tưởng để vào chủ đề mới.
Tác giả Grokking Deep Learning. Chuyên về privacy-preserving ML.
Python Data Science Handbook. Blog về NumPy, pandas, scikit-learn.
Bài viết kỹ thuật về feature store và pipeline ML thực chiến.
Annotation, dataset, kỹ thuật nhãn hoá cho NLP.
Phỏng vấn winners, kỹ thuật cuộc thi, kernel hay.
Bayesian deep learning, mô hình sinh, từ DeepMind.
Bayesian deep learning và uncertainty trong ML.
Podcast
8 mụcThis Week in ML và AI. Phỏng vấn dài, sâu, ra tập hàng tuần.
Tập ngắn giải thích khái niệm, thân thiện với người mới.
Một trong những podcast ML lâu đời nhất, vẫn còn ra tập.
Cộng đồng DTC. Phỏng vấn về MLOps, dữ liệu, sự nghiệp.
Video kèm audio, nội dung kỹ thuật và hướng nghiệp.
Podcast theo dạng giáo trình. Nghe theo thứ tự để học.
Phỏng vấn các nhà thực hành AI. Câu chuyện sự nghiệp.
Khái niệm ML qua các tập 30 phút, định kỳ.
Newsletter
5 mụcNewsletter hàng tuần của Andrew Ng. Cập nhật nghiên cứu và tin AI.
Tổng hợp tuần về AI, ML, DS.
Newsletter kèm cộng đồng Slack lớn về dữ liệu.
Talks độc quyền của các researcher hàng đầu.
Newsletter cho lãnh đạo và người làm sản phẩm.
04Lộ trình cho người mới
Nếu phải xếp lộ trình cho người mới hoàn toàn, tôi sẽ bắt đầu bằng một khoá học nhập môn nhẹ nhàng, rồi mới chuyển sang sách 'data mining' và sau cùng là các sách lý thuyết thống kê. Mục tiêu không phải hiểu ngay mọi công thức, mà là hiểu dữ liệu, hiểu khi nào nên dùng ML, khi nào không.
"Nếu trong tay bạn chỉ có cây búa, mọi thứ đều trông như cái đinh."
Khoá nhập môn dễ chịu
Bắt đầu với Machine Learning của Andrew Ng trên Coursera. Nội dung phổ quát, cách dạy nhẹ nhàng. Đủ để có 'bản đồ' về toàn bộ lĩnh vực.
Một cuốn sách hay về Khai phá dữ liệu
Đọc Introduction to Data Mining (Tan, Steinbach, Kumar). Sách giúp bạn hiểu và xử lý dữ liệu. Không có 'dữ liệu tốt' thì thuật toán dù xịn cũng vô dụng.
Thực hành dự án cá nhân
Bắt tay làm dự án nhỏ với Python, NumPy, scikit-learn, PyTorch. Bạn sẽ học pipeline xử lý dữ liệu, kỹ thuật đánh giá, và best practices nhanh hơn nhiều khi tự tay viết.
Đào sâu thống kê và lý thuyết
Chọn một trong: The Elements of Statistical Learning · Pattern Recognition and ML (Bishop) · Pattern Classification (Duda, Hart, Stork).
Đọc giải lao một quyển truyền cảm hứng
Khi đầu căng, đổi sang The Master Algorithm của Pedro Domingos. Không nặng kỹ thuật, nhưng khơi gợi rất tốt.
05Sự kiện và Meetup
Hội nghị và sự kiện chuyên ngành
2 mụcAI và ML Events
Tổng hợp các hội nghị và triển lãm sắp diễn ra về AI/ML, đã được biên tập tay.
Codementor Events
Nền tảng sự kiện ảo cho dev: từ kỹ thuật đến hướng nghiệp.