Data & Datasets
Dữ liệu — thức ăn của ML
Dữ liệu là thức ăn của ML
Chất lượng đầu vào = chất lượng đầu ra.
Bạn có thể có đầu bếp giỏi nhất thế giới, nhưng nếu nguyên liệu là thịt ôi, rau héo — đĩa ăn cuối cùng cũng chỉ là rác. ML cũng thế.
Dữ liệu tệ
Sai, thiếu, lệch → mô hình kém, thậm chí có hại
Dữ liệu ổn
Đủ, sạch, đa dạng → mô hình dùng được
Dữ liệu tuyệt
Chất lượng cao, nhiều ví dụ → mô hình xuất sắc
Bảng 10.000 căn hộ có 4 cột: diện tích, quận, số phòng, giá. Bạn muốn dạy mô hình đoán GIÁ cho căn hộ mới. Khi huấn luyện và khi dự đoán, bạn đưa vào cột nào?
Hình minh họa
Bảng dữ liệu nhà ở Hà Nội — tương tác được
Bấm vào tiêu đề cột để chọn cột nào là nhãn (thứ máy cần đoán). Các cột còn lại tự động trở thành đặc trưng (thông tin đầu vào). Bấm nút con mắt để ẩn cột — xem máy sẽ có bao nhiêu đầu vào.
Đang có: 8 mẫu (hàng) × 5 cột (4 đặc trưng + 1 nhãn).
Nhãn: Giá (triệu) — máy sẽ học cách đoán giá trị này dựa trên 4 đặc trưng còn lại.
Kéo thanh để chia dữ liệu thành ba phần
Dữ liệu không thể dùng hết một lần. Ta chia làm ba: Train (để học), Val (để tinh chỉnh), Test (để chấm điểm cuối). Kéo hai thanh dưới — test sẽ tự điều chỉnh.
Tỉ lệ chia ba tập
50 viên đá = 50 mẫu dữ liệu. Mỗi viên sẽ đi đâu?
Kết quả hiện tại: Train 70% · Val 15% · Test 15%
Tỉ lệ chuẩn nhất cho người mới: 70/15/15 hoặc 80/10/10. Dataset càng lớn thì tập test có thể tỉ lệ càng nhỏ (vì 10% của 1 triệu mẫu đã là 100.000 — quá đủ).
Dữ liệu đi qua bốn trạm — xem từng bước
Từ cột dữ liệu thô đến tập sẵn sàng huấn luyện, mỗi mẫu đi qua bốn chặng. Bấm chấm bên dưới để nhảy, hoặc để animation tự chạy:
Bốn chặng của một bộ dữ liệu tốt
Bấm “Tiếp tục” để mở từng chặng một. Bạn sẽ thấy tại sao 60-70% thời gian của người làm ML dành cho chuẩn bị dữ liệu:
Chặng 1: Thu thập — dữ liệu từ đâu?
Crawl web, mua từ nhà cung cấp, tự ghi nhận từ app của công ty, chụp ảnh tay… Mỗi nguồn có format khác nhau: file CSV, Excel, JSON, PDF, ảnh, video. Thường thu được đống dữ liệu lộn xộn với nhiều chất lượng khác nhau.
cau giay, 52m2, ???
Ba Đình , 55m², 4800triệu
Hoàng Mai, NULL, 2900 triệu
Kéo mỗi ví dụ vào đúng thùng: train, val, hay test?
Có 6 mẫu mới. Với mục đích nào thì mỗi mẫu thuộc tập nào? Kéo thả để sắp xếp:
Kéo các ví dụ vào ba thùng bên dưới.
Bạn có 300 ảnh X-quang bệnh nhân. Team hỏi: 'Chia thế nào?'. Đề xuất tốt nhất là?
Team phát hiện: 95% dữ liệu là nam, 5% là nữ. Khi deploy, mô hình nhận diện giọng hoạt động tệ với nữ. Đây là vấn đề gì?
Mô hình giỏi nhất thế giới + dữ liệu tệ = kết quả tệ.
Mô hình đơn giản + dữ liệu xuất sắc = kết quả đáng tin.
Nếu chỉ được chọn một thứ để đầu tư thời gian khi mới bắt đầu — hãy chọn làm sạch dữ liệu, không phải chọn thuật toán xịn hơn.
Giải thích
Bạn vừa gặp ba khái niệm trụ cột của dữ liệu ML: mẫu (hàng), đặc trưng (cột đầu vào), nhãn (cột cần đoán). Và quan trọng nhất: ba tập train / val / test.
- Thiếu ví dụ. 100 ảnh không đủ để học cái gì phức tạp. Tối thiểu vài nghìn, lý tưởng hàng chục nghìn.
- Mất cân bằng.9 chó / 1 mèo → máy học đoán “chó” cho mọi ảnh và vẫn đúng 90%. Cần cân bằng hoặc gán trọng số.
- Rò rỉ test.Nếu bạn “lén” dùng test để chỉnh mô hình, kết quả báo cáo không còn trung thực. Tập test chỉ mở một lần — cuối cùng.
Sau bài này, hãy tiếp tục tới Machine Learning là gì? nếu bạn chưa học, hoặc sẵn sàng hơn thì đi thẳng vào ba kiểu học máy — nơi các bộ dữ liệu này được đem ra sử dụng thật.
- Dữ liệu ML tổ chức thành bảng: hàng = mẫu, cột = thuộc tính.
- Đặc trưng (features) là đầu vào; nhãn (label) là thứ máy cần đoán.
- Chia dữ liệu thành ba tập: train (học), val (tinh chỉnh), test (chấm).
- Tỉ lệ phổ biến: 70/15/15 hoặc 80/10/10. Dataset càng lớn thì test tỉ lệ càng nhỏ.
- Tập test là đề thi đóng kín — chỉ mở khi đã xong mô hình. Đừng 'lén' dùng.
- Rác vào, rác ra — chất lượng dữ liệu quyết định mọi thứ, hơn cả thuật toán.
Kiểm tra hiểu biết
Trong bảng dữ liệu nhà ở, cột nào thường được chọn làm NHÃN?