foundations

Data & Datasets

Dữ liệu: thức ăn của ML

Độ khóbeginner

1Bắt đầu1/8

Dữ liệu là thức ăn của ML

Chất lượng đầu vào = chất lượng đầu ra.

Bạn có thể có đầu bếp giỏi nhất thế giới, nhưng nếu nguyên liệu là thịt ôi, rau héo, đĩa ăn cuối cùng cũng chỉ là rác. ML cũng thế.

Dữ liệu tệ

Sai, thiếu, lệch → mô hình kém, thậm chí có hại

Dữ liệu ổn

Đủ, sạch, đa dạng → mô hình dùng được

Dữ liệu tuyệt

Chất lượng cao, nhiều ví dụ → mô hình xuất sắc

“Rác vào, rác ra” là câu nằm lòng của mọi người làm ML. 60-70% công việc là làm sạch và chuẩn bị dữ liệu, không phải chạy thuật toán.

2Thử đoán2/8

Bảng 10.000 căn hộ có 4 cột: diện tích, quận, số phòng, giá. Bạn muốn dạy mô hình đoán GIÁ cho căn hộ mới. Khi huấn luyện và khi dự đoán, bạn đưa vào cột nào?

3Khám phá3/8

Hình minh họa

Bấm cột để chọn nhãn cho bảng nhà ở Hà Nội

Bấm vào tiêu đề cột để chọn cột nào là nhãn (thứ máy cần đoán). Các cột còn lại tự động trở thành đặc trưng (thông tin đầu vào). Bấm nút con mắt để ẩn cột. Bạn sẽ thấy máy còn bao nhiêu đầu vào.

Đang có: 8 mẫu (hàng) × 5 cột (4 đặc trưng + 1 nhãn).

Nhãn: Giá (triệu). Máy sẽ học cách đoán giá trị này dựa trên 4 đặc trưng còn lại.

Kéo thanh để chia dữ liệu thành ba phần

Dữ liệu không thể dùng hết một lần. Ta chia làm ba: Train (để học), Val (để tinh chỉnh), Test (để chấm điểm cuối). Kéo hai thanh dưới, test sẽ tự điều chỉnh.

Tỉ lệ chia ba tập

Train 70%

Val 15%

Test 15%

Train · để máy học (35/50)

Val · điều chỉnh (8/50)

Test · kiểm tra (7/50)

50 viên đá = 50 mẫu dữ liệu. Mỗi viên sẽ đi đâu?

Train (%): tập huấn luyện70%

0%100%

Val (%): tập kiểm chứng15%

0%100%

Kết quả hiện tại: Train 70% · Val 15% · Test 15%

Tỉ lệ chuẩn nhất cho người mới: 70/15/15 hoặc 80/10/10. Dataset càng lớn thì tập test có thể tỉ lệ càng nhỏ (vì 10% của 1 triệu mẫu đã là 100.000, quá đủ).

Dữ liệu đi qua bốn trạm trước khi máy học

Từ cột dữ liệu thô đến tập sẵn sàng huấn luyện, mỗi mẫu đi qua bốn chặng. Bấm chấm bên dưới để nhảy, hoặc để animation tự chạy:

1. Dữ liệu thô

#1Nhà Cầu Giấy, 52m², giá ???LỖI

#2Nhà đống đa, 45m2, 3900 trieu

#3 Ba Đình, 55m², 4800 triệu LỖI

#4Hà Đông, 90 m², NULLLỖI

#5Hoàng Mai, 75m², 2900 triệu

#6Long Biên, 82m², 2600 triệu

4Đi sâu4/8

Bốn chặng của một bộ dữ liệu tốt

Bấm “Tiếp tục” để mở từng chặng một. Bạn sẽ thấy tại sao 60-70% thời gian của người làm ML dành cho chuẩn bị dữ liệu:

Chặng 1: Thu thập

Chặng 1: Thu thập. Dữ liệu từ đâu?

Crawl web, mua từ nhà cung cấp, tự ghi nhận từ app của công ty, chụp ảnh tay… Mỗi nguồn có format khác nhau: file CSV, Excel, JSON, PDF, ảnh, video. Thường thu được đống dữ liệu lộn xộn với nhiều chất lượng khác nhau.

cau giay, 52m2, ???

Ba Đình , 55m², 4800triệu

Hoàng Mai, NULL, 2900 triệu

5Thử thách5/8

Kéo mỗi ví dụ vào đúng thùng: train, val, hay test?

Có 6 mẫu mới. Với mục đích nào thì mỗi mẫu thuộc tập nào? Kéo thả để sắp xếp:

Kéo các ví dụ vào ba thùng bên dưới.

Mẫu dùng để máy HỌC thêm về cách đoán

Mẫu dùng để so tay các phiên bản, chọn bản tốt nhất

Đề thi cuối kỳ, chỉ mở khi đã xong mô hình

Dùng để máy tự điều chỉnh từng lần đoán sai

Dùng để quyết định dừng huấn luyện lúc nào

Báo cáo kết quả cho sếp, đo tính hiệu quả thật

Train (học)

Val (tinh chỉnh)

Test (chấm điểm)

Bạn có 300 ảnh X-quang bệnh nhân, cần chia train/val/test. Đề xuất tốt nhất là?

Team phát hiện: 95% dữ liệu là nam, 5% là nữ. Khi deploy, mô hình nhận diện giọng hoạt động tệ với nữ. Đây là vấn đề gì?

6Aha6/8

Mô hình giỏi nhất thế giới + dữ liệu tệ = kết quả tệ.
Mô hình đơn giản + dữ liệu xuất sắc = kết quả đáng tin.

Nếu chỉ được chọn một thứ để đầu tư thời gian khi mới bắt đầu, hãy chọn làm sạch dữ liệu, không phải chọn thuật toán xịn hơn.

7Kết nối7/8

Giải thích

Bạn vừa gặp ba khái niệm trụ cột của dữ liệu ML: mẫu (hàng), đặc trưng (cột đầu vào), nhãn (cột cần đoán). Và quan trọng nhất: ba tập train / val / test.

Ba cạm bẫy dữ liệu đừng mắc

Thiếu ví dụ. 100 ảnh không đủ để học cái gì phức tạp. Tối thiểu vài nghìn, lý tưởng hàng chục nghìn.
Mất cân bằng.9 chó / 1 mèo → máy học đoán “chó” cho mọi ảnh và vẫn đúng 90%. Cần cân bằng hoặc gán trọng số.
Rò rỉ test.Nếu bạn “lén” dùng test để chỉnh mô hình, kết quả báo cáo không còn trung thực. Tập test chỉ mở một lần, ở cuối cùng.

Tin vui: nhiều dữ liệu có sẵn miễn phí

Khi mới học, bạn không cần tự đi thu thập dữ liệu. Có hàng nghìn bộ dữ liệu công khai miễn phí trên Kaggle, HuggingFace, UCI Machine Learning Repository. Tải về, mở ra, thử ngay. Đó là cách tốt nhất để quen với dữ liệu thật.

Sau bài này, hãy tiếp tục tới Machine Learning là gì? nếu bạn chưa học, hoặc sẵn sàng hơn thì đi thẳng vào ba kiểu học máy (nơi các bộ dữ liệu này được đem ra sử dụng thật).

Sáu điều nhớ kỹ

Dữ liệu ML tổ chức thành bảng: hàng = mẫu, cột = thuộc tính.
Đặc trưng (features) là đầu vào; nhãn (label) là thứ máy cần đoán.
Chia dữ liệu thành ba tập: train (học), val (tinh chỉnh), test (chấm).
Tỉ lệ phổ biến: 70/15/15 hoặc 80/10/10. Dataset càng lớn thì test tỉ lệ càng nhỏ.
Tập test là đề thi đóng kín, chỉ mở khi đã xong mô hình. Đừng 'lén' dùng.
Rác vào, rác ra. Chất lượng dữ liệu quyết định mọi thứ, hơn cả thuật toán.

8Kiểm tra8/8

Kiểm tra hiểu biết

Câu 1/7

Trong bảng dữ liệu nhà ở, cột nào thường được chọn làm NHÃN?

Chủ đề liên quan

What is Machine Learning?: Machine Learning: máy học từ ví dụ, không từ luật Math Readiness for ML: Toán cần biết cho ML, đừng lo Supervised / Unsupervised / Reinforcement Learning: Ba kiểu học máy: supervised, unsupervised, reinforcement Train / Validation / Test Split: Tập train, val, test: bài tập, thi thử, thi thật

Hình minh họa

Bấm cột để chọn nhãn cho bảng nhà ở Hà Nội

Đang có: 8 mẫu (hàng) × 5 cột (4 đặc trưng + 1 nhãn).

Nhãn: Giá (triệu). Máy sẽ học cách đoán giá trị này dựa trên 4 đặc trưng còn lại.

Kéo thanh để chia dữ liệu thành ba phần

Tỉ lệ chia ba tập

Train 70%

Val 15%

Test 15%

Train · để máy học (35/50)

Val · điều chỉnh (8/50)

Test · kiểm tra (7/50)

50 viên đá = 50 mẫu dữ liệu. Mỗi viên sẽ đi đâu?

Train (%): tập huấn luyện70%

0%100%

Val (%): tập kiểm chứng15%

0%100%

Kết quả hiện tại: Train 70% · Val 15% · Test 15%

Tỉ lệ chuẩn nhất cho người mới: 70/15/15 hoặc 80/10/10. Dataset càng lớn thì tập test có thể tỉ lệ càng nhỏ (vì 10% của 1 triệu mẫu đã là 100.000, quá đủ).

Dữ liệu đi qua bốn trạm trước khi máy học

Từ cột dữ liệu thô đến tập sẵn sàng huấn luyện, mỗi mẫu đi qua bốn chặng. Bấm chấm bên dưới để nhảy, hoặc để animation tự chạy:

1. Dữ liệu thô

#1Nhà Cầu Giấy, 52m², giá ???LỖI

#2Nhà đống đa, 45m2, 3900 trieu

#3 Ba Đình, 55m², 4800 triệu LỖI

#4Hà Đông, 90 m², NULLLỖI

#5Hoàng Mai, 75m², 2900 triệu

#6Long Biên, 82m², 2600 triệu

Giải thích

Ba cạm bẫy dữ liệu đừng mắc

Thiếu ví dụ. 100 ảnh không đủ để học cái gì phức tạp. Tối thiểu vài nghìn, lý tưởng hàng chục nghìn.
Mất cân bằng.9 chó / 1 mèo → máy học đoán “chó” cho mọi ảnh và vẫn đúng 90%. Cần cân bằng hoặc gán trọng số.
Rò rỉ test.Nếu bạn “lén” dùng test để chỉnh mô hình, kết quả báo cáo không còn trung thực. Tập test chỉ mở một lần, ở cuối cùng.

Tin vui: nhiều dữ liệu có sẵn miễn phí