foundations

Python for Machine Learning

Python cho ML: NumPy và Pandas trong 45 phút

Độ khóintermediate

1Dự đoán1/8

Python chậm. Nhưng người ta vẫn dùng nó cho ML. Vì sao?

Python không phải ngôn ngữ nhanh nhất. Chạy một vòng lặp bằng Python thuần chậm hơn C khoảng 100 lần. Nhưng nó có hai thư viện biến nó thành ngôn ngữ chung của ML: NumPy (mảng số tốc độ C) và Pandas (bảng dữ liệu như Excel có siêu năng lực). Mỗi khi bạn đọc một đoạn code ML trên GitHub, 80% là NumPy + Pandas. Hiểu hai cái này, bạn đọc được hầu hết mọi repo ML.

Bạn có mảng 1 triệu số. Cần tính tổng bình phương. Đồng nghiệp A viết for-loop Python thuần đi từng phần tử. Đồng nghiệp B viết `(arr ** 2).sum()` bằng NumPy. Lý do chính khiến B chạy nhanh hơn A cỡ 100 lần là gì?

2Khám phá2/8

Hình minh họa

Chọn một thư viện ở tab, rồi chọn một thao tác. Code bên trái, kết quả mong đợi bên phải. Không cần cài Python để học.

NumPy cung cấp ndarray: mảng N chiều chứa số, lưu liên tiếp trong bộ nhớ, tính toán bằng C. Đây là nền tảng của PyTorch, TensorFlow, scikit-learn.

Tạo array

import numpy as np

a = np.array([1, 2, 3, 4, 5])
b = np.zeros(5)
c = np.ones(3)
d = np.arange(0, 10, 2)
e = np.linspace(0, 1, 5)

print(a)  # [1 2 3 4 5]
print(d)  # [0 2 4 6 8]
print(e)  # [0.   0.25 0.5  0.75 1.  ]

a = np.array([1,2,3,4,5])

12345

d = np.arange(0, 10, 2)

02468

e = np.linspace(0, 1, 5)

0.000.250.500.751.00

Bốn cách tạo phổ biến nhất. arange giống range() của Python. linspace chia đều khoảng thành n điểm.

Tại sao chia nhỏ từng thao tác?

Mỗi đoạn code trên chỉ làm một việc và kết quả của nó hiện ngay bên cạnh. Đây là cách đọc code ML thực tế: bạn không cần hiểu cả script 300 dòng. Bạn nhận ra từng miếng nhỏ (tạo array, lọc, groupby) rồi ghép chúng lại.

3Phân tích thật3/8

Phân tích thực tế gói gọn trong 3 bước, 12 dòng code

Mỗi bước dưới đây là một câu hỏi kinh doanh + code + kết quả trực quan. Bấm Tiếp tục để lần lượt mở ra từng bước, giống như bạn đang viết code trong Jupyter notebook.

Bước 1: Nạp CSV

Nạp CSV vào DataFrame

pd.read_csv biến file phẳng thành bảng có cấu trúc.

3 dòng để nạp và ngó nhanh

import pandas as pd

df = pd.read_csv("diem_hoc_sinh.csv")
print(df.head())
# (500 hàng, 5 cột)

df.head() trả về 5 hàng đầu

stt	ten	lop	toan	van
1	An	10A	8.5	8
2	Bình	10A	7	8.5
3	Chi	10B	9	8
4	Dung	10B	6.5	9
5	Em	10C	7.5	7

500 hàng, 5 cột. head() chỉ hiển thị 5 hàng đầu.

Đây là pipeline thật, không phải mô phỏng

Hầu hết mọi dự án ML trong thực tế đều bắt đầu bằng 3 bước này: load ⇒ clean/transform ⇒ visualize. Chỉ khác là dataset có thể là 5 triệu hàng thay vì 500, và cột có thể là 200 thay vì 5. Cú pháp không đổi.

4Thử thách4/8

Mảng trong câu hỏi

a shape (3,)

123

M shape (2, 3)

101010

202020

NumPy broadcasting: a = np.array([1, 2, 3]) có shape (3,). M = np.array([[10,10,10],[20,20,20]]) có shape (2, 3). a + M sẽ cho shape gì và giá trị ra sao?

Quy tắc broadcasting: học thuộc 3 câu này

(1) So sánh shape từ phải sang trái. (2) Hai chiều tương thích khi bằng nhau hoặc một trong hai bằng 1. (3) Chiều thiếu được coi là 1. Nếu không thỏa cả 3 → ValueError.

5Khoảnh khắc hiểu5/8

Đọc một đoạn code ML không phải là đọc từng dòng một. Bạn nhận ra những miếng nhỏ quen thuộc: “À, đây là tạo array”, “À, đây là groupby”, “À, đây là vẽ biểu đồ”, rồi ghép lại.

Cả bộ sinh thái ML hiện đại chỉ là NumPy + Pandas + Matplotlib, đi kèm một vài thư viện model (scikit-learn, PyTorch...). Mỗi thư viện model đều nhận NumPy array làm đầu vào và trả NumPy array ra đầu ra. Bạn không cần biết hết. Bạn chỉ cần biết đủ để đọc.

6Giải thích6/8

Giải thích

Phần này tổng hợp 4 mẹo thực hành và bảng cheat sheet của ba thư viện. Lưu lại (bookmark) để tra khi cần, chứ không cần nhớ ngay.

4 thói quen của một người viết code ML tốt

Tránh for-loop cho số

Nếu bạn đang viết for-loop để cộng/nhân/tính array, 99% trường hợp có cách NumPy làm ngắn gọn và nhanh hơn 100 lần.

Đặt head / info / describe ngay khi load

Ba dòng này luôn chạy trước khi bạn làm bất cứ thứ gì khác. Nó cho bạn biết kiểu dữ liệu, số hàng, missing values.

Dùng .copy() khi cần

df2 = df[df['diem'] >= 8] đôi khi là một view, tức là sửa df2 cũng sửa df gốc. Thêm .copy() để tránh bug thầm lặng.

Đặt seed khi có ngẫu nhiên

np.random.seed(42) để kết quả lặp lại được. Không có seed, mỗi lần chạy ra một con số khác, không debug được.

Vectorization tạo ra phép màu dưới lòng NumPy

Khi bạn viết a + b với hai array NumPy có shape (n,), NumPy sẽ chạy một vòng lặp C:

c_i = a_i + b_i \quad \text{for } i = 0, 1, \dots, n-1

Nghĩa là: lấy phần tử thứ i của a cộng phần tử thứ i của b, lưu vào c. Công việc giống y hệt for-loop Python, nhưng code C đã biên dịch trước, không có overhead của Python interpreter, nên nhanh hơn khoảng 100 lần. Tương tự với np.sqrt(a), a * 2, a @ b (nhân ma trận):

(A \cdot B)_{ij} = \sum_{k=0}^{n-1} A_{ik} \, B_{kj}

Tất cả vòng lặp bên trong đều chạy bằng C, không phải Python. Bạn chỉ cần viết 1 dòng; NumPy lo phần còn lại.

Cheat sheet 15 lệnh dùng nhiều nhất

Thư viện	Lệnh	Dùng khi nào
NumPy	np.array(list)	Biến list Python thành array
NumPy	np.arange(n) / np.linspace(a,b,n)	Tạo dãy số đều
NumPy	a.reshape(r, c)	Đổi shape không đổi dữ liệu
NumPy	a.mean() / .std() / .sum()	Thống kê nhanh
NumPy	a[a > 5]	Lọc bằng boolean mask
Pandas	pd.read_csv('file.csv')	Nạp file CSV vào DataFrame
Pandas	df.head() / .info() / .describe()	Ba lệnh đầu tiên với dataset mới
Pandas	df['col']	Chọn 1 cột (ra Series)
Pandas	df[df['x'] > 5]	Lọc hàng theo điều kiện
Pandas	df.groupby('x').agg(...)	Tổng hợp theo nhóm (PivotTable)
Pandas	a.merge(b, on='key')	Nối 2 bảng theo cột chung
Pandas	df.dropna()	Xóa hàng có giá trị thiếu
Matplotlib	plt.plot(x, y)	Đường line (loss, accuracy)
Matplotlib	plt.hist(a, bins=20)	Phân phối của một biến
Matplotlib	plt.scatter(x, y)	Quan hệ giữa hai biến

Sau khi nắm ba thư viện này, hai bước tiếp theo là Tiền xử lý dữ liệu (xử lý missing values, encoding, scaling) và Kỹ thuật đặc trưng (tạo features có ý nghĩa cho model). Nếu bạn chưa dựng môi trường chạy Python, xem Jupyter & Colab workflow.

7Tóm tắt7/8

5 điều cần nhớ về NumPy + Pandas

NumPy là mảng số tốc độ C. Thay vì for-loop, viết a + b, a * 2, a.mean(). Nhanh hơn khoảng 100 lần.
Broadcasting = NumPy tự phát mảng nhỏ ra khớp mảng lớn. Quy tắc: so shape từ phải, mỗi chiều bằng nhau hoặc bằng 1.
Pandas = bảng dữ liệu. Ba lệnh đầu tiên với dataset mới: head(), info(), describe().
Combo thông dụng nhất: read_csv → filter bằng boolean mask → groupby → visualize.
Mọi cột DataFrame là một NumPy array. Hiểu NumPy = hiểu nền tảng Pandas và mọi thư viện ML xây bên trên.

Bước kế tiếp

Mở Jupyter & Colab workflow để dựng môi trường chạy thật 5 phút, hoặc Tiền xử lý dữ liệu để học cách làm sạch dataset trước khi đưa vào model.

8Kiểm tra8/8

Kiểm tra hiểu biết

Câu 1/6

numpy.array([1, 2, 3, 4, 5, 6]).reshape(2, 3).shape trả về giá trị gì?

Chủ đề liên quan

Data Preprocessing: Tiền xử lý dữ liệu: làm sạch trước khi học Feature Engineering: Feature engineering: chọn nguyên liệu cho mô hình Jupyter & Google Colab Workflow: Jupyter và Google Colab: notebook là IDE của data scientist