classic-ml

K-Means Clustering

Phân cụm k-means

Độ khóintermediate

1Thử đoán1/8

Bạn là chủ thương hiệu cà phê, có 30 cửa hàng rải rác khắp Hà Nội. Đội vận hành muốn đặt 3 kho nguyên liệu sao cho mọi cửa hàng đến kho gần nhất là ngắn nhất. Bạn đặt kho ở đâu?

2Hiểu bằng hình ảnh2/8

Gà có trước hay trứng có trước?

Bạn không biết cửa hàng nào thuộc cụm nào. Để biết điều đó cần có vị trí kho. Nhưng vị trí kho lại phụ thuộc vào danh sách cửa hàng trong cụm. Vòng tròn luẩn quẩn.

Mẹo của k-means: bắt đầu bằng một phỏng đoán thô, rồi sửa liên tục.

Bước 1: Đoán

Đặt 3 kho ở 3 vị trí bất kỳ, thậm chí là ngẫu nhiên.

Bước 2: Gán

Mỗi cửa hàng chọn kho gần nhất. Cụm được “khai sinh” từ đây.

Bước 3: Dời

Dời mỗi kho về trung bình của cụm. Quay lại bước 2. Lặp đến khi không ai dời nữa.

3Khám phá3/8

Hình minh họa

Canvas bên dưới là bản đồ giả định. 30 chấm xám là cửa hàng đã có sẵn. Bạn có thể nhấp vào ô trống để thêm cửa hàng mới. Kéo thanh số kho (k) rồi bấm Play để xem thuật toán chạy.

Điều khiển

Tâm cụm đã đặt xong. Bấm Play hoặc “1 bước” để bắt đầu gán.

Số kho k3

123456

Trạng thái

Vòng lặp0

Inertia0

Điểm30

4Mổ xẻ một vòng lặp4/8

Bấm “Tiếp tục” để đi qua từng bước trong một vòng lặp: tính khoảng cách, gán cụm, rồi dời tâm. Mỗi bước có hình ảnh riêng.

Bước 1: Đo khoảng cách từ điểm đến mỗi tâm

Với mỗi điểm dữ liệu, đo khoảng cách đến mỗi tâm. Dùng công thức Pythagoras: d = √((Δx)² + (Δy)²).

Số bên cạnh mỗi đường là khoảng cách. Đường đậm (xanh lá, d = 82) là tâm gần nhất. Điểm sẽ được gán về cụm đó.

5Khoảnh khắc hiểu5/8

k-means giải bài toán “gà và trứng” bằng cách luân phiên: giả vờ biết một phần, giải phần còn lại, rồi đảo ngược.

Đây là một ví dụ trong họ thuật toán lớn hơn gọi là Expectation-Maximization. Bạn sẽ gặp lại ý tưởng này ở nhiều nơi: Gaussian Mixture Model, thuật toán EM cho hidden Markov, thậm chí cả cách bạn tự điều chỉnh kỳ vọng khi gặp người mới.

6Thử thách6/8

Bạn có n điểm. Chạy k-means với k = 1 và k = n (số cụm bằng số điểm). Chuyện gì xảy ra?

7Giải thích7/8

Giải thích

k-means là thuật toán học không giám sát phổ biến nhất. Nó chia dữ liệu thành k nhóm sao cho tổng bình phương khoảng cách từ mỗi điểm đến tâm cụm của nó là nhỏ nhất. Đại lượng này gọi là inertia, hay còn gọi là within-cluster sum of squares.

Hàm mục tiêu

J = \sum_{k=1}^{K} \sum_{x \in C_k} \|x - \mu_k\|^2

$\mu_k$ là tâm cụm k, $C_k$ là tập điểm thuộc cụm k. Mục tiêu: tìm bộ tâm và phân cụm sao cho J nhỏ nhất. Vì inertia giảm đơn điệu qua mỗi vòng lặp, thuật toán luôn hội tụ. Tuy nhiên, hội tụ chỉ đảm bảo về cực tiểu địa phương.

Cập nhật tâm (M-step)

\mu_k = \frac{1}{|C_k|} \sum_{x \in C_k} x

Tâm mới là trung bình toạ độ của các điểm trong cụm. Không phải trung vị, không phải một điểm bất kỳ, mà chính là trung bình. Lý do: trung bình là điểm tối thiểu hoá tổng bình phương khoảng cách (đạo hàm J theo $\mu_k$ bằng 0 cho ra đúng công thức này).

Chọn k bằng phương pháp Elbow

Inertia luôn giảm khi k tăng (k càng lớn thì cụm càng nhỏ, điểm càng gần tâm). Nhưng đến một điểm nào đó, tăng k không còn giảm inertia đáng kể nữa. Đó là “khuỷu tay”.

Quan sát: từ k = 1 đến k = 3, inertia giảm mạnh. Từ k = 3 trở đi, đường cong giảm rất chậm. Đó là “khuỷu tay”, gợi ý k = 3 là số cụm tự nhiên của dữ liệu này.

Mẹo chọn k trong thực tế

Elbow là phương pháp trực quan nhưng đôi khi mơ hồ. Các cách bổ sung: (1) Silhouette score: đo mức độ “chặt” của cụm. (2) Gap statistic: so sánh inertia thật với dữ liệu ngẫu nhiên. (3) Ràng buộc nghiệp vụ: đôi khi bạn biết trước cần 4 phân khúc khách hàng hoặc 3 gói dịch vụ.

Những cạm bẫy thường gặp

Không chuẩn hoá dữ liệu: nếu một chiều có đơn vị lớn (thu nhập triệu đồng) và chiều khác nhỏ (tuổi), khoảng cách Euclidean bị chi phối bởi chiều lớn. Luôn chuẩn hoá trước khi chạy.
Khởi tạo tồi: k-means rất nhạy với vị trí tâm ban đầu. Dùng k-means++ (chọn tâm xa nhau) thay vì ngẫu nhiên. scikit-learn mặc định đã bật sẵn.
Cụm hình không phải cầu: k-means giả định cụm có dạng tròn (isotropic). Cụm cong hoặc mật độ khác nhau thì nên dùng DBSCAN hoặc Spectral Clustering.
Outlier: k-means dùng trung bình nên rất nhạy với outlier. Xử lý bằng k-medoids (dùng điểm thật làm tâm) hoặc lọc outlier trước khi chạy.

8Tóm tắt và kiểm tra8/8

5 điều cần nhớ về k-means

Ý tưởng gốc: lặp giữa gán điểm đến tâm gần nhất (E-step) và dời tâm về trung bình cụm (M-step) đến khi không ai dời nữa.
Hàm mục tiêu là inertia, tức tổng bình phương khoảng cách. Đại lượng này luôn giảm đơn điệu và hội tụ đến cực tiểu địa phương.
Phải chọn k trước khi chạy. Dùng Elbow hoặc Silhouette để tìm k phù hợp với dữ liệu.
Nhạy với khởi tạo. Luôn dùng k-means++ và chạy nhiều lần (n_init ≥ 10) để tránh nghiệm xấu.
Chỉ phù hợp cụm hình cầu. Dữ liệu cong hoặc mật độ khác nhau thì nên dùng DBSCAN, Spectral, hoặc GMM.

Kiểm tra hiểu biết

Câu 1/4

k-means thuộc loại học máy nào?

Ứng dụng thực tế

Spotify dùng một họ thuật toán phân cụm (bao gồm k-means và ma trận phân rã) để tạo ra Discover Weekly: 30 bài hát mới mỗi tuần “hợp gu lạ kỳ”. Xem cách họ làm ở bài ứng dụng: k-means trong gợi ý nhạc.

Chủ đề liên quan

DBSCAN: Phân cụm dựa trên mật độ K-Nearest Neighbors: k-NN: hỏi k hàng xóm gần nhất rồi bỏ phiếu Principal Component Analysis: Phân tích thành phần chính