foundations

Feature Engineering

Feature engineering: chọn nguyên liệu cho mô hình

Độ khóintermediate

1Thử đoán1/8

Bạn có bảng dữ liệu khách hàng với cột 'Ngày sinh = 1995-05-30'. Model học máy sẽ làm gì với con số này?

2Hiểu bằng hình2/8

Raw data và feature khác nhau thế nào?

Raw data là những gì người dùng đánh vào hoặc hệ thống log lại: ngày sinh, địa chỉ dài dòng, số tiền, nhãn danh mục dưới dạng chữ. Feature là phiên bản đã được model hiểu: tuổi (số nguyên), quận (đã tách khỏi địa chỉ), log(giá), cột 0/1 cho mỗi danh mục.

Raw. Model KHÔNG hiểu

dob = "1995-05-30"

price = 8_500_000

address = "12 Nguyễn Huệ, Q1, TP HCM"

category = "electronics"

Sau khi engineer. Model ĐÃ hiểu

age = 30, gen = "Millennial"

log_price = 15.96, price_bin = "cao"

city = "TP HCM", district = "Q1"

cat_electronics = 1, cat_food = 0

3Khám phá3/8

Hình minh họa

Bảng dưới đây có năm hàng và bốn cột thô. Chạm vào một đầu cộtđể xem các phép biến đổi dành cho cột đó. Mỗi phép biến đổi kèm một đoạn code ngắn và kết quả đã sinh, so sánh “trước” với “sau” ngay tại chỗ.


1995-05-30	125.000	42 Lý Thường Kiệt, Hoàn Kiếm, Hà Nội	food
2003-11-02	8.500.000	12 Nguyễn Huệ, Quận 1, TP HCM	electronics
1988-07-14	450.000	7 Trần Phú, Hải Châu, Đà Nẵng	food
2010-02-20	1.200.000	25 Hùng Vương, Huế	fashion
1999-09-09	65.000	88 Trần Hưng Đạo, Quận 5, TP HCM	food

Ý tưởng: '1995-05-30' không nói gì cho model. 'Tuổi 30' và 'Millennial' mới là tín hiệu có ý nghĩa.

Code pandas

dob-to-age.py

import pandas as pd

df["dob"] = pd.to_datetime(df["dob"])
df["age"] = (pd.Timestamp("2025-01-01") - df["dob"]).dt.days // 365
df["gen"] = pd.cut(
    df["age"],
    bins=[0, 14, 29, 44, 120],
    labels=["Gen Alpha", "Gen Z", "Millennial", "Gen X+"],
)

Trước → sau

date_of_birth	age	gen
1995-05-30	29	Gen Z
2003-11-02	21	Gen Z
1988-07-14	36	Millennial

Vì sao hữu ích: Mỗi ngày sinh khác nhau thì model xem là một giá trị khác, không có quan hệ gì với nhau. Khi bạn tách thành tuổi (số) và thế hệ (nhóm), model học được 'càng trẻ càng có xu hướng mua đồ công nghệ', 'Gen Z thích app X'.

Minh hoạ từng loại biến đổi

Datetime decomposition: 1 timestamp → 3 tín hiệu

2025-05-31 08:15hour=8dow=T7weekend=✓

2025-06-02 12:40hour=12dow=T2weekend=✗

2025-06-03 19:05hour=19dow=T3weekend=✗

Binning: biến giá liên tục thành nhóm

rẻ< 200k

vừa200k – 1M

khá1M – 5M

cao> 5M

Một cột số liên tục → 4 nhóm có ý nghĩa. Model học từ nhóm, không phải từng số lẻ.

One-hot: chuỗi → ma trận 0/1

category	cat_food	cat_electronics	cat_fashion
food	1	0	0
electronics	0	1	0
food	1	0	0
fashion	0	0	1

Aggregation: gộp nhiều giao dịch → hành vi user

user_id	tx_count_30d	mean_amount	days_since_last
u1	3	180k	1
u2	12	2.100k	0
u3	1	50k	45

Mỗi hàng trước đây là 1 giao dịch, giờ thành 1 user. Đây là RFM kinh điển trong e-commerce.

Trước: giá thô (VND)

Một hàng lấn át tất cả. Outlier kéo lệch cả trung bình.

Sau: log(1 + giá)

Các cột đều đặn hơn. Model tuyến tính học ổn định.

4Khoảnh khắc aha4/8

Model không biết “1995” là năm, không biết “electronics” là danh mục, không biết “Hoàn Kiếm” là một quận đắt đỏ.

Feature engineering là bước bạn dịch ngôn ngữ của con người sang ngôn ngữ của model. Và đúng như nấu ăn, người dịch giỏi thường thắng người có bếp đắt tiền.

5Thử thách5/8

Bạn dự đoán liệu khách Shopee có mua hàng trong 7 ngày tới. Data có: user_id, giới tính, ngày đăng ký, danh sách đơn hàng gần đây (mỗi đơn có ngày, số tiền). Feature nào sẽ mạnh nhất?

6Giải thích6/8

Giải thích

Feature engineering xoay quanh ba câu hỏi: (1) model cần loại tín hiệu nào, (2) raw data đang ở dạng gì, (3) phép biến đổi nào ép nó về dạng model tiêu hoá được. Bốn nhóm dữ liệu phổ biến sau đây xuất hiện trong hầu hết bài toán công nghiệp, mỗi nhóm có bộ kỹ thuật riêng.

Feature số là dễ nhất vì model đã hiểu số. Nhưng “hiểu” không đồng nghĩa với “học tốt”. Bạn vẫn phải giúp model bằng cách nén, chuẩn hoá, hoặc phân nhóm.

Scaling

StandardScaler (mean 0, std 1) hoặc MinMax (0 – 1). Bắt buộc cho linear / neural net.

Log / Box-Cox

Nén long tail (giá, thu nhập, view). Không đổi thứ tự, giảm ảnh hưởng outlier.

Binning

Chia số liên tục thành nhóm: tuổi → nhóm tuổi, giá → rẻ/vừa/cao.

Interaction

diện_tích × số_tầng = tổng diện tích sàn. Linear cần, tree-based tự học.

numerical_fe.py

import numpy as np, pandas as pd
from sklearn.preprocessing import StandardScaler

df["log_price"] = np.log1p(df["price"])
df["age_bin"] = pd.cut(
    df["age"],
    bins=[0, 18, 30, 45, 120],
)
scaler = StandardScaler()
df[["age_s", "log_price_s"]] = scaler.fit_transform(
    df[["age", "log_price"]]
)

Công thức 1. Log transform

Khi một cột số có phân phối lệch phải mạnh (giá, thu nhập, lượt view), ta thường dùng log(1 + x) thay cho x. log1p an toàn với 0, và nén đuôi dài về gần đối xứng:

x' = \log(1 + x)

Nói nôm na: 1 nghìn và 10 nghìn từng cách nhau 9 nghìn, sau log, khoảng cách chỉ còn ~2.3. Nhờ vậy model tuyến tính không bị vài giao dịch 100 triệu nuốt chửng trung bình.

Trước: giá thô (VND)

Một hàng lấn át tất cả. Outlier kéo lệch cả trung bình.

Sau: log(1 + giá)

Các cột đều đặn hơn. Model tuyến tính học ổn định.

Công thức 2. Target encoding có smoothing

Khi category có quá nhiều giá trị (vài trăm quận), one-hot không còn hợp. Thay mỗi category bằng trung bình target tại category đó, pha thêm trung bình toàn cục để category hiếm không bị lệch:

\hat{y}_{\text{te}}(x) = \frac{n_x \cdot \bar{y}_x + m \cdot \bar{y}}{n_x + m}

n_x là số lần category x xuất hiện; ȳ_xlà trung bình target trong category; ȳ là trung bình toàn cục; m là “sức mạnh prior” (thường 10 – 30). Category xuất hiện nhiều ⇒ dùng giá trị riêng; category hiếm ⇒ kéo về trung bình toàn cục để chống overfit.

Cảnh báo: data leakage

Fit target encoder trên toàn bộ data TRƯỚC khi chia train/val sẽ làm target val rò rỉ vào train. Luôn fit encoder trên train fold, rồi transform val/test, đúng hệt cách bạn làm với StandardScaler.

Quy trình 5 bước đề xuất

EDA: phân phối, NaN, correlation với target.
Baseline với feature thô + encoding tối thiểu. Ghi metric.
Thêm từng nhóm (datetime → categorical → text). Đo gain từng bước.
Feature selection: bỏ cột importance thấp hoặc trùng.
Đóng gói thành sklearn.Pipeline để tái lập và tránh leak.

7Tóm tắt7/8

4 ý cần nhớ về feature engineering

Model không hiểu chuỗi, không hiểu ngày, không hiểu địa chỉ dài. Bạn phải biến chúng thành số hoặc ma trận 0/1.
Bốn nhóm kỹ thuật chính: numerical (log, bin, scale), categorical (one-hot, target encode), datetime (hour, dow, age), text (TF-IDF, embedding).
Thêm feature vô tội vạ làm model overfit. Thêm ít feature có ý nghĩa luôn thắng.
Đóng gói toàn bộ pipeline bằng sklearn.Pipeline và ColumnTransformer để tránh leak và tái lập được.

Xem ứng dụng thực tế

Stripe Radar biến 5 trường giao dịch thô thành hơn 1.000 feature để bắt gian lận trong < 100 ms. Xem cách họ làm: Feature engineering trong chống lừa đảo.

8Kiểm tra8/8

Kiểm tra hiểu biết

Câu 1/6

Bạn dự đoán ai sẽ đặt món trong 7 ngày tới. Feature nào sau đây KHÔNG hữu ích?

Bạn có thể làm lại quiz bất cứ lúc nào.

Chủ đề liên quan

Data Preprocessing: Tiền xử lý dữ liệu: làm sạch trước khi học Principal Component Analysis: Phân tích thành phần chính Decision Trees: Cây quyết định

Hình minh họa


1995-05-30	125.000	42 Lý Thường Kiệt, Hoàn Kiếm, Hà Nội	food
2003-11-02	8.500.000	12 Nguyễn Huệ, Quận 1, TP HCM	electronics
1988-07-14	450.000	7 Trần Phú, Hải Châu, Đà Nẵng	food
2010-02-20	1.200.000	25 Hùng Vương, Huế	fashion
1999-09-09	65.000	88 Trần Hưng Đạo, Quận 5, TP HCM	food

Ý tưởng: '1995-05-30' không nói gì cho model. 'Tuổi 30' và 'Millennial' mới là tín hiệu có ý nghĩa.

Code pandas

dob-to-age.py

import pandas as pd

df["dob"] = pd.to_datetime(df["dob"])
df["age"] = (pd.Timestamp("2025-01-01") - df["dob"]).dt.days // 365
df["gen"] = pd.cut(
    df["age"],
    bins=[0, 14, 29, 44, 120],
    labels=["Gen Alpha", "Gen Z", "Millennial", "Gen X+"],
)

Trước → sau

date_of_birth	age	gen
1995-05-30	29	Gen Z
2003-11-02	21	Gen Z
1988-07-14	36	Millennial

Minh hoạ từng loại biến đổi

Datetime decomposition: 1 timestamp → 3 tín hiệu

2025-05-31 08:15hour=8dow=T7weekend=✓

2025-06-02 12:40hour=12dow=T2weekend=✗

2025-06-03 19:05hour=19dow=T3weekend=✗

Binning: biến giá liên tục thành nhóm

rẻ< 200k

vừa200k – 1M

khá1M – 5M

cao> 5M

Một cột số liên tục → 4 nhóm có ý nghĩa. Model học từ nhóm, không phải từng số lẻ.

One-hot: chuỗi → ma trận 0/1

category	cat_food	cat_electronics	cat_fashion
food	1	0	0
electronics	0	1	0
food	1	0	0
fashion	0	0	1

Aggregation: gộp nhiều giao dịch → hành vi user

user_id	tx_count_30d	mean_amount	days_since_last
u1	3	180k	1
u2	12	2.100k	0
u3	1	50k	45

Mỗi hàng trước đây là 1 giao dịch, giờ thành 1 user. Đây là RFM kinh điển trong e-commerce.

Trước: giá thô (VND)

Một hàng lấn át tất cả. Outlier kéo lệch cả trung bình.

Sau: log(1 + giá)

Các cột đều đặn hơn. Model tuyến tính học ổn định.

Giải thích

Scaling

StandardScaler (mean 0, std 1) hoặc MinMax (0 – 1). Bắt buộc cho linear / neural net.

Log / Box-Cox

Nén long tail (giá, thu nhập, view). Không đổi thứ tự, giảm ảnh hưởng outlier.

Binning

Chia số liên tục thành nhóm: tuổi → nhóm tuổi, giá → rẻ/vừa/cao.

Interaction

diện_tích × số_tầng = tổng diện tích sàn. Linear cần, tree-based tự học.

numerical_fe.py

import numpy as np, pandas as pd
from sklearn.preprocessing import StandardScaler

df["log_price"] = np.log1p(df["price"])
df["age_bin"] = pd.cut(
    df["age"],
    bins=[0, 18, 30, 45, 120],
)
scaler = StandardScaler()
df[["age_s", "log_price_s"]] = scaler.fit_transform(
    df[["age", "log_price"]]
)

Công thức 1. Log transform

x' = \log(1 + x)

Trước: giá thô (VND)

Một hàng lấn át tất cả. Outlier kéo lệch cả trung bình.

Sau: log(1 + giá)

Các cột đều đặn hơn. Model tuyến tính học ổn định.

Công thức 2. Target encoding có smoothing

\hat{y}_{\text{te}}(x) = \frac{n_x \cdot \bar{y}_x + m \cdot \bar{y}}{n_x + m}

Cảnh báo: data leakage

Quy trình 5 bước đề xuất

EDA: phân phối, NaN, correlation với target.
Baseline với feature thô + encoding tối thiểu. Ghi metric.
Thêm từng nhóm (datetime → categorical → text). Đo gain từng bước.
Feature selection: bỏ cột importance thấp hoặc trùng.
Đóng gói thành sklearn.Pipeline để tái lập và tránh leak.