udemi / bài viết / large-tabular-models

Paperhot

Large Tabular Models — khi AI biết đọc bảng mà không cần train

TabPFN v2 được train một lần trên hàng trăm triệu bảng giả, sau đó đoán cột thiếu cho bất kỳ bảng nào — không fine-tune, không hyperparameter. Trên bảng dưới 10K dòng, nó đang vượt XGBoost, thứ đã thống trị dữ liệu bảng suốt hơn một thập kỷ.

◆ Nature·22 · 04 · 2026·8 phút·nature.com ↗

x₁

x₂

x₃

x₄

LTM đoán ô “?” — không cần train

01 · Ý tưởng

Bạn có một file CSV — 500 dòng, bảy cột. Cột cuối là thứ cần dự đoán: khách có churn hay không. Mở sách ML, mọi công cụ đều hướng bạn tới cùng một quy trình: chạy XGBoost hoặc LightGBM, điều chỉnh vài chục hyperparameter, đợi vài phút để train, kiểm tra accuracy, rồi lặp lại.

Quy trình đó đã thống trị dữ liệu bảng — tabular data — suốt hơn một thập kỷ. Nhưng đầu năm 2025, một dạng model mới xuất hiện trên Nature đã bắt đầu thay đổi nó. Nhóm tác giả gọi nó là tabular foundation model — model nền cho dữ liệu bảng; giới thực hành hay gọi chung nhóm này là large tabular model (LTM). Đại diện tiêu biểu là TabPFN v2. Khác biệt lớn nhất: bạn không train gì cả. Chỉ đưa 500 dòng đó cho model đã được pretrained, rồi bảo nó đoán giùm.

02 · Cơ chế

Train một lần, dùng cho mọi bảng

Cùng bảng CSV, LTM làm khác XGBoost ở hai điểm.

Giai đoạn pretrainchỉ xảy ra một lần — và rất đắt. Tác giả dùng máy giả lập sinh ra hàng trăm triệu bảng synthetic, mỗi bảng có số cột, loại dữ liệu, và một “quy luật ẩn” giữa các cột khác nhau. Một transformer lớn được huấn luyện để đoán cột cần tìm trên mỗi bảng giả đó.

Sau khi pretrain xong, mọi thứ chuyển sang giai đoạn inference. Bạn đưa cho model toàn bộ 500 dòng training cùng hàng cần đoán. Tất cả chạy qua như một chuỗi token — model nhìn cả bảng trong context, dùng attention để tìm mẫu khớp với bảng hiện tại, rồi trả về dự đoán. Không có gradient descent. Không có fine-tune. Không có hyperparameter search.

Cơ chế này thuộc dạng in-context learning — cùng hướng tiếp cận đang làm nên các LLM, chỉ khác môi trường là bảng số thay vì văn bản.

1 · Pretrain (một lần)

Hàng trăm triệu bảng synthetic với quy luật ẩn. Transformer học cách đoán cột thiếu cho mọi cấu trúc bảng.

→

2 · Inference (mỗi bảng mới)

Bảng của bạn + hàng cần đoán được feed vào model như một chuỗi duy nhất. Attention tìm mẫu, trả dự đoán — không gradient descent.

Pretrain một lần trên hàng trăm triệu bảng giả. Inference chạy trên bảng thật qua in-context learning.

03 · Số liệu

Với bảng nhỏ, TabPFN v2 đang đánh bại XGBoost

Bảng < 1K dòngTabPFN v2 74% · XGBoost 26%

Bảng 1K–10K dòngTabPFN v2 63% · XGBoost 37%

Tổng OpenML-CC18TabPFN v2 67% · XGBoost 33%

Tỷ lệ thắng trên các nhóm bài toán OpenML-CC18, TabPFN v2 (xanh) vs XGBoost (xám).

Trên bộ benchmark OpenML-CC18 — tập 72 bài toán phân loại nhỏ và vừa được giới ML dùng làm chuẩn chung — TabPFN v2 thắng XGBoost trên khoảng hai phần ba số bài. Với các bài có dưới 1,000 dòng, ưu thế của TabPFN còn rõ hơn — đó là thứ XGBoost xử lý không tốt vì quá ít dữ liệu để fit sâu.

Tốc độ cũng đảo chiều. XGBoost phải train mỗi task riêng, mất vài phút đến vài giờ tuỳ kích thước. TabPFN v2 không train — prediction chạy trực tiếp từ model đã sẵn, thường dưới một giây cho bảng vài trăm dòng.

Điểm quan trọng nhất có lẽ không nằm ở accuracy: đó là không còn hyperparameter tuning. Đây là phần tốn thời gian nhất của quy trình ML cổ điển, và LTM cắt hẳn.

04 · Đánh đổi

Không có bữa trưa miễn phí

LTM đánh đổi ba thứ so với XGBoost.

Thứ nhất, kích thước dữ liệu bị giới hạn. TabPFN v2 xử lý được khoảng ~10,000 dòng và ~500 cột — vì toàn bộ bảng phải vừa vào context của transformer. Bảng lớn hơn, bạn vẫn phải dùng XGBoost hoặc sampling.

Thứ hai, inference chậm hơn một model đã train xong. XGBoost sau khi train, mỗi prediction dưới 1 mili-giây. TabPFN phải đọc lại toàn bộ 500 dòng training mỗi lần đoán — tầm vài trăm mili-giây đến một giây.

Thứ ba, model là black box. XGBoost cho bạn feature importance; decision tree có thể vẽ ra. LTM chỉ trả về dự đoán — chưa có cách rõ ràng để bóc tách “tại sao nó đoán vậy”.

Tiêu chí

XGBoost

TabPFN v2

Kích thước bảng tối đa

hàng triệu dòng

~10K dòng (fit context)

Time-to-first-prediction

phút → giờ (train + tune)

giây (không train)

Hyperparameter tuning

bắt buộc để đạt tốt

không cần

Inference mỗi prediction

dưới 1 mili-giây

vài trăm ms – 1 s

Khả năng giải thích

feature importance rõ ràng

black box — chưa có tooling

Mỗi dòng là một chiều đánh đổi. Cột nào có dấu chấm màu là nơi công cụ ấy thắng.

05 · Dùng khi nào, bỏ khi nào

Baseline mới cho dữ liệu bảng nhỏ — không phải viên đạn bạc

Dùng LTM khi bảng của bạn dưới 10K dòng, đang ở giai đoạn thử nhanh một ý tưởng, hoặc khi team không có ai chuyên về hyperparameter tuning. Một vài phút upload bảng — kết quả xong. Tỷ lệ thắng XGBoost đủ cao để làm baseline mặc định cho các tác vụ thăm dò.

Bỏ LTM khi dữ liệu vượt ~10K dòng, khi cần chạy hàng triệu prediction mỗi giây (ví dụ realtime fraud detection), hoặc khi stakeholder đòi giải thích cụ thể vì sao model đoán như vậy. Đây vẫn là địa bàn của decision tree, XGBoost, LightGBM, hoặc logistic regression.

LTM chưa thay thế tất cả, nhưng nó đã mở một đường mới trong mảng tabular data — cánh cửa vẫn đóng từ khi deep learning bùng nổ cho image và text. Đáng để thêm vào bộ công cụ, không phải vứt XGBoost đi.

◆ Học sâu hơn

Nền tảng mà bài viết này dựa trên

→ Học bàiKiến trúc Transformerdl-architectures · advanced → Học bàiIn-context learning: dạy AI bằng vài ví dụllm-concepts · beginner → Học bàiCây quyết địnhclassic-ml · intermediate → Học bàiFine-tuning hay Prompting?llm-concepts · advanced