Large Tabular Models — khi AI biết đọc bảng mà không cần train
TabPFN v2 được train một lần trên hàng trăm triệu bảng giả, sau đó đoán cột thiếu cho bất kỳ bảng nào — không fine-tune, không hyperparameter. Trên bảng dưới 10K dòng, nó đang vượt XGBoost, thứ đã thống trị dữ liệu bảng suốt hơn một thập kỷ.
Bạn có một file CSV — 500 dòng, bảy cột. Cột cuối là thứ cần dự đoán: khách có churn hay không. Mở sách ML, mọi công cụ đều hướng bạn tới cùng một quy trình: chạy XGBoost hoặc LightGBM, điều chỉnh vài chục hyperparameter, đợi vài phút để train, kiểm tra accuracy, rồi lặp lại.
Quy trình đó đã thống trị dữ liệu bảng — tabular data — suốt hơn một thập kỷ. Nhưng đầu năm 2025, một dạng model mới xuất hiện trên Nature đã bắt đầu thay đổi nó. Nhóm tác giả gọi nó là large tabular model (LTM) — đại diện tiêu biểu là TabPFN v2. Khác biệt lớn nhất: bạn không train gì cả. Chỉ đưa 500 dòng đó cho model đã được pretrained, rồi bảo nó đoán giùm.
Train một lần, dùng cho mọi bảng
Cùng bảng CSV, LTM làm khác XGBoost ở hai điểm.
Giai đoạn pretrainchỉ xảy ra một lần — và rất đắt. Tác giả dùng máy giả lập sinh ra hàng trăm triệu bảng synthetic, mỗi bảng có số cột, loại dữ liệu, và một “quy luật ẩn” giữa các cột khác nhau. Một transformer lớn được huấn luyện để đoán cột cần tìm trên mỗi bảng giả đó.
Sau khi pretrain xong, mọi thứ chuyển sang giai đoạn inference. Bạn đưa cho model toàn bộ 500 dòng training cùng hàng cần đoán. Tất cả chạy qua như một chuỗi token — model nhìn cả bảng trong context, dùng attention để tìm mẫu khớp với bảng hiện tại, rồi trả về dự đoán. Không có gradient descent. Không có fine-tune. Không có hyperparameter search.
Cơ chế này thuộc dạng in-context learning — cùng hướng tiếp cận đang làm nên các LLM, chỉ khác môi trường là bảng số thay vì văn bản.
Hàng trăm triệu bảng synthetic với quy luật ẩn. Transformer học cách đoán cột thiếu cho mọi cấu trúc bảng.
Bảng của bạn + hàng cần đoán được feed vào model như một chuỗi duy nhất. Attention tìm mẫu, trả dự đoán — không gradient descent.
Với bảng nhỏ, TabPFN v2 đang đánh bại XGBoost
Trên bộ benchmark OpenML-CC18 — tập 72 bài toán phân loại nhỏ và vừa được giới ML dùng làm chuẩn chung — TabPFN v2 thắng XGBoost trên khoảng hai phần ba số bài. Với các bài có dưới 1,000 dòng, ưu thế của TabPFN còn rõ hơn — đó là thứ XGBoost xử lý không tốt vì quá ít dữ liệu để fit sâu.
Tốc độ cũng đảo chiều. XGBoost phải train mỗi task riêng, mất vài phút đến vài giờ tuỳ kích thước. TabPFN v2 không train — prediction chạy trực tiếp từ model đã sẵn, thường dưới một giây cho bảng vài trăm dòng.
Điểm quan trọng nhất có lẽ không nằm ở accuracy: đó là không còn hyperparameter tuning. Đây là phần tốn thời gian nhất của quy trình ML cổ điển, và LTM cắt hẳn.
Không có bữa trưa miễn phí
LTM đánh đổi ba thứ so với XGBoost.
Thứ nhất, kích thước dữ liệu bị giới hạn. TabPFN v2 xử lý được khoảng ~10,000 dòng và ~500 cột — vì toàn bộ bảng phải vừa vào context của transformer. Bảng lớn hơn, bạn vẫn phải dùng XGBoost hoặc sampling.
Thứ hai, inference chậm hơn một model đã train xong. XGBoost sau khi train, mỗi prediction dưới 1 mili-giây. TabPFN phải đọc lại toàn bộ 500 dòng training mỗi lần đoán — tầm vài trăm mili-giây đến một giây.
Thứ ba, model là black box. XGBoost cho bạn feature importance; decision tree có thể vẽ ra. LTM chỉ trả về dự đoán — chưa có cách rõ ràng để bóc tách “tại sao nó đoán vậy”.
Baseline mới cho dữ liệu bảng nhỏ — không phải viên đạn bạc
Dùng LTM khi bảng của bạn dưới 10K dòng, đang ở giai đoạn thử nhanh một ý tưởng, hoặc khi team không có ai chuyên về hyperparameter tuning. Một vài phút upload bảng — kết quả xong. Tỷ lệ thắng XGBoost đủ cao để làm baseline mặc định cho các tác vụ thăm dò.
Bỏ LTM khi dữ liệu vượt ~10K dòng, khi cần chạy hàng triệu prediction mỗi giây (ví dụ realtime fraud detection), hoặc khi stakeholder đòi giải thích cụ thể vì sao model đoán như vậy. Đây vẫn là địa bàn của decision tree, XGBoost, LightGBM, hoặc logistic regression.
LTM chưa thay thế tất cả, nhưng nó đã mở một đường mới trong mảng tabular data — cánh cửa vẫn đóng từ khi deep learning bùng nổ cho image và text. Đáng để thêm vào bộ công cụ, không phải vứt XGBoost đi.