neural-fundamentals

Epochs & Batches in GPT Training

Epoch và batch khi huấn luyện GPT

Độ khóintermediate

Công ty nào đang ứng dụng Epoch, batch và iteration?

Mở ChatGPT, gõ một câu hỏi rồi nhấn Enter. Phía sau câu trả lời đó là một model đã đọc khoảng 13 nghìn tỉ token văn bản trên internet, tương đương khoảng 50 triệu cuốn sách, gấp hàng nghìn lần số chữ một người đọc trong cả đời. Câu hỏi tự nhiên: làm sao nhét ngần ấy dữ liệu vào một model chỉ trong vài tháng huấn luyện?

Câu trả lời nằm ở hai khái niệm. Epoch là một lượt duyệt qua toàn bộ dữ liệu, còn batch là lô mẫu mà GPU xử lý cùng lúc. GPT-4 thường chỉ chạy một hoặc hai epoch, vì một lượt đã đủ nhiều. Nhưng mỗi lượt đó được chia thành hàng triệu batch, và mỗi batch là một bước cập nhật trọng số trên hàng nghìn GPU chạy song song. Bài này cho bạn thấy cách các lab AI vặn từng con số đó, và vì sao một sai lầm nhỏ trong batch size có thể đốt hàng chục triệu đô-la vô ích.

Vấn đề công ty cần giải quyết

Hình dung bạn có 13 nghìn tỉ token văn bản. Không GPU nào trên trái đất đủ RAM để ôm toàn bộ dữ liệu cùng lúc. Ngay cả một chiếc H100 (card đồ hoạ chuyên dụng cho AI, RAM 80 GB) cũng chỉ chứa nổi vài triệu token. Vậy model đọc kiểu gì?

Đây là câu hỏi đắt giá. Nên lặp lại dữ liệu nhiều lần (nhiều epoch, ít dữ liệu) hay đọc một lượt thật kỹ (một epoch, dữ liệu khổng lồ)? Batch nên lớn cỡ nào để không hết RAM nhưng vẫn đủ ổn định? Mỗi quyết định ảnh hưởng trực tiếp tới chi phí hàng chục đến hàng trăm triệu đô-la cho một đợt huấn luyện, và quyết định chất lượng model cuối.

Khối dữ liệu khổng lồ

13 nghìn tỉ token ≈ 50 triệu cuốn sách. Không một GPU nào chứa hết cùng lúc.

Hạn chế RAM GPU

H100 có 80 GB. Một batch 4 triệu token đã chiếm ~100 GB, buộc phải chia tiếp.

Chi phí đốt triệu đô

Mỗi ngày một GPU cluster ngốn hàng trăm nghìn đô. Chọn sai batch là cháy tiền.

Cách Epoch, batch và iteration giải quyết vấn đề

Chia dữ liệu thành batch, mỗi batch là một bước cập nhật. Thay vì nạp cả 13 nghìn tỉ token cùng lúc, lab AI chia dữ liệu thành những khối nhỏ gọi là batch. Với LLaMA 2, mỗi batch chứa khoảng 4 triệu token, tương đương 1.000 chuỗi, mỗi chuỗi 4.096 token. Sau khi xem xong một batch, model cập nhật trọng số một lần, rồi đọc batch kế tiếp.
Quy luật Chinchilla: khoảng 20 token cho mỗi tham số. Năm 2022 DeepMind công bố một kết quả chấn động. GPT-3 (175 tỉ tham số) chỉ dùng 300 tỉ token, tức 1,7 token/tham số, đói dữ liệu trầm trọng. Chinchilla 70 tỉ tham số được huấn luyện đúng tỉ lệ 20 token cho mỗi tham số và thắng GPT-3 trên gần hết các benchmark. Bài học: tăng dữ liệu đúng tỉ lệ thường đáng giá hơn tăng kích thước model.
Hàng trăm nghìn đến vài triệu iteration trong một epoch. Lấy 2 nghìn tỉ token của LLaMA 2 chia cho batch 4 triệu token, ra khoảng 500.000 iteration (lần lặp, mỗi lần là một forward + backward + cập nhật). Toàn bộ 500.000 bước này gộp thành một epoch. Một đợt huấn luyện thường chạy trong 2 đến 4 tháng trên cluster hàng nghìn GPU.
Gradient accumulation: nhiều batch nhỏ đóng vai một batch lớn. Nếu một GPU chỉ chứa nổi 500 nghìn token, nhưng bạn muốn batch hiệu dụng 4 triệu token, bạn gom gradient của 8 mini-batch rồi mới cập nhật một lần. Đây là mẹo vàng giúp các đội nhỏ huấn luyện được model lớn. Họ mô phỏng batch lớn bằng cách lặp lại batch nhỏ trước khi cập nhật.
Lặp dữ liệu quá 4 epoch bắt đầu gây hại. Muennighoff và cộng sự (2023) chỉ ra: lặp dữ liệu 1 đến 2 lần gần như miễn phí, 3 đến 4 lần có ích giảm dần, sau 4 lần thì giá trị biên gần bằng 0. Lý do là model bắt đầu thuộc lòng thay vì học mẫu tổng quát. Nhờ vậy các lab lớn đầu tư mạnh vào thu thập dữ liệu mới thay vì chạy nhiều epoch trên bộ dữ liệu cũ.

Scaling laws: loss giảm dần theo compute

Trục hoành là tổng phép tính (compute, thang log). Trục tung là loss (sai số). Mỗi chấm là một model thật đã được công bố. Đường cong cho thấy một quy luật: nhân đôi compute thì loss giảm theo một tỉ lệ dự đoán được.

Mỗi khi tăng gấp 10 lần compute, loss giảm khoảng 15 đến 20%. Các lab lên lịch huấn luyện dựa trên những đường cong như thế này, trước khi chi tiền.

Thử tự tay

So sánh ngân sách huấn luyện của bốn model thật

Bấm chọn từng model để xem dữ liệu, tỉ lệ token/tham số và biểu đồ dải batch tương ứng. Bạn sẽ thấy GPT-3 đói dữ liệu rõ rệt so với Chinchilla.

Model

LLaMA 2 (2023)

Tham số

70 tỉ

Tổng token

2 nghìn tỉ

Token/tham số

~28,6

Epoch

~1 epoch

Nhận định: Vượt mốc Chinchilla một chút. Đội huấn luyện đầu tư dữ liệu cao hơn để đổi lấy khả năng nói nhiều ngôn ngữ.

Dải batch của LLaMA 2

Mô phỏng chia 2 nghìn tỉ token thành các batch 4 triệu token. Thực tế số ô nhiều hơn rất nhiều, đây chỉ là minh hoạ.

batch = iteration|~500 nghìn bước cập nhật

Vặn batch size: RAM GPU và nhịp gradient thay đổi ra sao

Bạn đang ngồi trên một GPU H100 (RAM 80 GB). Kéo thanh để đổi batch size (tính bằng token). Batch quá nhỏ thì gradient nhiễu, vừa phải thì an toàn, quá lớn thì GPU hết RAM.

Ngân sách bộ nhớ và tốc độ gradient

Cần 0.0 GB trên 80 GB

Vùng hoạt động tốt

Số iteration / epoch

3.91 triệu lần

Gradient

Nhiễu nhẹ

Gradient mượt, tận dụng tốt GPU song song, learning rate có thể nâng lên tương ứng với căn bậc hai của batch.

Batch size (nghìn token, giả lập tiêu thụ 24 byte/token)512 K

64 K5000 K

RAM GPU (GB)80 GB

16 GB160 GB

Mẹo: gradient accumulation cứu GPU nhỏ

Nếu GPU của bạn quá nhỏ để chạy batch 4 triệu token, đừng giảm batch. Hãy chia thành 8 mini-batch 500 nghìn token, gom gradient lại, rồi mới cập nhật. Kết quả toán học tương đương batch 4 triệu, chỉ chậm hơn, không tệ hơn. Đây là cách các đội sinh viên huấn luyện được model tỉ tham số trên cluster khiêm tốn.

Lên lịch huấn luyện thực tế cho một model 1 tỉ tham số

Giả sử bạn là một đội startup muốn huấn luyện một model 1 tỉ tham số. Dưới đây là từng bước một đội thật sự đi qua, từ tính ngân sách token đến chạy epoch cuối. Bấm “Tiếp tục” để đi qua từng bước.

Bước 1. Tính ngân sách token

20 token cho mỗi tham số

Model 1 tỉ tham số theo tỉ lệ Chinchilla cần ~20 tỉ token. Bạn chuẩn bị dữ liệu: Common Crawl đã lọc + Wikipedia + sách + code, tổng ~25 tỉ token để dư phòng. Đây là bước quan trọng nhất. Thiếu dữ liệu thì model dù lớn cũng chỉ là con vẹt.

Kiểm tra thực tế: Chinchilla 70B dùng 1,4 nghìn tỉ token (tỉ lệ 20). LLaMA 2 7B dùng 2 nghìn tỉ token (tỉ lệ 286!) vì đa ngôn ngữ đòi hỏi thêm dữ liệu.

Thử thách: bạn là nhà nghiên cứu với GPU 24 GB

Một tình huống có thật. Bạn muốn huấn luyện model 1 tỉ tham số với batch size 1 triệu token, nhưng bạn chỉ có một GPU 24 GB. Thiếu ~10 lần RAM so với nhu cầu (một batch 1 triệu token cộng optimizer states tiêu tốn khoảng 240 GB). Bạn chọn cách nào?

Bạn có GPU 24 GB, muốn batch hiệu dụng 1 triệu token, nhưng thiếu ~10× RAM. Giải pháp nào khả thi và giữ nguyên chất lượng?

Bạn chạy xong 1 epoch trên 20 tỉ token, loss vẫn cao hơn dự đoán. Chọn chiến thuật tiếp theo có lợi nhất:

Cộng sự đề xuất: 'Thay vì 1 epoch trên 20 tỉ token, hãy chạy 4 epoch trên 5 tỉ token để tiết kiệm chi phí thu thập dữ liệu'. Bạn phản biện thế nào?

Bẫy thường gặp: 'cứ lặp thêm sẽ tốt hơn'

Với dữ liệu thường (ảnh, âm thanh, bảng), nhiều epoch thực sự giúp model học kỹ. Nhưng với dữ liệu văn bản quy mô internet, mỗi cuốn sách, mỗi bài báo là không thể thay thế. Lặp dữ liệu cũ sau 2 đến 4 lần không giúp model giỏi hơn, mà bắt đầu biến nó thành một cỗ máy ghi nhớ. Các lab AI hàng đầu đầu tư nhiều tiền vào thu thập và lọc dữ liệu mới hơn là “ép” model học thêm trên dữ liệu cũ.

Con số thật

Chinchilla 70B (1,4 nghìn tỉ token, ~20 token/tham số) thắng Gopher 280B (300 tỉ token, ~1 token/tham số). Dữ liệu quan trọng hơn kích thước model [1]
LLaMA 2 huấn luyện trên 2 nghìn tỉ token với global batch size 4 triệu token, khoảng 500.000 iteration trong 1 epoch [3]
Tỉ lệ tối ưu Chinchilla: khoảng 20 token dữ liệu cho mỗi tham số model [4]
Lặp dữ liệu quá 4 epoch khiến giá trị biên giảm gần bằng 0. Ưu tiên dữ liệu mới hơn lặp dữ liệu cũ [2]

Nếu không có Epoch, batch và iteration, app sẽ ra sao?

Hãy tưởng tượng OpenAI quên quy luật Chinchilla và huấn luyện GPT-4 với tỉ lệ 1,7 token/tham số như GPT-3. Với 1,8 nghìn tỉ tham số, họ sẽ chỉ dùng ~3 nghìn tỉ token. Kết quả sẽ là một model đói dữ liệu trầm trọng, hiệu năng kém hơn nhiều so với phiên bản thực tế dùng 13 nghìn tỉ token. Toàn bộ khoản đầu tư hạ tầng có thể biến thành một model tầm trung, đồng nghĩa mất hàng trăm triệu đô và lợi thế cạnh tranh.

Theo chiều ngược lại, nếu không có khái niệm batch và gradient accumulation, các đội nhỏ sẽ không bao giờ huấn luyện được model tỉ tham số. Chỉ những công ty có cluster GPU khổng lồ mới tham gia cuộc chơi. Đây chính là lý do batch và epoch không phải chỉ là chi tiết kỹ thuật: chúng là đòn bẩy dân chủ hoá huấn luyện AI. Hiểu đúng epoch/batch là khác biệt giữa đốt hàng chục triệu đô-la và có một model ra hồn.

4 điều rút ra từ cách GPT được huấn luyện

Epoch là một lượt duyệt toàn bộ dữ liệu. GPT-4 chỉ chạy 1 đến 2 epoch vì 13 nghìn tỉ token đã quá đủ cho một lượt.
Batch là một khối dữ liệu xử lý cùng lúc. LLaMA 2 dùng batch 4 triệu token, ra ~500 nghìn iteration cho 1 epoch.
Tỉ lệ vàng Chinchilla: ~20 token dữ liệu cho mỗi tham số. Thiếu thì model đói. Thừa thì cần lặp và dễ thuộc lòng.
Hết RAM GPU? Dùng gradient accumulation: chia thành mini-batch, gom gradient rồi mới cập nhật. Toán học tương đương, chỉ chậm hơn.

Muốn hiểu cặn kẽ vì sao một epoch chia thành nhiều batch, và công thức tính số iteration chính xác? Xem bài lý thuyết Epoch, batch và iteration. Bài đó mổ xẻ cơ chế từng bước cho một mạng nơ-ron nhỏ, trước khi áp dụng cho model khổng lồ như GPT.

GPT-4: 13 nghìn tỉ token, 2 tháng, hàng nghìn GPU. Tất cả được điều khiển bởi hai khái niệm đơn giản: epoch và batch.

Chủ đề liên quan

Epochs, Batches & Iterations: Epoch và batch: chia nhỏ đề thi để model không ngộp

Công ty nào đang ứng dụng Epoch, batch và iteration?

Vấn đề công ty cần giải quyết

Khối dữ liệu khổng lồ

13 nghìn tỉ token ≈ 50 triệu cuốn sách. Không một GPU nào chứa hết cùng lúc.

Hạn chế RAM GPU

H100 có 80 GB. Một batch 4 triệu token đã chiếm ~100 GB, buộc phải chia tiếp.

Chi phí đốt triệu đô

Mỗi ngày một GPU cluster ngốn hàng trăm nghìn đô. Chọn sai batch là cháy tiền.

Cách Epoch, batch và iteration giải quyết vấn đề

Chia dữ liệu thành batch, mỗi batch là một bước cập nhật. Thay vì nạp cả 13 nghìn tỉ token cùng lúc, lab AI chia dữ liệu thành những khối nhỏ gọi là batch. Với LLaMA 2, mỗi batch chứa khoảng 4 triệu token, tương đương 1.000 chuỗi, mỗi chuỗi 4.096 token. Sau khi xem xong một batch, model cập nhật trọng số một lần, rồi đọc batch kế tiếp.

Quy luật Chinchilla: khoảng 20 token cho mỗi tham số. Năm 2022 DeepMind công bố một kết quả chấn động. GPT-3 (175 tỉ tham số) chỉ dùng 300 tỉ token, tức 1,7 token/tham số, đói dữ liệu trầm trọng. Chinchilla 70 tỉ tham số được huấn luyện đúng tỉ lệ 20 token cho mỗi tham số và thắng GPT-3 trên gần hết các benchmark. Bài học: tăng dữ liệu đúng tỉ lệ thường đáng giá hơn tăng kích thước model.

Hàng trăm nghìn đến vài triệu iteration trong một epoch. Lấy 2 nghìn tỉ token của LLaMA 2 chia cho batch 4 triệu token, ra khoảng 500.000 iteration (lần lặp, mỗi lần là một forward + backward + cập nhật). Toàn bộ 500.000 bước này gộp thành một epoch. Một đợt huấn luyện thường chạy trong 2 đến 4 tháng trên cluster hàng nghìn GPU.

Gradient accumulation: nhiều batch nhỏ đóng vai một batch lớn. Nếu một GPU chỉ chứa nổi 500 nghìn token, nhưng bạn muốn batch hiệu dụng 4 triệu token, bạn gom gradient của 8 mini-batch rồi mới cập nhật một lần. Đây là mẹo vàng giúp các đội nhỏ huấn luyện được model lớn. Họ mô phỏng batch lớn bằng cách lặp lại batch nhỏ trước khi cập nhật.

Lặp dữ liệu quá 4 epoch bắt đầu gây hại. Muennighoff và cộng sự (2023) chỉ ra: lặp dữ liệu 1 đến 2 lần gần như miễn phí, 3 đến 4 lần có ích giảm dần, sau 4 lần thì giá trị biên gần bằng 0. Lý do là model bắt đầu thuộc lòng thay vì học mẫu tổng quát. Nhờ vậy các lab lớn đầu tư mạnh vào thu thập dữ liệu mới thay vì chạy nhiều epoch trên bộ dữ liệu cũ.

Scaling laws: loss giảm dần theo compute

Mỗi khi tăng gấp 10 lần compute, loss giảm khoảng 15 đến 20%. Các lab lên lịch huấn luyện dựa trên những đường cong như thế này, trước khi chi tiền.

Thử tự tay

So sánh ngân sách huấn luyện của bốn model thật

Bấm chọn từng model để xem dữ liệu, tỉ lệ token/tham số và biểu đồ dải batch tương ứng. Bạn sẽ thấy GPT-3 đói dữ liệu rõ rệt so với Chinchilla.

Model

LLaMA 2 (2023)

Tham số

70 tỉ

Tổng token

2 nghìn tỉ

Token/tham số

~28,6

Epoch

~1 epoch

Nhận định: Vượt mốc Chinchilla một chút. Đội huấn luyện đầu tư dữ liệu cao hơn để đổi lấy khả năng nói nhiều ngôn ngữ.

Dải batch của LLaMA 2

Mô phỏng chia 2 nghìn tỉ token thành các batch 4 triệu token. Thực tế số ô nhiều hơn rất nhiều, đây chỉ là minh hoạ.

batch = iteration|~500 nghìn bước cập nhật

Vặn batch size: RAM GPU và nhịp gradient thay đổi ra sao

Ngân sách bộ nhớ và tốc độ gradient

Cần 0.0 GB trên 80 GB

Vùng hoạt động tốt

Số iteration / epoch

3.91 triệu lần

Gradient

Nhiễu nhẹ

Gradient mượt, tận dụng tốt GPU song song, learning rate có thể nâng lên tương ứng với căn bậc hai của batch.

Batch size (nghìn token, giả lập tiêu thụ 24 byte/token)512 K

64 K5000 K

RAM GPU (GB)80 GB

16 GB160 GB

Mẹo: gradient accumulation cứu GPU nhỏ

Lên lịch huấn luyện thực tế cho một model 1 tỉ tham số

Bước 1. Tính ngân sách token

20 token cho mỗi tham số

Kiểm tra thực tế: Chinchilla 70B dùng 1,4 nghìn tỉ token (tỉ lệ 20). LLaMA 2 7B dùng 2 nghìn tỉ token (tỉ lệ 286!) vì đa ngôn ngữ đòi hỏi thêm dữ liệu.

Thử thách: bạn là nhà nghiên cứu với GPU 24 GB

Bạn có GPU 24 GB, muốn batch hiệu dụng 1 triệu token, nhưng thiếu ~10× RAM. Giải pháp nào khả thi và giữ nguyên chất lượng?

Bạn chạy xong 1 epoch trên 20 tỉ token, loss vẫn cao hơn dự đoán. Chọn chiến thuật tiếp theo có lợi nhất:

Cộng sự đề xuất: 'Thay vì 1 epoch trên 20 tỉ token, hãy chạy 4 epoch trên 5 tỉ token để tiết kiệm chi phí thu thập dữ liệu'. Bạn phản biện thế nào?

Bẫy thường gặp: 'cứ lặp thêm sẽ tốt hơn'

Con số thật

Chinchilla 70B (1,4 nghìn tỉ token, ~20 token/tham số) thắng Gopher 280B (300 tỉ token, ~1 token/tham số). Dữ liệu quan trọng hơn kích thước model [1]

LLaMA 2 huấn luyện trên 2 nghìn tỉ token với global batch size 4 triệu token, khoảng 500.000 iteration trong 1 epoch [3]

Tỉ lệ tối ưu Chinchilla: khoảng 20 token dữ liệu cho mỗi tham số model [4]

Lặp dữ liệu quá 4 epoch khiến giá trị biên giảm gần bằng 0. Ưu tiên dữ liệu mới hơn lặp dữ liệu cũ [2]

Nếu không có Epoch, batch và iteration, app sẽ ra sao?

Epochs & Batches in GPT Training

Công ty nào đang ứng dụng Epoch, batch và iteration?

Vấn đề công ty cần giải quyết

Cách Epoch, batch và iteration giải quyết vấn đề

Scaling laws: loss giảm dần theo compute

Thử tự tay

So sánh ngân sách huấn luyện của bốn model thật

Vặn batch size: RAM GPU và nhịp gradient thay đổi ra sao

Ngân sách bộ nhớ và tốc độ gradient

Lên lịch huấn luyện thực tế cho một model 1 tỉ tham số

Thử thách: bạn là nhà nghiên cứu với GPU 24 GB

Con số thật

Nếu không có Epoch, batch và iteration, app sẽ ra sao?

Tài liệu tham khảo (4)

Chủ đề liên quan

Epochs & Batches in GPT Training

Công ty nào đang ứng dụng Epoch, batch và iteration?

Vấn đề công ty cần giải quyết

Cách Epoch, batch và iteration giải quyết vấn đề

Scaling laws: loss giảm dần theo compute

Thử tự tay

So sánh ngân sách huấn luyện của bốn model thật

Vặn batch size: RAM GPU và nhịp gradient thay đổi ra sao

Ngân sách bộ nhớ và tốc độ gradient

Lên lịch huấn luyện thực tế cho một model 1 tỉ tham số

Thử thách: bạn là nhà nghiên cứu với GPU 24 GB

Con số thật

Nếu không có Epoch, batch và iteration, app sẽ ra sao?

Tài liệu tham khảo (4)

Chủ đề liên quan