Chain of Thought in Reasoning Models
Chuỗi suy luận trong Mô hình Lý luận
Công ty nào đang ứng dụng Chain of Thought?
Tháng 9 năm 2024, OpenAI ra mắt o1— mô hình AI đầu tiên được huấn luyện để “suy nghĩ” trước khi trả lời. Thay vì đưa ra câu trả lời ngay lập tức, o1 tự sinh một chuỗi suy luận (chain of thought — quá trình nháp từng bước) bên trong, tự kiểm tra lỗi và thử nhiều cách tiếp cận.
6 tháng định hình lại "AI biết suy nghĩ"
09/2024
OpenAI ra mắt o1
Mô hình AI đầu tiên được huấn luyện để 'nghĩ' trước khi nói — tự bật chuỗi suy luận mà không cần người dùng nhắc.
02/2025
Anthropic ra Claude 3.7 Sonnet
Mô hình lý luận lai đầu tiên — bạn bật/tắt chế độ 'Extended Thinking' và xem tận mắt Claude đang nháp gì.
Tháng 2 năm 2025, Anthropic trả lời bằng Claude 3.7 Sonnet— mô hình lý luận lai đầu tiên, cho phép người dùng bật chế độ “Extended Thinking” (suy nghĩ mở rộng) để xem Claude trình bày từng bước suy luận trước khi đưa ra đáp án cuối cùng. Với dân văn phòng, điều này đồng nghĩa: bạn không cần nhớ nhắc “hãy suy nghĩ từng bước” ở mỗi prompt nữa — AI tự làm, và còn cho bạn đọc nháp.
Vấn đề công ty cần giải quyết
Trước 2024, các AI phổ biến như GPT-4 hay Claude thường mắc lỗi ở những bài cần nhiều bước suy luận— tính toán chồng, phân tích pháp lý, so sánh nhiều lựa chọn. Nguyên nhân gốc: chúng sinh câu trả lời trong một nhịp, không có chỗ “nháp nội bộ” để tự kiểm tra.
Kỹ thuật Chain-of-Thought (chuỗi suy luận từng bước) đã cho thấy nếu yêu cầu AI trình bày nháp, chất lượng trả lời tăng rõ rệt. Nhưng gánh nặng thuộc về người dùng: lúc nào cũng phải nhớ thêm câu “hãy suy nghĩ từng bước”, và vẫn không thể kiểm chứng chính xác AI đã nháp gì.
Tình huống thực tế
“Công ty có 3 gói thưởng cuối năm cho 3 nhóm nhân viên khác nhau. Mỗi gói tính theo lương + phụ cấp + thâm niên. Hãy chọn gói nào ưu đãi nhất cho nhóm kinh doanh.”
Cùng một câu hỏi — chỉ khác ở chỗ mô hình có được phép 'nháp' hay không.
“Gói A ưu đãi nhất vì có mức thưởng cố định cao nhất.”
Mô hình nhìn một con số “cao nhất” rồi chốt luôn, không kiểm tra lương cơ bản nhóm kinh doanh có đang ăn theo tỉ lệ % hay không. Kết quả sai với nhóm có hoa hồng cao.
Câu hỏi then chốt mà hai phòng nghiên cứu ở Mỹ phải trả lời: liệu có thể huấn luyện AI tự động sử dụng chuỗi suy luận mà không cần người dùng nhắc, và hiển thị quá trình nháp đó để người dùng kiểm chứng?
Cách Chain of Thought giải quyết vấn đề
Từ prompt của bạn đến câu trả lời cuối — 4 giai đoạn
Tự bật chuỗi suy luận
Tự phát hiện sai và quay lại
Hiển thị suy nghĩ cho người dùng
Càng nghĩ lâu, càng chính xác
Tự phát hiện sai và quay lạiNhấp vào từng beat bên dưới để đọc chi tiết. Thanh tiến trình cho bạn cảm giác quá trình suy luận — từ “bật chuỗi” đến “chốt đáp án”.
o1 tự bật chuỗi suy luận.Khác với GPT-4 cần người dùng viết “hãy suy nghĩ từng bước”, o1 được huấn luyện bằng reinforcement learning (học tăng cường — phương pháp dạy AI bằng phần thưởng) để tự sinh reasoning tokens (token lý luận — các bước nháp nội bộ) trước khi viết câu trả lời cuối cùng. Bạn chỉ cần hỏi bình thường; phần lý luận diễn ra trong “đầu” mô hình.
Người dùng hỏi →[Reasoning Tokens ẩn]→Đáp án cuốiMô hình tự sửa lỗi trong quá trình nháp. o1 học cách nhận diện sai lầm, quay lại, và thử hướng khác. Khi gặp bài khó, nó chia thành các bước nhỏ hơn — giống một luật sư phân tích hồ sơ, hay một kiểm toán viên đối chiếu nhiều nguồn trước khi kết luận.
Vòng tự sửa lỗiThử cách 1→Phát hiện sai→Quay lại→Cách 2 đúngClaude hiển thị nháp cho người dùng.Claude 3.7 Sonnet cho phép bật/tắt chế độ Extended Thinking. Khi bật, bạn thấy quá trình suy luận của Claude — cách nó cân nhắc các khả năng, phát hiện mâu thuẫn, và đi đến kết luận. Với công việc văn phòng, bạn có thể chỉ cần đọc phần nháp để biết AI đã hiểu yêu cầu của bạn đúng chưa. Lập trình viên có thể đặt “thinking budget” (ngân sách suy nghĩ) để kiểm soát thời gian Claude dành cho mỗi câu hỏi.
Chế độ Extended Thinking của ClaudeHiệu suất tăng theo thời gian suy nghĩ. Cả hai mô hình cho thấy một quy luật quan trọng: càng dành nhiều tài nguyên tính toán cho việc suy luận (test-time compute — tài nguyên tính toán khi chạy mô hình), kết quả càng chính xác. Đây là bước ngoặt — hiệu suất không chỉ phụ thuộc vào kích thước mô hình mà còn vào thời gian nháp. Nói nôm na: trước kia, bạn phải đợi hãng ra model mới để AI giỏi hơn; bây giờ, chỉ cần cho AI thêm vài phút nghĩ, nó đã thông minh hơn rõ rệt.
Nháp càng lâu, xác suất đúng càng caoNghĩ 5 giây40%Nghĩ 30 giây68%Nghĩ 2 phút84%Số liệu minh họa — xu hướng chung từ bảng điểm công khai của o1.
Con số thật
o1 lọt vào top 49% khi thi đúng luật thật của con người — thành tích chưa từng có với AI trước đó.
Claude 3.7 Sonnet ở chế độ Extended Thinking làm bài kiểm tra vật lý mức tiến sĩ gần như hoàn hảo.
Bài test được thiết kế để KHÔNG tra Google ra được — Claude có chuỗi suy luận vẫn đạt rất cao.
Nếu không có Chain of Thought, app sẽ ra sao?
Nếu không có chuỗi suy luận tự động, AI vẫn sẽ đưa ra câu trả lời “bản năng” — nhanh nhưng thường sai ở các việc cần nhiều bước. Dân văn phòng sẽ phải tự viết “hãy suy nghĩ từng bước” mỗi lần, và vẫn không thể kiểm chứng quá trình nháp của AI. Mỗi câu trả lời phức tạp trở thành một canh bạc: tin hay không tin.
Thử nghĩ: cùng một câu hỏi công việc, cùng một người hỏi — kết quả khác nhau ra sao?
- Mỗi lần hỏi việc nhiều bước, bạn phải nhớ thêm câu “Hãy suy nghĩ từng bước”.
- Không biết AI đã nháp gì — phải tin tưởng đáp án cuối hoặc không.
- Với câu hỏi rất khó (toán học, pháp lý, tài chính), tỉ lệ sai cao; bạn phải tự đối chiếu với Excel, với luật.
Các mô hình lý luận như o1 và Claude Extended Thinkingđã chứng minh: dành thêm vài giây đến vài phút cho AI “nghĩ” có thể cải thiện đáng kể chất lượng trả lời. Đây là bước đệm cho thế hệ công cụ AI văn phòng tiếp theo — nơi bạn không còn phải đoán “liệu AI có đang nghiêm túc với câu hỏi của mình không”, vì nháp đã nằm ngay trước mặt.
Để nắm vững kỹ thuật nền tảng đằng sau các mô hình này, hãy quay về bài lý thuyết Chuỗi suy luận từng bước.