Chain of Thought in Reasoning Models

Chuỗi suy luận trong Mô hình Lý luận

Cơ bảnllm-concepts

Công ty nào đang ứng dụng Chain of Thought?

Tháng 9 năm 2024, OpenAI ra mắt o1— mô hình AI đầu tiên được huấn luyện để “suy nghĩ” trước khi trả lời. Thay vì đưa ra câu trả lời ngay lập tức, o1 tự sinh một chuỗi suy luận (chain of thought — quá trình nháp từng bước) bên trong, tự kiểm tra lỗi và thử nhiều cách tiếp cận.

6 tháng định hình lại "AI biết suy nghĩ"

09/2024

OpenAI ra mắt o1

Mô hình AI đầu tiên được huấn luyện để 'nghĩ' trước khi nói — tự bật chuỗi suy luận mà không cần người dùng nhắc.

02/2025

Anthropic ra Claude 3.7 Sonnet

Mô hình lý luận lai đầu tiên — bạn bật/tắt chế độ 'Extended Thinking' và xem tận mắt Claude đang nháp gì.

Tháng 2 năm 2025, Anthropic trả lời bằng Claude 3.7 Sonnet— mô hình lý luận lai đầu tiên, cho phép người dùng bật chế độ “Extended Thinking” (suy nghĩ mở rộng) để xem Claude trình bày từng bước suy luận trước khi đưa ra đáp án cuối cùng. Với dân văn phòng, điều này đồng nghĩa: bạn không cần nhớ nhắc “hãy suy nghĩ từng bước” ở mỗi prompt nữa — AI tự làm, và còn cho bạn đọc nháp.

Vấn đề công ty cần giải quyết

Trước 2024, các AI phổ biến như GPT-4 hay Claude thường mắc lỗi ở những bài cần nhiều bước suy luận— tính toán chồng, phân tích pháp lý, so sánh nhiều lựa chọn. Nguyên nhân gốc: chúng sinh câu trả lời trong một nhịp, không có chỗ “nháp nội bộ” để tự kiểm tra.

Kỹ thuật Chain-of-Thought (chuỗi suy luận từng bước) đã cho thấy nếu yêu cầu AI trình bày nháp, chất lượng trả lời tăng rõ rệt. Nhưng gánh nặng thuộc về người dùng: lúc nào cũng phải nhớ thêm câu “hãy suy nghĩ từng bước”, và vẫn không thể kiểm chứng chính xác AI đã nháp gì.

Tình huống thực tế

“Công ty có 3 gói thưởng cuối năm cho 3 nhóm nhân viên khác nhau. Mỗi gói tính theo lương + phụ cấp + thâm niên. Hãy chọn gói nào ưu đãi nhất cho nhóm kinh doanh.”

Cùng một câu hỏi — chỉ khác ở chỗ mô hình có được phép 'nháp' hay không.

SaiTrả lời trong 2 giây

“Gói A ưu đãi nhất vì có mức thưởng cố định cao nhất.”

Mô hình nhìn một con số “cao nhất” rồi chốt luôn, không kiểm tra lương cơ bản nhóm kinh doanh có đang ăn theo tỉ lệ % hay không. Kết quả sai với nhóm có hoa hồng cao.

Câu hỏi then chốt mà hai phòng nghiên cứu ở Mỹ phải trả lời: liệu có thể huấn luyện AI tự động sử dụng chuỗi suy luận mà không cần người dùng nhắc, và hiển thị quá trình nháp đó để người dùng kiểm chứng?

Cách Chain of Thought giải quyết vấn đề

Từ prompt của bạn đến câu trả lời cuối — 4 giai đoạn
Tự bật chuỗi suy luận
Tự phát hiện sai và quay lại
Hiển thị suy nghĩ cho người dùng
Càng nghĩ lâu, càng chính xác
Tự phát hiện sai và quay lại
Nhấp vào từng beat bên dưới để đọc chi tiết. Thanh tiến trình cho bạn cảm giác quá trình suy luận — từ “bật chuỗi” đến “chốt đáp án”.
o1 tự bật chuỗi suy luận.Khác với GPT-4 cần người dùng viết “hãy suy nghĩ từng bước”, o1 được huấn luyện bằng reinforcement learning (học tăng cường — phương pháp dạy AI bằng phần thưởng) để tự sinh reasoning tokens (token lý luận — các bước nháp nội bộ) trước khi viết câu trả lời cuối cùng. Bạn chỉ cần hỏi bình thường; phần lý luận diễn ra trong “đầu” mô hình.
Người dùng hỏi →[Reasoning Tokens ẩn]→Đáp án cuối
Mô hình tự sửa lỗi trong quá trình nháp. o1 học cách nhận diện sai lầm, quay lại, và thử hướng khác. Khi gặp bài khó, nó chia thành các bước nhỏ hơn — giống một luật sư phân tích hồ sơ, hay một kiểm toán viên đối chiếu nhiều nguồn trước khi kết luận.
Vòng tự sửa lỗi
Thử cách 1→Phát hiện sai→Quay lại→Cách 2 đúng
Claude hiển thị nháp cho người dùng.Claude 3.7 Sonnet cho phép bật/tắt chế độ Extended Thinking. Khi bật, bạn thấy quá trình suy luận của Claude — cách nó cân nhắc các khả năng, phát hiện mâu thuẫn, và đi đến kết luận. Với công việc văn phòng, bạn có thể chỉ cần đọc phần nháp để biết AI đã hiểu yêu cầu của bạn đúng chưa. Lập trình viên có thể đặt “thinking budget” (ngân sách suy nghĩ) để kiểm soát thời gian Claude dành cho mỗi câu hỏi.
Chế độ Extended Thinking của Claude
Hiệu suất tăng theo thời gian suy nghĩ. Cả hai mô hình cho thấy một quy luật quan trọng: càng dành nhiều tài nguyên tính toán cho việc suy luận (test-time compute — tài nguyên tính toán khi chạy mô hình), kết quả càng chính xác. Đây là bước ngoặt — hiệu suất không chỉ phụ thuộc vào kích thước mô hình mà còn vào thời gian nháp. Nói nôm na: trước kia, bạn phải đợi hãng ra model mới để AI giỏi hơn; bây giờ, chỉ cần cho AI thêm vài phút nghĩ, nó đã thông minh hơn rõ rệt.
Nháp càng lâu, xác suất đúng càng cao
Nghĩ 5 giây
40%
Nghĩ 30 giây
68%
Nghĩ 2 phút
84%
Số liệu minh họa — xu hướng chung từ bảng điểm công khai của o1.

Con số thật

o1 đạt top 49% trong Olympiad Tin học Quốc tế (IOI) 2024 với quy tắc thi thật [1]
Claude 3.7 Sonnet đạt 96,5% trên bài kiểm tra vật lý (GPQA Physics) [3]
84,8% trên Graduate-Level Google-Proof Q&A Benchmark cho Claude Extended Thinking [3]

Nhìn nhanh qua ba con số

Xếp hạng tại IOI 2024 (Olympiad Tin học Quốc tế)

o1 lọt vào top 49% khi thi đúng luật thật của con người — thành tích chưa từng có với AI trước đó.

Điểm kiểm tra Vật lý sau đại học (GPQA Physics)

0.0%

Claude 3.7 Sonnet ở chế độ Extended Thinking làm bài kiểm tra vật lý mức tiến sĩ gần như hoàn hảo.

Graduate-Level Google-Proof Q&A (GPQA tổng thể)

0.0%

Bài test được thiết kế để KHÔNG tra Google ra được — Claude có chuỗi suy luận vẫn đạt rất cao.

Cách đọc các con số

Đây là các bài kiểm tra chuẩn dùng chung cho giới AI — không phải thang điểm văn phòng. Với công việc hàng ngày của bạn, chuỗi suy luận tự động này nghĩa là: ít phải nhờ đồng nghiệp kiểm lại, ít phải bấm máy tính sau lưng AI, và nhiều thời gian hơn để làm việc thật.

Nếu không có Chain of Thought, app sẽ ra sao?

Nếu không có chuỗi suy luận tự động, AI vẫn sẽ đưa ra câu trả lời “bản năng” — nhanh nhưng thường sai ở các việc cần nhiều bước. Dân văn phòng sẽ phải tự viết “hãy suy nghĩ từng bước” mỗi lần, và vẫn không thể kiểm chứng quá trình nháp của AI. Mỗi câu trả lời phức tạp trở thành một canh bạc: tin hay không tin.

Thử nghĩ: cùng một câu hỏi công việc, cùng một người hỏi — kết quả khác nhau ra sao?

Trước 2024Bạn phải tự dạy AI cách suy nghĩ

Mỗi lần hỏi việc nhiều bước, bạn phải nhớ thêm câu “Hãy suy nghĩ từng bước”.
Không biết AI đã nháp gì — phải tin tưởng đáp án cuối hoặc không.
Với câu hỏi rất khó (toán học, pháp lý, tài chính), tỉ lệ sai cao; bạn phải tự đối chiếu với Excel, với luật.

Các mô hình lý luận như o1 và Claude Extended Thinkingđã chứng minh: dành thêm vài giây đến vài phút cho AI “nghĩ” có thể cải thiện đáng kể chất lượng trả lời. Đây là bước đệm cho thế hệ công cụ AI văn phòng tiếp theo — nơi bạn không còn phải đoán “liệu AI có đang nghiêm túc với câu hỏi của mình không”, vì nháp đã nằm ngay trước mặt.

Để nắm vững kỹ thuật nền tảng đằng sau các mô hình này, hãy quay về bài lý thuyết Chuỗi suy luận từng bước.

Chủ đề liên quan

Chain of Thought — Chuỗi suy luận từng bước

Công ty nào đang ứng dụng Chain of Thought?

6 tháng định hình lại "AI biết suy nghĩ"

09/2024

OpenAI ra mắt o1

Mô hình AI đầu tiên được huấn luyện để 'nghĩ' trước khi nói — tự bật chuỗi suy luận mà không cần người dùng nhắc.

02/2025

Anthropic ra Claude 3.7 Sonnet

Mô hình lý luận lai đầu tiên — bạn bật/tắt chế độ 'Extended Thinking' và xem tận mắt Claude đang nháp gì.

Vấn đề công ty cần giải quyết

Tình huống thực tế

Cùng một câu hỏi — chỉ khác ở chỗ mô hình có được phép 'nháp' hay không.

SaiTrả lời trong 2 giây

“Gói A ưu đãi nhất vì có mức thưởng cố định cao nhất.”

Cách Chain of Thought giải quyết vấn đề

Từ prompt của bạn đến câu trả lời cuối — 4 giai đoạn

Tự bật chuỗi suy luận

Tự phát hiện sai và quay lại

Hiển thị suy nghĩ cho người dùng

Càng nghĩ lâu, càng chính xác

Tự phát hiện sai và quay lại

Nhấp vào từng beat bên dưới để đọc chi tiết. Thanh tiến trình cho bạn cảm giác quá trình suy luận — từ “bật chuỗi” đến “chốt đáp án”.

o1 tự bật chuỗi suy luận.Khác với GPT-4 cần người dùng viết “hãy suy nghĩ từng bước”, o1 được huấn luyện bằng reinforcement learning (học tăng cường — phương pháp dạy AI bằng phần thưởng) để tự sinh reasoning tokens (token lý luận — các bước nháp nội bộ) trước khi viết câu trả lời cuối cùng. Bạn chỉ cần hỏi bình thường; phần lý luận diễn ra trong “đầu” mô hình.

Người dùng hỏi →[Reasoning Tokens ẩn]→Đáp án cuối

Mô hình tự sửa lỗi trong quá trình nháp. o1 học cách nhận diện sai lầm, quay lại, và thử hướng khác. Khi gặp bài khó, nó chia thành các bước nhỏ hơn — giống một luật sư phân tích hồ sơ, hay một kiểm toán viên đối chiếu nhiều nguồn trước khi kết luận.

Vòng tự sửa lỗi

Thử cách 1→Phát hiện sai→Quay lại→Cách 2 đúng

Claude hiển thị nháp cho người dùng.Claude 3.7 Sonnet cho phép bật/tắt chế độ Extended Thinking. Khi bật, bạn thấy quá trình suy luận của Claude — cách nó cân nhắc các khả năng, phát hiện mâu thuẫn, và đi đến kết luận. Với công việc văn phòng, bạn có thể chỉ cần đọc phần nháp để biết AI đã hiểu yêu cầu của bạn đúng chưa. Lập trình viên có thể đặt “thinking budget” (ngân sách suy nghĩ) để kiểm soát thời gian Claude dành cho mỗi câu hỏi.

Chế độ Extended Thinking của Claude

Hiệu suất tăng theo thời gian suy nghĩ. Cả hai mô hình cho thấy một quy luật quan trọng: càng dành nhiều tài nguyên tính toán cho việc suy luận (test-time compute — tài nguyên tính toán khi chạy mô hình), kết quả càng chính xác. Đây là bước ngoặt — hiệu suất không chỉ phụ thuộc vào kích thước mô hình mà còn vào thời gian nháp. Nói nôm na: trước kia, bạn phải đợi hãng ra model mới để AI giỏi hơn; bây giờ, chỉ cần cho AI thêm vài phút nghĩ, nó đã thông minh hơn rõ rệt.

Nháp càng lâu, xác suất đúng càng cao

Nghĩ 5 giây

40%

Nghĩ 30 giây

68%

Nghĩ 2 phút

84%

Số liệu minh họa — xu hướng chung từ bảng điểm công khai của o1.

Nếu không có Chain of Thought, app sẽ ra sao?

Thử nghĩ: cùng một câu hỏi công việc, cùng một người hỏi — kết quả khác nhau ra sao?

Trước 2024Bạn phải tự dạy AI cách suy nghĩ

Mỗi lần hỏi việc nhiều bước, bạn phải nhớ thêm câu “Hãy suy nghĩ từng bước”.
Không biết AI đã nháp gì — phải tin tưởng đáp án cuối hoặc không.
Với câu hỏi rất khó (toán học, pháp lý, tài chính), tỉ lệ sai cao; bạn phải tự đối chiếu với Excel, với luật.

Để nắm vững kỹ thuật nền tảng đằng sau các mô hình này, hãy quay về bài lý thuyết Chuỗi suy luận từng bước.

Chain of Thought in Reasoning Models

Công ty nào đang ứng dụng Chain of Thought?

Vấn đề công ty cần giải quyết

Cách Chain of Thought giải quyết vấn đề

Con số thật

Nếu không có Chain of Thought, app sẽ ra sao?

Tài liệu tham khảo (4)

Chủ đề liên quan

Chain of Thought in Reasoning Models

Công ty nào đang ứng dụng Chain of Thought?

Vấn đề công ty cần giải quyết

Cách Chain of Thought giải quyết vấn đề

Con số thật

Nếu không có Chain of Thought, app sẽ ra sao?

Tài liệu tham khảo (4)

Chủ đề liên quan