Vì sao một robot biết nghĩ lại tiết kiệm năng lượng gấp 100 lần.
Trong bài thi tháp Hà Nội, một cánh tay robot chạy AI kiểu cũ chỉ thắng 34%. Loại AI này học bằng cách bắt chước hàng triệu video người làm. Robot mới của đại học Tufts cộng thêm một bộ luật suy luận, vừa thắng 95% vừa giải được cả các biến thể tháp chưa từng có trong dữ liệu. Cái tốn kém nhất không phải độ chính xác mà là điện: cách nghĩ mới chỉ tốn khoảng 1% điện cho việc huấn luyện và 5% điện cho việc vận hành. Nghiên cứu vừa được công bố tại hội nghị ICRA Vienna tháng 5 năm 2026. Bài viết giải thích vì sao một mạng nơ-ron lai với bộ luật cổ điển lại vừa chính xác vừa tiết kiệm hơn việc nhồi cho mạng học thật to.
Tháp Hà Nội là một trò đố cổ điển. Có ba cọc và một chồng đĩa kích thước khác nhau, đĩa to nằm dưới, đĩa nhỏ nằm trên. Bạn phải dời cả chồng từ cọc bên trái sang cọc bên phải, mỗi lượt chỉ được nhấc một đĩa, và không bao giờ được đặt một đĩa to lên một đĩa nhỏ hơn. Trẻ con vẫn chơi được, miễn là kiên nhẫn lập kế hoạch từng bước.
Một nhóm ở đại học Tufts, dẫn đầu là giáo sư Matthias Scheutz, mang chính trò chơi đó làm bài thi cho hai cánh tay robot. Cánh tay thứ nhất chạy bằng một loại AI đang được dùng phổ biến trong lab robot năm 2026, gọi là vision-language-action model (VLA). Mô hình này nhìn ảnh từ camera, đọc lệnh tiếng người, rồi xuất thẳng ra lệnh điều khiển khớp tay. Cánh tay thứ hai chạy một thiết kế lai, gọi là neuro-symbolic: vẫn dùng mạng nơ-ron để nhìn, nhưng kèm thêm một bộ luật suy luận cổ điển để lập kế hoạch.
Cùng một bài thi, hai cánh tay cho ra kết quả rất khác nhau. Cánh tay VLA chỉ thắng 34%, trong khi cánh tay neuro-symbolic thắng tới 95%. Khi nhóm làm khó bằng các biến thể tháp chưa từng có trong dữ liệu huấn luyện, VLA rớt về 0% còn neuro-symbolic vẫn giữ được 78%. Tuy nhiên, điều khiến giới robot chú ý nhất không nằm ở tỷ lệ thắng mà ở chi phí điện. So với VLA, cánh tay neuro-symbolic chỉ tốn khoảng 1% điện cho việc huấn luyện và 5% điện cho việc vận hành. Bài viết sẽ đi sâu vào hai chữ “biết nghĩ” thực sự nghĩa là gì với một con robot.
VLA học bằng cách xem hàng triệu video
Cách dạy robot phổ biến nhất bây giờ là cho nó xem rất nhiều. Người ta thu video người thật làm cùng một việc, hàng triệu lần, ở các vị trí và ánh sáng khác nhau. Một mạng nơ-ron lớn được huấn luyện để bắt chước đoạn video. Đầu vào là khung ảnh hiện tại, đầu ra là góc quay của các khớp tay ở khung kế tiếp.
Cách này hoạt động tuyệt vời cho những việc đã có sẵn nhiều video gần giống. Robot pha cà phê, gấp khăn, lau bàn nếu được huấn luyện đúng dạng. Tuy nhiên, trò tháp Hà Nội đặt ra một yêu cầu khác hẳn. Việc thắng đòi hỏi phải nghĩ trước nhiều bước, trong khi mỗi tình huống tháp lại khác nhau dù trông giống nhau. Mạng nơ-ron không có khái niệm “kế hoạch”. Ở mỗi khung hình, nó chỉ đoán động tác kế tiếp giống nhất với hàng triệu video đã xem.
Đây là kiểu học vẹtrất nặng, dùng quy mô dữ liệu để bù cho việc thiếu khả năng suy luận. Robot đã từng thấy hàng nghìn pha “nhấc đĩa nhỏ đặt qua cọc bên cạnh”, nên hay lặp lại động tác đó dù không phải bước đúng. Khi gặp tháp 4 đĩa thay vì 3, hoặc khi vị trí cọc xê dịch, số mẫu video huấn luyện khớp được với cảnh trước mắt giảm đi và xác suất thắng tụt nhanh.
Neuro-symbolic chia việc giữa mạng nơ-ron và bộ luật
Robot neuro-symbolic chia việc thành hai phần. Phần đầu vẫn là một mạng nơ-ron, nhưng mạng được giao đúng một việc đơn giản: nhìn ảnh từ camera và trả ra trạng thái của bài toán ngay lúc đó. Cụ thể: cọc nào có những đĩa nào, đĩa nào đang ở trên cùng, vị trí mục tiêu là gì. Đây là phần “mạng” của tên gọi.
Phần thứ hai không phải mạng nơ-ron. Nó là một bộ luật suy luận viết bằng code thông thường: “muốn dời chồng N đĩa từ cọc A sang cọc C, hãy dời N-1 đĩa trên đỉnh sang cọc phụ B, rồi nhấc đĩa lớn nhất từ A sang C, rồi dời chồng N-1 từ B sang C”. Đây là planner: một thuật toán cổ điển nhận đầu vào là trạng thái hiện tại và mục tiêu, trả ra một chuỗi bước cần làm. Đây là phần “symbolic” (ký hiệu) của tên gọi: nó làm việc bằng các biểu tượng rõ ràng chứ không phải xác suất.
Hai phần ăn khớp nhau như mắt và bộ não. Mạng nơ-ron đảm nhận thứ mạng nơ-ron giỏi: đọc thế giới hỗn độn từ pixel sang biểu tượng. Planner đảm nhận thứ planner giỏi: lập kế hoạch chính xác trên biểu tượng. Mỗi nhịp, mạng quan sát, planner lệnh động tác kế tiếp, cánh tay làm, mạng quan sát lại, planner cập nhật. Lặp đến khi xong tháp.
Camera đưa pixel. Mạng trả: cọc nào có đĩa nào, đĩa nào trên đỉnh, đĩa nào đang được cầm.
Code thông thường, vài chục dòng. Đầu vào: trạng thái + mục tiêu. Đầu ra: chuỗi nước đi.
Nhấc đúng đĩa, dời sang đúng cọc. Vòng lặp đóng lại: mạng quan sát lại, planner cập nhật.
Độ chính xác cao hơn, năng lượng giảm 100 lần
Hơn 36 giờ huấn luyện. Tháp biến thể chưa từng thấy: 0% thắng. Mức điện huấn luyện chuẩn 100%.
34 phút huấn luyện. Tháp biến thể: vẫn 78%. Điện huấn luyện còn 1%. Điện vận hành còn 5%.
Hai con số 1% và 5% là điểm thực sự khiến giới làm robot chú ý. AI hiện đại đang là một ngành ngốn điện rõ rệt: cụm GPU chạy huấn luyện hàng tuần, datacenter tốn nước làm mát. Nếu cùng một bài toán có thể giải được bằng cách viết thêm một bộ luật vài chục dòng và để mạng nơ-ron chỉ làm phần nó giỏi, thì lượng điện cần thiết đột nhiên rơi xuống một mức gần như nồi cơm điện so với ô tô.
Tỷ lệ thắng cao trên các biến thể chưa thấy có thể giải thích đơn giản: planner không cần thấy biến thể đó trong dữ liệu, nó chỉ chạy luật. Tháp 4 đĩa, tháp 5 đĩa, tháp với cọc xê dịch, tất cả đều cùng một luật. Mạng nơ-ron mà planner gọi cũng không cần học cả tháp, nó chỉ học nhìn đĩa và cọc. Khả năng giải các bài chưa thấy đến từ việc chia rạch ròi vai trò, chứ không đến từ việc cho mạng học thêm dữ liệu.
Lai mạng nơ-ron với luật cổ điển. Hướng đi đáng theo dõi.
Trong vài năm vừa rồi, công nghệ robot học đang đi theo hướng “mạng to hơn, dữ liệu nhiều hơn”: model VLA ngày càng đồ sộ, datacenter ngày càng đắt. Bài của Tufts gợi ra một con đường khác. Không phải cứ mạng to thì sẽ thay được mọi việc. Một số việc, đặc biệt là những việc cần lập kế hoạch nhiều bước, có cách giải đã tồn tại từ trước thời học máy: thuật toán cổ điển, code do con người viết. Khi lai hai bên lại trên cùng một bài toán, độ chính xác bằng hoặc cao hơn, trong khi năng lượng tiêu thụ giảm rõ rệt.
Hướng này không xoá bỏ model suy luận kiểu LLM. Nó chỉ đặt câu hỏi: trong các mảng có cấu trúc rõ (rút ngân hàng, xếp lịch, điều phối kho hàng, chơi game), liệu có nên cố nhồi việc cho mạng nơ-ron, hay tốt hơn là viết phần thuật toán bằng code và để mạng làm phần khó tự động hoá: cảm nhận thế giới? Câu trả lời từ tháp Hà Nội rõ ràng nghiêng về vế sau.
Bạn không cần làm robot để áp dụng tinh thần này. Lần tới khi bạn lắp một agent chạy bằng LLM, ví dụ một agent đặt vé, hãy tự hỏi: phần nào cần “hiểu” (đọc email, xác định thông tin), và phần nào chỉ là quy tắc (tính ngày, kiểm tra điều kiện, gọi API)? Phần thứ hai nên giao cho code thông thường. Nó rẻ hơn, đáng tin cậy hơn, và dễ debug hơn nhiều so với việc nhờ LLM tự suy luận.