bài viết · tuần 22

Theo dõi AI
không cần đọc 40 newsletter.

Mỗi bài một tin AI/ML đáng đọc của tuần — giải thích bằng tiếng Việt, liên kết về bài học nền tảng. Không spam, không quảng cáo.

LIVEcập nhật 30 · 0519 bài đang mở

AGENT

◆ Claude Code Docs · Hooks·30 · 05·13 phútguardrails

Claude Code Hooks. Guardrails của agent không chỉ là prompt.

Một coding agent không chỉ trả lời bằng chữ. Nó có thể chạy Bash, sửa file, gọi MCP tool và đẩy thay đổi vào repo thật. Claude Code Hooks đặt điểm kiểm soát quanh Tool use: đọc JSON đầu vào, match đúng event, rồi cho chạy tiếp, hỏi lại, hoặc chặn. Bài viết giải thích vì sao guardrail cho AI engineer phải chạy ở runtime, có log, có test, và được review như production code.

Đọc phân tích →

udemi.tech · phân tích so sánh·02 · 05

Midjourney V8.1 vẽ đẹp, ChatGPT Images 2.0 vẽ đúng chữ.

Tháng 4 năm 2026, hai bản image gen mới ra cùng tuần. Ngày 21, OpenAI tung ChatGPT Images 2.0 (model gpt-image-2), bản image gen đầu tiên có thinking mode biết suy luận trước khi vẽ. Trong khi đó, ngày 30, Midjourney chuyển V8.1 thành mặc định, mang ảnh 2K trực tiếp lên web app kèm text rendering tốt hơn V7 đáng kể. Cùng một prompt yêu cầu vẽ biển hiệu PHỞ BÒ NGON, Midjourney vẽ ra một bức không khí đẹp nhưng biển hiệu vẫn sai chính tả. Tuy nhiên, Images 2.0 vẽ một bức trông giống ảnh chụp điện thoại, biển hiệu đúng từng dấu, và còn suy nghĩ về layout trước khi vẽ. Bài viết phân tích vì sao diffusion (Midjourney) và token autoregressive kèm thinking mode (Images 2.0) sinh ra hai phong cách rất khác, lúc nào nên dùng bên nào, và tại sao nhiều designer dùng cả hai trong cùng một quy trình.

hot9 phút →

arXiv · 2602.11743·01 · 05

Vì sao một robot biết nghĩ lại tiết kiệm năng lượng gấp 100 lần.

Trong bài thi tháp Hà Nội, một cánh tay robot chạy AI kiểu cũ chỉ thắng 34%. Loại AI này học bằng cách bắt chước hàng triệu video người làm. Robot mới của đại học Tufts cộng thêm một bộ luật suy luận, vừa thắng 95% vừa giải được cả các biến thể tháp chưa từng có trong dữ liệu. Cái tốn kém nhất không phải độ chính xác mà là điện: cách nghĩ mới chỉ tốn khoảng 1% điện cho việc huấn luyện và 5% điện cho việc vận hành. Nghiên cứu vừa được công bố tại hội nghị ICRA Vienna tháng 5 năm 2026. Bài viết giải thích vì sao một mạng nơ-ron lai với bộ luật cổ điển lại vừa chính xác vừa tiết kiệm hơn việc nhồi cho mạng học thật to.

hot8 phút →

arXiv · 2504.19874·01 · 05

TurboQuant. Nén KV cache xuống 3 bit mà accuracy không đổi.

Hỏi một câu vào model đang giữ 200K token context, GPU nuốt vài chục GB chỉ để nhớ KV. TurboQuant của Google Research xoay vector trước khi quantize, nén key và value xuống 3 bit, giảm 6 lần memory, chạy nhanh hơn tới 8 lần trên H100. Không cần fine-tune, không cần calibration, accuracy trên LongBench gần như không sứt mẻ. Bài viết mổ xẻ tại sao quantize thẳng KV cache hỏng, phép quay Hadamard biến đường cong outlier thành phân phối beta thế nào, và lớp Quantized Johnson-Lindenstrauss khử nốt bias còn lại.

hot9 phút →

udemi · giải thích·29 · 04

Claude điều khiển ứng dụng thế nào. Bộ Adobe Creative Cloud 2026 làm ví dụ.

Bạn gõ một câu, Claude xoá price tag, đổi nền, xuất 80 ảnh sản phẩm. Ngày 28 tháng 4 năm 2026, Anthropic ship 9 connector cho công cụ sáng tạo, gồm Adobe for creativity với hơn 50 tool xuyên Photoshop, Premiere, Illustrator. Bài viết mổ xẻ ba cơ chế Claude dùng để điều khiển một desktop app: computer use (screenshot và toạ độ), MCP server (Tool use có cấu trúc), UXP plugin (code chạy bên trong Photoshop). Khi nào dùng cái nào, mặt phẳng tấn công nào kèm theo, và đâu là cạm bẫy thực tế.

giải thích11 phút →

udemi · giải thích·25 · 04

Claude trong Excel hoạt động thế nào. Bên trong cách AI sửa bảng tính.

Bạn bấm Ctrl+Alt+C, sidebar trượt ra, gõ một câu. Vài giây sau hai cell đổi màu cam và một citation chỉ thẳng tới ô lỗi. Bài viết mổ xẻ Office.js taskpane, vòng lặp tool use bốn nhịp đọc-đề-xuất-ghi-kiểm-chứng, lớp diff, ranh giới quyền truy cập, và lỗ hổng prompt injection CellShock đầu năm 2026.

giải thích10 phút →

udemi · giải thích·23 · 04

Máy đọc thành tiếng thế nào. Bên trong kỹ thuật ElevenLabs.

Bạn gõ một câu. Loa phát ra giọng người. Giữa hai thứ đó là một pipeline năm khối: chuẩn hoá văn bản, grapheme-to-phoneme, prosody, acoustic model, vocoder. Thêm một lớp speaker embedding, và hệ thống học xong một giọng chỉ sau 30 giây audio.

giải thích9 phút →

udemi · giải thích·23 · 04

Vì sao ChatGPT hay sai khi tính toán

Hỏi ChatGPT tính 7583 × 2947, bạn nhận được một con số trông rất thuyết phục nhưng thường sai. Lỗi này có nguyên nhân cơ học: tokenizer cắt nhỏ chữ số, và model chỉ đoán chữ kế tiếp chứ không thực sự tính. Bài viết giải thích cơ chế, rồi chỉ ra cách chuyển việc tính cho đúng công cụ.

giải thích7 phút →

Nature·22 · 04

Large Tabular Models — khi AI biết đọc bảng mà không cần train

TabPFN v2 được train một lần trên hàng trăm triệu bảng giả, sau đó đoán cột thiếu cho bất kỳ bảng nào — không fine-tune, không hyperparameter. Trên bảng dưới 10K dòng, nó đang vượt XGBoost, thứ đã thống trị dữ liệu bảng suốt hơn một thập kỷ.

hot8 phút →

udemi · giải thích·21 · 04

Response streaming — vì sao chatbot hiện chữ từng chút một

Một câu trả lời dài 8 giây. Bạn thấy chữ đầu tiên sau 280ms. Đó không phải hiệu ứng — đó là SSE và TTFT, hai khái niệm quyết định chatbot cảm giác sống hay chết.

giải thích6 phút →

Anthropic·20 · 04

Claude Design — dựng mockup HTML/CSS bằng prompt, chuyển giao đã chuẩn hoá

Công cụ mới của Anthropic cho phép designer dựng mockup UI bằng prompt tiếng Việt, rồi xuất bundle gồm HTML, CSS, README và chat transcript để coding agent dựng thẳng thành sản phẩm. Bài viết này được làm ra bằng chính nó.

hot7 phút →

Anthropic·18 · 04

Claude Opus 4.7 — reasoning chain dài hơn, giá rẻ 30%

Flagship mới của Anthropic: context 500k token, SWE-bench 71.2%, giá ngang Claude 3.5. Reasoning chain dài thêm 2.4 lần nhưng cost-per-task vẫn giảm.

flagship6 phút →

arXiv · 2604.11283·17 · 04

Mixture-of-Depths — token nào cần nghĩ sâu, token nào không

DeepMind đề xuất router động: chỉ chừng 30% token đi qua toàn bộ layer. FLOPs giảm 50% mà MMLU giữ nguyên. Đây là cách transformer học cách chọn lọc, thay vì đối xử đều với mọi token.

hot9 phút →

HuggingFace·16 · 04

DeepSeek-V4 mở trọng số — số 1 OpenLLM với 37B active parameters

236B tổng tham số, 37B active qua MoE 8 expert. Apache 2.0, chạy được trên 2× H100 khi dùng INT4. Hơn 140 fine-tune được đẩy lên trong 3 ngày đầu.

mã mở5 phút →

OpenAI blog·15 · 04

Operator 2 — agent và người cùng điều khiển một tab

OpenAI cho agent và người dùng chung một trình duyệt: cùng cursor, cùng tab, cùng form. Mỗi hành động có hậu quả đều phải có xác nhận từ người trước khi chạy.

agent5 phút →

VinAI Research·14 · 04

PhoGPT-7B Reasoning — model suy luận tiếng Việt đầu tiên

VinAI tune Llama-3.1 trên 40B token tiếng Việt có giải thích. VMLU 68%, ngang GPT-4o ở môn Văn và Sử. Model đầu tiên làm reasoning tốt trên tiếng Việt.

Việt Nam6 phút →

Stanford HAI·13 · 04

AI Index Report 2026 — chi phí inference giảm 86% trong 12 tháng

Báo cáo thường niên của Stanford HAI: giá GPT-4 level rơi từ 30 đô xuống 4 đô mỗi triệu token. Số model mở tăng 3.1 lần. Benchmark GPQA gần bão hoà.

thị trường10 phút →