Midjourney V8.1 vẽ đẹp, ChatGPT Images 2.0 vẽ đúng chữ.
Tháng 4 năm 2026, hai bản image gen mới ra cùng tuần. Ngày 21, OpenAI tung ChatGPT Images 2.0 (model gpt-image-2), bản image gen đầu tiên có thinking mode biết suy luận trước khi vẽ. Trong khi đó, ngày 30, Midjourney chuyển V8.1 thành mặc định, mang ảnh 2K trực tiếp lên web app kèm text rendering tốt hơn V7 đáng kể. Cùng một prompt yêu cầu vẽ biển hiệu PHỞ BÒ NGON, Midjourney vẽ ra một bức không khí đẹp nhưng biển hiệu vẫn sai chính tả. Tuy nhiên, Images 2.0 vẽ một bức trông giống ảnh chụp điện thoại, biển hiệu đúng từng dấu, và còn suy nghĩ về layout trước khi vẽ. Bài viết phân tích vì sao diffusion (Midjourney) và token autoregressive kèm thinking mode (Images 2.0) sinh ra hai phong cách rất khác, lúc nào nên dùng bên nào, và tại sao nhiều designer dùng cả hai trong cùng một quy trình.
Tháng 4 năm 2026, hai bản image gen mới ra trong cùng một tuần. Ngày 21, OpenAI tung ChatGPT Images 2.0 (model gpt-image-2), bản image gen đầu tiên có thinking mode biết suy luận trước khi vẽ. Trong vòng 12 giờ, nó leo lên hạng nhất Image Arena với cách biệt 242 điểm, mức cao nhất từng ghi nhận trên bảng xếp hạng đó. Ngày 30, Midjourney chuyển V8.1 thành mặc định, mang ảnh 2K trực tiếp lên web app kèm text rendering tốt hơn V7 đáng kể.
Bạn mở cả hai, gõ cùng một prompt: “quán phở Hà Nội buổi sáng, một con mèo nhỏ ngồi cạnh bát phở, biển hiệu trên tường ghi PHỞ BÒ NGON”. Cả hai cho ra hai bức ảnh hoàn toàn khác nhau.
Bức Midjourney V8.1 trông như tranh sơn dầu chụp ngược sáng. Hơi nóng bốc lên từ bát, ánh đèn vàng phủ lên bàn ghế gỗ, con mèo có dáng rất chuẩn của mèo nhà. Tuy nhiên, biển hiệu trên tường lại ghi “PHO BO NGOM”, một dòng chữ giả-Việt-Nam mà mạng cứ ghép từ video huấn luyện ra. Phiên bản V8 đã cải thiện text rendering rõ rệt khi prompt đặt chữ trong dấu ngoặc kép, nhưng tiếng Việt có dấu phụ vẫn là vùng yếu. Bức ChatGPT Images 2.0 thì ngược lại, trông giống ảnh chụp điện thoại bình thường. Ánh sáng đều, không khí ít kịch tính hơn, nhưng biển hiệu in đúng “PHỞ BÒ NGON” từng chữ một, dấu sắc dấu nặng đầy đủ.
Hai bức khác nhau không phải do prompt sai. Chúng khác nhau vì hai mô hình được thiết kế để tối ưu hai mục tiêu khác nhau ngay từ kiến trúc. Bài này đi vào chỗ kiến trúc đó, vì sao nó dẫn đến hai phong cách vẽ rất khác, và lúc nào thì nên dùng bên nào.
Diffusion khử nhiễu cùng lúc, token sinh từng ô theo thứ tự.
Midjourney chạy bằng diffusion model. Mạng bắt đầu từ một bức ảnh nhiễu hoàn toàn (nhìn như hột mì rơi đầy màn hình), rồi qua hàng chục bước, dần dần “dọn” nhiễu thành hình ảnh. Mỗi bước, mạng nhìn cả ảnh cùng lúc và quyết định xoá loại nhiễu nào để bức trở nên đẹp hơn theo thẩm mỹ đã học.
Cụm từ khoá ở đây là “đẹp theo thẩm mỹ đã học”. Dữ liệu huấn luyện của Midjourney được tuyển chọn từ vô số ảnh nghệ thuật, ảnh chụp chuyên nghiệp, ảnh được con người đánh giá là đẹp. Mạng học cái không khí của những ảnh đó. Nhờ vậy, mạng rất giỏi tô màu, sắp ánh sáng, dựng không khí. Trong khi đó, các chi tiết nhỏ ràng buộc bằng lời như nội dung biển hiệu hay số chữ trên áo lại không phải mục tiêu mà mạng tối ưu. Mạng thường vẽ một biển hiệu trông giống biển hiệu, nhưng chữ thực tế chỉ là dấu vết của hàng nghìn biển hiệu khác nhau bị pha trộn lại.
ChatGPT Images 2.0 sinh ảnh theo cách rất khác. Nó vẽ bức ảnh từng mảng nhỏ một, theo thứ tự từ trên xuống dưới và trái sang phải, mỗi mảng phụ thuộc vào các mảng đã sinh trước đó. Cách này gọi là autoregressive token generation: bức ảnh được biểu diễn dưới dạng một chuỗi token rời rạc, model dự đoán token tiếp theo dựa trên prompt và các token đã có. Đây là cùng cơ chế đã làm cho các LLM hiện đại theo lệnh người dùng tốt như vậy.
Khi prompt nói “biển hiệu ghi PHỞ BÒ NGON”, model coi đó là một ràng buộc cụ thể trên các token sẽ sinh ra ở vùng biển hiệu, giống như khi LLM được yêu cầu lặp lại đúng một câu trong câu trả lời. Nhờ vậy, ChatGPT Images 2.0 viết được chữ rõ ràng, làm theo lệnh chi tiết, và có thể chỉnh sửa từng phần qua nhiều lượt chat.
Bản 2.0 còn cộng thêm một tầng mới chưa từng có ở các image gen trước: thinking mode. Trước khi sinh token ảnh, model dành ra vài giây để “suy nghĩ” bằng chuỗi reasoning text, giống cách o1/o3/Claude reasoning nháp ý tưởng trước khi trả lời. Trong khoảng thời gian đó, model phân tích layout, tính toán vị trí chữ, kiểm tra ràng buộc, thậm chí có thể bật web search để tra cứu sự kiện. Đây là image gen đầu tiên có cơ chế này. Người dùng Plus (20 USD/tháng) và Pro (200 USD/tháng) bật được thinking mode. Người dùng free chỉ có instant mode, vốn vẫn dùng chung kiến trúc autoregressive nhưng bỏ qua bước nháp.
Đổi lại, kiến trúc autoregressive ít có cơ hội “cảm” cái đẹp tổng thể như diffusion. Mỗi token chỉ thấy phần ảnh đã sinh trước nó, nên việc dựng không khí xuyên suốt toàn bức không phải là điểm mạnh của kiến trúc này. Đó là lý do nhiều designer đang dùng cả hai song song chứ không bỏ một bên nào.
Cùng prompt, Midjourney bắt không khí, ChatGPT Images bắt chữ.
Quán phở chuẩn không khí, ánh sáng vàng kiểu phim Kodak. Biển hiệu ra 'PHO BO NGOM'. Tóm lại, mood rất tốt, tiếng Việt có dấu vẫn là vùng yếu.
Quán phở trông như ảnh chụp điện thoại. Biển hiệu in đúng 'PHỞ BÒ NGON' từng dấu. Tóm lại, chữ chính xác, ràng buộc chặt, multi-image consistency tốt, mood là điểm yếu.
Đem cả hai ra thi cùng bốn loại prompt khác nhau, kết quả tách ra rất rõ. Loại đầu tiên đã thấy ở trên: một cảnh có chữ Việt cụ thể trong ảnh. Một bài test được Tom's Guide chạy hồi tháng 4 năm 2026 cũng cho ra cùng pattern với chữ tiếng Anh đơn giản: prompt yêu cầu một chai nước ghi chữ “CLARITY”, Midjourney V7 trả về “CLARTIY” (đảo hai chữ I và T), ChatGPT Images 2.0 trả về đúng “CLARITY”. V8.1 cải thiện được trường hợp tiếng Anh khi đặt chữ trong dấu ngoặc kép, nhưng tiếng Việt có dấu vẫn lệch.
Loại prompt thứ hai là chân dung phong cách điện ảnh, ví dụ “một ông cụ cầm cốc trà, ánh sáng cửa sổ buổi chiều, máy phim Kodak Portra 400”. Midjourney dựng được không khí cinematic gần như nguyên bản, kèm hạt phim, bokeh và ánh sáng vàng đặc trưng của Portra. ChatGPT Images 2.0 vẽ ra một bức nhìn được, đúng prompt, nhưng cảm giác phim chiều nhập nhoạng phải tự cảm rất kĩ mới thấy. Đây là vùng Midjourney thắng dứt khoát.
Loại prompt thứ ba là infographic có nhiều chữ, ví dụ “biểu đồ so sánh GDP Việt Nam và Indonesia 2015 đến 2025, tiêu đề tiếng Anh, chú thích tiếng Việt”. Midjourney sinh ra một thứ trông giống biểu đồ. Các số sai gần như toàn bộ, chữ “GDP” có khi thành “GBP” hoặc “GPD”, chú thích tiếng Việt biến thành chữ giả-Việt-Nam. ChatGPT Images 2.0 với thinking mode bật lên còn đi xa hơn: model bật web search, tra số liệu GDP thực tế, dựng biểu đồ có số đúng và chữ đúng cả hai thứ tiếng. Đây là vùng ChatGPT Images 2.0 thắng dứt khoát.
Loại prompt thứ tư là chỉnh sửa nhiều lượt, ví dụ vẽ một nhân vật hoạt hình rồi nói “đổi áo sang màu xanh dương, thêm kính đen, giữ nguyên gương mặt”. Midjourney có chức năng --cref để giữ nhân vật, nhưng mỗi lần chỉnh là một bức ảnh mới và phải tinh chỉnh prompt. Trong khi đó, ChatGPT Images 2.0 chỉnh sửa qua chat một cách trực tiếp: gửi ảnh, nhập câu lệnh, nhận lại bức mới với phần thay đổi đúng yêu cầu, các phần khác giữ nguyên. Bản 2.0 còn sinh được tới 8 bức cùng lúc mà giữ được nhân vật và đồ vật nhất quán xuyên suốt loạt ảnh. Đây là vùng ChatGPT Images 2.0 thắng nhờ kiến trúc, không phải nhờ ép tham số.
Midjourney mạnh ở mood, ChatGPT Images mạnh ở chữ và ràng buộc.
Có thể tổng kết bằng hai bảng đối xứng. Midjourney V8.1 mạnh ở mood, ánh sáng, kết cấu vật liệu, không khí phim cinematic, các phong cách hội hoạ. Yếu ở chữ trong ảnh (đặc biệt tiếng Việt có dấu), ràng buộc chính xác về nội dung, tính nhất quán giữa nhiều bức trong cùng một bộ. ChatGPT Images 2.0 thì ngược lại, mạnh ở chữ trong ảnh đa ngôn ngữ, làm theo lệnh chi tiết nhiều ràng buộc, chỉnh sửa từng phần qua chat, sinh tới 8 bức cùng lúc mà giữ nhân vật nhất quán, ảnh có cảm giác photorealistic. Yếu ở cảm giác nghệ thuật, mood phim cinematic, các phong cách lạ như hội hoạ Đông Á truyền thống hay tranh sơn mài.
Hai điểm yếu trên không phải lỗi. Chúng là hệ quả tất yếu của việc hai kiến trúc cùng được tối ưu cho hai mục tiêu khác nhau. Nếu một mạng đặt instruction-following lên cao nhất thì nó sẽ phải hi sinh phần thẩm mỹ chủ quan. Nếu một mạng đặt thẩm mỹ chủ quan lên cao nhất thì nó phải hi sinh phần ràng buộc cứng. Image Arena tháng 4 năm 2026 cho ChatGPT Images 2.0 lên hạng nhất ở mọi hạng mục với cách biệt 242 điểm, nhưng đó là điểm tổng hợp ưu tiên độ chính xác. Trong các test thuần aesthetic-only do designer chấm, Midjourney vẫn thắng nhiều.
Midjourney cho concept và mood, ChatGPT Images cho thiết kế và chữ.
Quy tắc thực tế: nếu bạn đang dựng concept, mood board, nhân vật trong truyện, bìa nhạc, hay ảnh không khí cho bài viết, thì Midjourney V8.1 là lựa chọn an toàn. Bức ra hầu như luôn đẹp, kể cả khi prompt còn vụng. Đây là công cụ cho người sáng tạo tìm hứng. Giá khởi điểm 10 USD/tháng cho gói Basic, không có tier free.
Trong khi đó, nếu bạn đang làm thiết kế có chữ (poster, social card, infographic, sách hướng dẫn, slide), hoặc muốn chỉnh sửa lặp đi lặp lại trên cùng một bức cho đến khi nó chính xác như ý, thì ChatGPT Images 2.0 ưu thế hơn rõ rệt. Đây là công cụ cho người làm sản phẩm cần kiểm soát. Người dùng free đã có sẵn instant mode trong ChatGPT, đủ cho các tác vụ đơn giản. Thinking mode (suy luận trước khi vẽ, web search, multi-image batching) cần gói Plus 20 USD/tháng hoặc Pro 200 USD/tháng.
Nhiều designer chuyên nghiệp dùng cả hai trong cùng một quy trình. Bước concept dùng Midjourney để khám phá hướng. Bước hoàn thiện có chữ dùng ChatGPT Images 2.0 với thinking mode bật để đẩy tới sản phẩm cuối. Bước cuối cùng vẫn cần Photoshop hoặc Figma cho phần con người không thể nhường cho mạng nơ-ron quyết, ví dụ căn chỉnh layout chính xác đến pixel hay đặt logo lên đúng vị trí kerning.
Bạn không phải chọn một bên. Hiểu kiến trúc của từng bên cho phép bạn chọn đúng công cụ cho đúng việc. Đó là cách tiết kiệm thực sự lớn hơn cả phí subscription, vì thời gian sửa đi sửa lại trong công cụ sai luôn đắt hơn nhiều so với phí dùng đúng công cụ ngay từ đầu.