Text-to-Video Generation
Tạo video từ văn bản — AI đạo diễn
Tạo video 10 giây (240 frame) từ prompt tốn gấp bao nhiêu lần so với tạo 1 ảnh?
Tạo video không chỉ là tạo nhiều ảnh ghép lại. Hãy khám phá bốn thách thức kỹ thuật lớn nhất mà text-to-video phải giải quyết.
Hình minh họa
Nhân vật không biến mất hay thay đổi hình dạng giữa các frame. Áo đỏ ở frame 1 phải vẫn đỏ ở frame 100.
Video AI tạo ra cho thấy một người bước đi nhưng đôi giày đổi từ đen sang trắng giữa chừng. Thách thức nào bị vi phạm?
Giải thích
Text-to-Video mở rộng text-to-image bằng cách thêm chiều thời gian, tạo ra chuỗi frame liền mạch từ mô tả văn bản. Nền tảng vẫn là mô hình khuếch tán, chỉ khác ở chỗ mở rộng sang không gian 4D (thời gian + không gian). Đây là một trong những thách thức khó nhất của AI sinh tạo.
1. U-Net 3D (Stable Video Diffusion): Mở rộng U-Net 2D bằng temporal convolution và temporal attention. Xử lý video như tensor 4D: (batch, frames, height, width).
2. Diffusion Transformer / DiT (Sora): Chia video thành spacetime patches — mỗi patch là một vùng nhỏ trong không gian VÀ thời gian. Transformer xử lý tất cả patches cùng lúc, nắm bắt mối quan hệ xa.
Spacetime patching trong DiT hoạt động như sau:
Với frame, mỗi patch có kích thước . Transformer attention giữa tất cả patches giúp đảm bảo nhất quán không gian-thời gian.
Thời lượng: Hầu hết mô hình chỉ tạo được 4-16 giây. Video dài hơn cần kỹ thuật nối đoạn (temporal tiling).
Vật lý: AI vẫn hay vi phạm vật lý: nước chảy ngược, vật biến mất rồi xuất hiện lại.
Chi phí: Tạo 1 video 10 giây có thể tốn hàng chục USD trên cloud GPU.
Sora (OpenAI): DiT, lên đến 60 giây, chất lượng điện ảnh.
Kling (Kuaishou): Phổ biến tại châu Á, tạo video nhân vật rất tốt.
Runway Gen-3 Alpha: Giao diện thân thiện, dùng nhiều trong quảng cáo.
Stable Video Diffusion: Mã nguồn mở, cộng đồng phát triển mạnh.
Quảng cáo và marketing: Doanh nghiệp nhỏ Việt Nam có thể tạo video quảng cáo sản phẩm chỉ từ mô tả văn bản, tiết kiệm chi phí quay phim hàng chục triệu đồng.
Du lịch: Tạo video giới thiệu điểm du lịch: "Vịnh Hạ Long lúc bình minh, thuyền kayak giữa các đảo đá vôi".
Giáo dục: Tạo video minh hoạ bài giảng lịch sử: "Quang cảnh Hà Nội năm 1945, đám đông tập trung ở Quảng trường Ba Đình".
Thận trọng: Cần cảnh giác với deepfake video — lừa đảo qua Zalo bằng video giả khuôn mặt người thân đang trở thành vấn nạn tại Việt Nam.
- Text-to-video = text-to-image + chiều thời gian. Temporal attention là chìa khoá nhất quán.
- Hai kiến trúc: U-Net 3D (thêm temporal conv) và DiT/Sora (spacetime patches + Transformer).
- Bốn thách thức: nhất quán thời gian, vật lý đúng, chi phí tính toán, chuyển động phức tạp.
- Video AI 2025 đã khá tốt (4-60 giây) nhưng vẫn hay lỗi vật lý và bị giới hạn thời lượng.
- Cảnh giác: công nghệ này cũng tạo ra deepfake video — cần hiểu để phòng tránh lừa đảo.
Kiểm tra hiểu biết
Thách thức lớn nhất phân biệt text-to-video với text-to-image là gì?