multimodal

Text-to-Video Generation

Tạo video từ văn bản. AI đạo diễn

Độ khóadvanced

1Dự đoán1/8

Tạo video 10 giây (240 frame) từ prompt tốn gấp bao nhiêu lần so với tạo 1 ảnh?

2Khám phá2/8

Tạo video không chỉ là tạo nhiều ảnh ghép lại. Hãy khám phá bốn thách thức kỹ thuật lớn nhất mà text-to-video phải giải quyết.

Hình minh họa

Nhân vật không biến mất hay thay đổi hình dạng giữa các frame. Áo đỏ ở frame 1 phải vẫn đỏ ở frame 100.

3Khoảnh khắc A-ha3/8

Text-to-video không phải text-to-image chạy 240 lần. Nếu chỉ tạo từng frame độc lập, video sẽ nhảy giật như slideshow. Bí quyết là temporal attention . mỗi frame nhìn vào các frame xung quanh để đảm bảo chuyển động liền mạch. Đây là chiều thứ ba mà text-to-image không cần: chiều thời gian.

4Thử thách nhanh4/8

Video AI tạo ra cho thấy một người bước đi nhưng đôi giày đổi từ đen sang trắng giữa chừng. Thách thức nào bị vi phạm?

5Lý thuyết5/8

Giải thích

Text-to-Video mở rộng text-to-image bằng cách thêm chiều thời gian, tạo ra chuỗi frame liền mạch từ mô tả văn bản. Nền tảng vẫn là mô hình khuếch tán, chỉ khác ở chỗ mở rộng sang không gian 4D (thời gian + không gian). Đây là một trong những thách thức khó nhất của AI sinh tạo.

Hai kiến trúc chính

1. U-Net 3D (Stable Video Diffusion): Mở rộng U-Net 2D bằng temporal convolution và temporal attention. Xử lý video như tensor 4D: (batch, frames, height, width).

2. Diffusion Transformer / DiT (Sora): Chia video thành spacetime patches. mỗi patch là một vùng nhỏ trong không gian VÀ thời gian. Transformer xử lý tất cả patches cùng lúc, nắm bắt mối quan hệ xa.

Spacetime patching trong DiT hoạt động như sau:

\text{Video } \in \mathbb{R}^{T \times H \times W \times 3} \xrightarrow{\text{patch}} N_{\text{patches}} = \frac{T}{p_t} \times \frac{H}{p_h} \times \frac{W}{p_w}

Với $T$ frame, mỗi patch có kích thước $p_t \times p_h \times p_w$ . Transformer attention giữa tất cả patches giúp đảm bảo nhất quán không gian-thời gian.

Hạn chế hiện tại

Thời lượng: Hầu hết mô hình chỉ tạo được 4-16 giây. Video dài hơn cần kỹ thuật nối đoạn (temporal tiling).

Vật lý: AI vẫn hay vi phạm vật lý: nước chảy ngược, vật biến mất rồi xuất hiện lại.

Chi phí: Tạo 1 video 10 giây có thể tốn hàng chục USD trên cloud GPU.

Các mô hình text-to-video hàng đầu (2024-2025)

Sora (OpenAI): DiT, lên đến 60 giây, chất lượng điện ảnh.

Kling (Kuaishou): Phổ biến tại châu Á, tạo video nhân vật rất tốt.

Runway Gen-3 Alpha: Giao diện thân thiện, dùng nhiều trong quảng cáo.

Stable Video Diffusion: Mã nguồn mở, cộng đồng phát triển mạnh.

6Ứng dụng tại Việt Nam6/8

Text-to-video trong bối cảnh Việt Nam

Quảng cáo và marketing: Doanh nghiệp nhỏ Việt Nam có thể tạo video quảng cáo sản phẩm chỉ từ mô tả văn bản, tiết kiệm chi phí quay phim hàng chục triệu đồng.

Du lịch: Tạo video giới thiệu điểm du lịch: "Vịnh Hạ Long lúc bình minh, thuyền kayak giữa các đảo đá vôi".

Giáo dục: Tạo video minh hoạ bài giảng lịch sử: "Quang cảnh Hà Nội năm 1945, đám đông tập trung ở Quảng trường Ba Đình".

Thận trọng: Cần cảnh giác với deepfake video. lừa đảo qua Zalo bằng video giả khuôn mặt người thân đang trở thành vấn nạn tại Việt Nam.

7Tóm tắt7/8

Ghi nhớ về Text-to-Video

Text-to-video = text-to-image + chiều thời gian. Temporal attention là chìa khoá nhất quán.
Hai kiến trúc: U-Net 3D (thêm temporal conv) và DiT/Sora (spacetime patches + Transformer).
Bốn thách thức: nhất quán thời gian, vật lý đúng, chi phí tính toán, chuyển động phức tạp.
Video AI 2025 đã khá tốt (4-60 giây) nhưng vẫn hay lỗi vật lý và bị giới hạn thời lượng.
Cảnh giác: công nghệ này cũng tạo ra deepfake video. cần hiểu để phòng tránh lừa đảo.

8Kiểm tra8/8

Kiểm tra hiểu biết

Câu 1/4

Thách thức lớn nhất phân biệt text-to-video với text-to-image là gì?

Chủ đề liên quan

Text-to-Image Generation: Tạo ảnh từ văn bản. AI hoạ sĩ Diffusion Models: Mô hình khuếch tán Optical Flow: Luồng quang học