Quay lại trang chủ2/8 trong danh mục

multimodal

Text-to-Image Generation

Tạo ảnh từ văn bản. AI hoạ sĩ

Độ khóadvanced

1Dự đoán1/8

Khi tạo ảnh từ prompt 'chú mèo ngồi trên mặt trăng', AI bắt đầu từ đâu?

2Khám phá2/8

Hãy bấm Bước tiếp để theo dõi toàn bộ pipeline tạo ảnh từ prompt đến pixel cuối cùng.

Hình minh họa

Bước 1/5: Người dùng mô tả bức ảnh mong muốn bằng ngôn ngữ tự nhiên.

3Khoảnh khắc A-ha3/8

Text-to-image không phải ghép ảnh có sẵn mà là khử nhiễu có dẫn dắt. Mỗi bước khử nhiễu, U-Net hỏi prompt: "nên giữ chi tiết nào, bỏ nhiễu nào?". Kết quả là bức ảnh hoàn toàn mới mà chưa từng tồn tại, được điêu khắc từ nhiễu bởi ý tưởng của bạn.

4Thử thách nhanh4/8

Bạn tạo ảnh 'phở bò Hà Nội' nhưng kết quả thiếu chi tiết (hành lá, thịt bò). Bạn nên làm gì?

5Lý thuyết5/8

Giải thích

Text-to-Image là công nghệ sử dụng mô hình khuếch tán (diffusion model) để tạo hình ảnh từ mô tả ngôn ngữ tự nhiên. Kiến trúc phổ biến nhất hiện nay là Latent Diffusion (Stable Diffusion).

Kiến trúc Stable Diffusion

CLIP Text Encoder: Chuyển prompt thành vector ngữ nghĩa, nắm bắt ý nghĩa và phong cách.

U-Net: Mạng dự đoán nhiễu cần loại bỏ ở mỗi bước. Nhận conditioning từ text vector.

VAE (Variational Autoencoder): Encoder nén ảnh vào không gian latent, Decoder giải mã ngược lại thành pixel.

Scheduler: Điều khiển lịch trình khử nhiễu (bao nhiêu nhiễu bỏ mỗi bước).

Quá trình khử nhiễu tuân theo công thức:

x_{t-1} = \frac{1}{\sqrt{\alpha_t}} \left( x_t - \frac{1 - \alpha_t}{\sqrt{1 - \bar{\alpha}_t}} \epsilon_\theta(x_t, t, c) \right) + \sigma_t \mathbf{z}

Trong đó $\epsilon_\theta$ là nhiễu dự đoán bởi U-Net, $c$ là conditioning từ prompt, $\alpha_t$ là hệ số lịch trình nhiễu.

Classifier-Free Guidance (CFG)

CFG là kỹ thuật khuếch đại ảnh hưởng của prompt bằng cách so sánh dự đoán có và không có điều kiện:

\hat{\epsilon} = \epsilon_{\text{uncond}} + w \cdot (\epsilon_{\text{cond}} - \epsilon_{\text{uncond}})

$w$ là CFG scale. $w = 1$ bỏ qua prompt, $w = 7.5$ là mặc định phổ biến. Giống như chỉnh volume cho giọng nói hướng dẫn của prompt.

stable_diffusion.py

from diffusers import StableDiffusionPipeline
import torch

# Tạo ảnh phố cổ Hà Nội
pipe = StableDiffusionPipeline.from_pretrained(
    "stabilityai/stable-diffusion-xl-base-1.0",
    torch_dtype=torch.float16,
).to("cuda")

prompt = "Phố cổ Hà Nội mùa thu, lá vàng rơi trên đường, "
prompt += "xe đạp cũ dựng bên tường gạch, ánh nắng chiều"
negative_prompt = "blurry, low quality, distorted"

image = pipe(
    prompt=prompt,
    negative_prompt=negative_prompt,
    num_inference_steps=30,     # Số bước khử nhiễu
    guidance_scale=7.5,         # CFG scale
    width=1024, height=1024,
).images[0]
image.save("pho-co-ha-noi.png")

Thách thức với tiếng Việt

CLIP được huấn luyện chủ yếu trên dữ liệu tiếng Anh, nên prompt tiếng Việt thường cho kết quả kém hơn. Mẹo: dùng prompt tiếng Anh cho nội dung chính, kết hợp từ khoá đặc trưng Việt Nam ("ao dai", "pho bo", "lanterns").

6Ứng dụng thực tế6/8

Các mô hình text-to-image nổi bật

Stable Diffusion XL: Mã nguồn mở, chạy được trên GPU cá nhân (8GB VRAM). Cộng đồng Việt Nam dùng nhiều nhất.

DALL-E 3: Tích hợp trong ChatGPT, hiểu prompt phức tạp, hỗ trợ tiếng Việt tốt nhờ GPT-4.

Midjourney: Chất lượng nghệ thuật cao, phong cách đẹp mặc định, nhưng đóng (chỉ qua Discord).

Flux: Thế hệ mới từ Black Forest Labs, kiến trúc DiT (Diffusion Transformer) thay U-Net.

7Tóm tắt7/8

Ghi nhớ về Text-to-Image

Text-to-image bắt đầu từ nhiễu ngẫu nhiên, khử nhiễu dần dưới sự dẫn dắt của prompt.
Kiến trúc: CLIP encoder (hiểu prompt) → U-Net (khử nhiễu) → VAE decoder (tạo pixel).
CFG scale điều chỉnh mức bám sát prompt. quá cao sẽ thiếu tự nhiên, quá thấp sẽ bỏ qua prompt.
Latent diffusion xử lý trong không gian nhỏ (64x64) rồi giải mã ra ảnh lớn (512-1024px).
Prompt chi tiết là kỹ năng quan trọng nhất. mô tả càng cụ thể, kết quả càng chính xác.

8Kiểm tra8/8

Kiểm tra hiểu biết

Câu 1/4

Tại sao Stable Diffusion làm việc trong 'không gian latent' thay vì trực tiếp trên pixel?

Chủ đề liên quan

Diffusion Models: Mô hình khuếch tán CLIP & Contrastive Learning: CLIP. Kết nối hình ảnh và ngôn ngữ Generative Adversarial Network: Mạng đối sinh