Vision-Language Models

Mô hình Ngôn ngữ — Thị giác

Trung bìnhmultimodal

1Dự đoán1/8

Bạn gửi ảnh chụp hoá đơn nhà hàng cho AI và hỏi 'Tổng tiền bao nhiêu?'. AI cần những năng lực nào?

2Khám phá2/8

VLM có thể thực hiện nhiều loại tác vụ khác nhau với cùng một kiến trúc. Hãy chọn từng tác vụ bên dưới để xem VLM xử lý đầu vào và tạo đầu ra như thế nào.

Hình minh họa

Kết quả: Bãi biển cát trắng với hàng dừa, biển xanh trong, du khách tắm nắng

VLM trích xuất đặc trưng thị giác (dừa, cát, biển) rồi chuyển sang ngôn ngữ tự nhiên.

3Khoảnh khắc A-ha3/8

VLM không phải là OCR hay nhận dạng ảnh thông thường. Điều đặc biệt là nó kết hợp đôi mắt (Vision Encoder) với bộ não ngôn ngữ (LLM) qua một lớp cầu nối (Projection Layer), giúp AI suy luận về những gì nhìn thấy thay vì chỉ mô tả bề mặt.

4Thử thách nhanh4/8

Bạn đưa VLM ảnh chụp thực đơn nhà hàng và hỏi 'Món nào phù hợp cho người ăn chay?'. VLM cần làm gì?

5Lý thuyết5/8

Giải thích

Vision-Language Models (VLM) là mô hình AI kết hợp khả năng hiểu hình ảnh và ngôn ngữ tự nhiên trong một kiến trúc thống nhất. Thay vì dùng nhiều mô hình riêng lẻ cho OCR, phân loại ảnh, và trả lời câu hỏi, VLM làm tất cả với một bộ tham số duy nhất.

Kiến trúc ba thành phần

1. Vision Encoder: Thường là Vision Transformer (ViT), chuyển ảnh đầu vào thành chuỗi vector đặc trưng. Mỗi patch 16x16 pixel trở thành một token thị giác. Nhiều VLM khởi tạo từ CLIP encoder để tận dụng biểu diễn đã căn chỉnh với ngôn ngữ.

2. Projection Layer: Lớp cầu nối chuyển đổi vector ảnh sang không gian embedding của LLM. Giống như phiên dịch viên giữa hai ngôn ngữ.

3. LLM: Xử lý kết hợp token thị giác và token ngôn ngữ, tạo ra phản hồi bằng văn bản tự nhiên. VLM là nền tảng của các mô hình đa phương thức thống nhất hiện đại.

Quá trình xử lý một câu hỏi về ảnh diễn ra như sau:

\text{Image} \xrightarrow{\text{ViT}} \mathbf{z}_{\text{vis}} \xrightarrow{\text{Proj}} \mathbf{h}_{\text{vis}} \;\|\; \mathbf{h}_{\text{text}} \xrightarrow{\text{LLM}} \text{Response}

Trong đó $\mathbf{z}_{\text{vis}}$ là vector đặc trưng ảnh, $\mathbf{h}_{\text{vis}}$ là vector đã chiếu, $\|$ là phép nối (concatenation) với embedding văn bản.

vlm_inference.py

from transformers import LlavaForConditionalGeneration, AutoProcessor
from PIL import Image

# Tải mô hình LLaVA (VLM mã nguồn mở)
model = LlavaForConditionalGeneration.from_pretrained(
    "llava-hf/llava-v1.6-mistral-7b-hf"
)
processor = AutoProcessor.from_pretrained(
    "llava-hf/llava-v1.6-mistral-7b-hf"
)

# Hỏi đáp về ảnh biển hiệu tiếng Việt
image = Image.open("bien-hieu-pho.jpg")
prompt = "<image>\nBiển hiệu này ghi gì? Giá bao nhiêu?"

inputs = processor(prompt, image, return_tensors="pt")
output = model.generate(**inputs, max_new_tokens=200)
print(processor.decode(output[0], skip_special_tokens=True))
# "Phở Thìn Bờ Hồ - Mở cửa 6h-22h - Giá từ 50.000đ"

Hạn chế của VLM hiện tại

VLM vẫn có thể bị ảo giác (hallucination) khi mô tả chi tiết không có trong ảnh. Ví dụ: ảnh chụp phố Hà Nội, VLM có thể bịa thêm chi tiết như tên cửa hàng không tồn tại. Luôn kiểm chứng thông tin quan trọng!

VLM và tiếng Việt

Các VLM lớn như GPT-4V, Claude 3, và Gemini đã hỗ trợ tiếng Việt khá tốt: đọc biển hiệu, hiểu hoá đơn, nhận dạng giọng nói kết hợp với ảnh. VLM mã nguồn mở như LLaVA cũng đang cải thiện khả năng tiếng Việt nhờ fine-tuning trên dữ liệu Việt.

6Ứng dụng thực tế6/8

VLM trong đời sống Việt Nam

Y tế: VLM phân tích ảnh X-quang kết hợp bệnh án tiếng Việt, hỗ trợ bác sĩ chẩn đoán tại các bệnh viện tuyến huyện thiếu chuyên gia.

Giáo dục: Học sinh chụp ảnh bài toán hình học, VLM giải thích lời giải từng bước bằng tiếng Việt.

Tiếp cận: Người khiếm thị dùng VLM qua điện thoại để mô tả môi trường xung quanh, đọc nhãn hàng hoá, và nhận dạng tiền Việt Nam.

Thương mại điện tử: Chụp ảnh sản phẩm trên Shopee/Lazada, VLM tự động tạo mô tả sản phẩm tiếng Việt phong phú.

7Tóm tắt7/8

Ghi nhớ về VLM

VLM = Vision Encoder + Projection Layer + LLM, kết hợp 'nhìn' và 'hiểu' trong một mô hình.
Projection Layer là cầu nối quan trọng nhất — chiếu vector ảnh sang không gian ngôn ngữ.
VLM thực hiện được nhiều tác vụ: mô tả ảnh, hỏi đáp, OCR, suy luận thị giác.
Hạn chế chính: ảo giác (hallucination) khi mô tả chi tiết không có trong ảnh.
Các VLM hàng đầu: GPT-4V, Claude 3, Gemini (đóng), LLaVA (mở) — đều hỗ trợ tiếng Việt.

8Kiểm tra8/8

Kiểm tra hiểu biết

Câu 1/4

Trong kiến trúc VLM, Projection Layer có vai trò gì?

Chủ đề liên quan

CLIP & Contrastive Learning — CLIP — Kết nối hình ảnh và ngôn ngữ Unified Multimodal Architecture — Mô hình đa phương thức thống nhất Image Classification — Phân loại hình ảnh