reinforcement-learning

Q-Learning

Độ khóintermediate

Dự đoán

1Dự đoán1/8

Grab cần tìm đường ngắn nhất cho tài xế. Mỗi ngã tư có nhiều hướng, không biết trước đường nào kẹt. Tài xế học bằng cách nào?

2Khám phá2/8

Agent xuất phát ở góc trên-trái và phải tới đích ở góc dưới-phải, tránh tường và bẫy. Dùng các nút bên dưới để xem nó học.

Hình minh họa

Episodes

Epsilon (ε)

0.400

Last reward

0.00

Cumul. reward

0.0

Q-table heatmap (max Q theo ô)

0.0

Màu xanh đậm = Q cao (ô "tốt"). Màu đỏ = Q âm (ô "xấu"). Khi agent học, bạn sẽ thấy màu xanh lan dần từ đích về điểm xuất phát — Q values truyền ngược qua phương trình Bellman.

Gợi ý quan sát: Nhấn Step nhiều lần để cảm nhận từng bước update TD; hoặc bấm Auto-train 100 episodes để xem chính sách (mũi tên) hình thành rõ ràng. Mỗi ô hiển thị giá trị max-Q hiện tại.

3Khoảnh khắc Aha3/8

Sau nhiều lần thử, agent học được bản đồ giá trị (Q-table): tại mỗi ô, biết đi hướng nào có giá trị cao nhất. Q values lan ngược từ đích — ô gần đích có Q cao, ô xa hơn thì Q thấp dần. Agent đi theo gradient của Q values — giống nước chảy từ núi xuống thung lũng!

Đây là điểm khác biệt then chốt so với supervised learning: không ai dạy agent "đi đâu". Agent tự khám phá, tự chấm điểm, và tự xây bản đồ của riêng nó. Tín hiệu duy nhất là reward.

Tại sao có chi phí sống (-0.1)?

Nếu mỗi ô không có goal đều cho reward = 0, agent có thể lang thang vô tận vì không bị phạt. Thêm -0.1 mỗi bước biến bài toán thành "đến đích càng nhanh càng tốt" — đây là cách thiết kế reward shaping đơn giản.

4Thử thách4/8

Agent có ε = 0.3. Sau 1000 episodes, nó đã học tốt. Nên giảm ε xuống 0.05 không?

Một ô có Q = [2.0, 5.0, 1.5, 3.0] cho [Up, Right, Down, Left]. Action Right đưa agent vào ô có max Q' = 6, reward = -0.1. Với α = 0.5, γ = 0.9, Q(s, Right) mới là?

5Lý thuyết5/8

Giải thích

Q-Learning là thuật toán RL học giá trị $Q(s, a)$ — "hành động a tại state s tốt đến đâu?" — từ trải nghiệm (off-policy, model-free). Khi state space quá lớn (hình ảnh, game), Q-table được thay bằng neural network — xem Deep Q-Network (DQN). Một nhánh khác là học trực tiếp policy thay vì value function — xem Policy Gradient.

Phương trình Bellman tối ưu:

Q^{*}(s, a) = \mathbb{E}\left[ r + \gamma \max_{a'} Q^{*}(s', a') \mid s, a \right]

Quy tắc cập nhật Q-Learning:

Q(s_t, a_t) \leftarrow Q(s_t, a_t) + \alpha \left[ r_t + \gamma \max_{a'} Q(s_{t+1}, a') - Q(s_t, a_t) \right]

Trong đó:

$\alpha$ — learning rate, kiểm soát tốc độ cập nhật.
$\gamma$ — discount factor, đo mức độ quan trọng của reward tương lai.
$r_t$ — reward nhận được khi chuyển từ $s_t$ sang $s_{t+1}$ .
$\epsilon$ — xác suất explore trong epsilon-greedy.

Off-policy vs On-policy

Q-Learning là off-policy: update Q dựa trên best action (max Q), không phải action thực sự đã thực hiện. Ưu điểm: học từ bất kỳ data nào (replay buffer, quan sát người chơi khác). Nhược điểm: có thể overestimate Q values (Double Q-Learning khắc phục). SARSA là on-policy — update bằng action thực tế sẽ được lấy ở bước tiếp theo, bảo thủ hơn khi có nguy hiểm.

Cảnh giác với reward sparse

Nếu reward chỉ có ở đích (các bước khác = 0), Q values gần như không update ở phần lớn không gian. Agent khó học. Giải pháp: reward shaping (thêm reward trung gian), HER (Hindsight Experience Replay), hoặc intrinsic motivation (curiosity).

Điều kiện hội tụ: Q-Learning hội tụ tới $Q^{*}$ với xác suất 1 nếu:

Mọi (s, a) được thăm vô hạn lần.
Learning rate thoả $\sum \alpha_t = \infty, \sum \alpha_t^2 < \infty$ .
State và action rời rạc, hữu hạn.

Thực tế: state lớn → cần xấp xỉ hàm (neural network), mất bảo đảm hội tụ nhưng thường vẫn work tốt.

Q-Learning với NumPy — grid world 5×5

import numpy as np

GRID = 5
N_ACTIONS = 4              # Up, Right, Down, Left
DELTAS = [(-1, 0), (0, 1), (1, 0), (0, -1)]

WALLS = {(1, 1), (1, 3), (2, 1), (3, 2), (3, 3)}
TRAPS = {(2, 3)}
GOAL = (4, 4)
START = (0, 0)


def step(r: int, c: int, a: int) -> tuple[int, int, float, bool]:
    dr, dc = DELTAS[a]
    nr, nc = r + dr, c + dc
    # Biên và tường
    if not (0 <= nr < GRID and 0 <= nc < GRID) or (nr, nc) in WALLS:
        nr, nc = r, c
    # Reward
    if (nr, nc) == GOAL:
        return nr, nc, 10.0, True
    if (nr, nc) in TRAPS:
        return nr, nc, -5.0, False
    return nr, nc, -0.1, False


def select_action(q: np.ndarray, r: int, c: int, eps: float) -> int:
    if np.random.rand() < eps:
        return np.random.randint(N_ACTIONS)
    return int(np.argmax(q[r, c]))


def train(episodes: int = 1000) -> np.ndarray:
    q = np.zeros((GRID, GRID, N_ACTIONS))
    alpha, gamma = 0.3, 0.95
    eps, eps_min, eps_decay = 0.4, 0.05, 0.995

    for ep in range(episodes):
        r, c = START
        for _ in range(200):  # giới hạn bước
            a = select_action(q, r, c, eps)
            nr, nc, reward, done = step(r, c, a)
            # ── Bellman update ──
            td_target = reward + gamma * q[nr, nc].max()
            q[r, c, a] += alpha * (td_target - q[r, c, a])
            r, c = nr, nc
            if done:
                break
        eps = max(eps_min, eps * eps_decay)
    return q


if __name__ == "__main__":
    q_opt = train(episodes=2000)
    # Chính sách tối ưu π(s) = argmax_a Q(s, a)
    policy = q_opt.argmax(axis=-1)
    print("Optimal policy (0=Up, 1=Right, 2=Down, 3=Left):")
    print(policy)

Double Q-Learning — khắc phục overestimation bias

import numpy as np

# Double Q-Learning: dùng 2 bảng Q luân phiên để tránh max bias.
# Một bảng chọn action, bảng kia đánh giá → giảm overestimation.

def double_q_update(
    qa: np.ndarray,
    qb: np.ndarray,
    s: tuple[int, int],
    a: int,
    r: float,
    s_next: tuple[int, int],
    alpha: float,
    gamma: float,
) -> None:
    if np.random.rand() < 0.5:
        # Cập nhật Qa bằng đánh giá của Qb tại argmax theo Qa
        best_a = int(np.argmax(qa[s_next]))
        target = r + gamma * qb[s_next + (best_a,)]
        qa[s + (a,)] += alpha * (target - qa[s + (a,)])
    else:
        best_a = int(np.argmax(qb[s_next]))
        target = r + gamma * qa[s_next + (best_a,)]
        qb[s + (a,)] += alpha * (target - qb[s + (a,)])


def policy_from_double_q(qa: np.ndarray, qb: np.ndarray) -> np.ndarray:
    """Chính sách dùng trung bình hai bảng."""
    return ((qa + qb) / 2).argmax(axis=-1)

6Lý thuyết mở rộng6/8

Markov Decision Process (MDP) là khung toán học của RL. Một MDP gồm 5 thành phần $(\mathcal{S}, \mathcal{A}, P, R, \gamma)$ :

$\mathcal{S}$ — tập các state (ví dụ: toạ độ ô trong mê cung).
$\mathcal{A}$ — tập các action (ví dụ: 4 hướng di chuyển).
$P(s' \mid s, a)$ — xác suất chuyển state. Ở grid world tất định, P = 1 khi nước đi hợp lệ.
$R(s, a, s')$ — reward nhận được khi chuyển từ s sang s' bằng action a.
$\gamma \in [0, 1)$ — discount factor.

Agent muốn tìm chính sách tối ưu $\pi^{*}(s)$ — hàm trả về action tốt nhất cho mỗi state — sao cho kỳ vọng tổng reward tương lai (có chiết khấu) là lớn nhất:

J(\pi) = \mathbb{E}_{\pi} \left[ \sum_{t=0}^{\infty} \gamma^t r_t \right]

Hàm giá trị trạng thái và hàm giá trị hành động:

V^{\pi}(s) = \mathbb{E}_{\pi}\left[ \sum_{t=0}^{\infty} \gamma^t r_t \mid s_0 = s \right]

Q^{\pi}(s, a) = \mathbb{E}_{\pi}\left[ \sum_{t=0}^{\infty} \gamma^t r_t \mid s_0 = s, a_0 = a \right]

Liên hệ giữa hai hàm: $V^{\pi}(s) = \sum_a \pi(a \mid s) Q^{\pi}(s, a)$ . Chính sách tối ưu chọn argmax của Q: $\pi^{*}(s) = \arg\max_{a} Q^{*}(s, a)$ .

Model-free vs Model-based

Q-Learning là model-free: agent không cần biết P(s'|s,a) hay R(s,a,s'), chỉ cần tương tác với môi trường và quan sát (s, a, r, s'). Ngược lại, model-based (ví dụ Dyna-Q, MuZero) học một mô hình môi trường rồi dùng mô hình đó để lên kế hoạch. Model-based tiết kiệm sample nhưng khó khi môi trường phức tạp.

Hội tụ và lý thuyết:Theorem Watkins & Dayan (1992) chứng minh Q-Learning hội tụ tới $Q^{*}$ với xác suất 1 trong MDP tabular, với điều kiện mọi cặp (s, a) được thăm vô hạn lần và learning rate thoả điều kiện Robbins-Monro. Trong thực tế với function approximation (DQN), mất bảo đảm hội tụ nhưng vẫn work nhờ experience replay và target network.

So sánh nhanh các họ RL:

Value-based (Q-Learning, DQN): học Q, suy ra policy qua argmax. Tốt cho action rời rạc.
Policy-based (REINFORCE, PPO): học thẳng π(a|s). Tốt cho action liên tục.
Actor-Critic (A2C, SAC): học đồng thời cả V (critic) và π (actor). Ổn định và dùng nhiều nhất trong thực tế hiện đại.
Model-based (MuZero, Dreamer): học model môi trường, planning trong mô phỏng. Sample-efficient nhất.

Cạm bẫy khi triển khai thực tế

Nhiều dự án RL thất bại vì lỗi không rõ ràng: reward định nghĩa sai (agent tìm cách lách luật), quá ít episodes (chưa hội tụ), state không đủ Markov (agent không thấy thông tin cần thiết), hoặc simulator khác môi trường thật (sim-to-real gap). RL mạnh nhưng brittle — luôn debug bằng cách in Q values và vẽ policy.

Ứng dụng thực tế:

Game: AlphaGo, AlphaStar, OpenAI Five, MuZero.
Robotics: điều khiển tay máy (Boston Dynamics, OpenAI Dactyl).
Logistics: Grab, Uber phân tuyến tài xế; Amazon sắp xếp kho hàng.
Hệ thống gợi ý: YouTube, TikTok học thứ tự đề xuất bằng RL.
LLM: RLHF (Reinforcement Learning from Human Feedback) — ChatGPT, Claude học từ sở thích người dùng.

7Tóm tắt7/8

Tóm tắt

Q(s,a) = giá trị kỳ vọng của việc thực hiện action a tại state s rồi theo chính sách tối ưu. Agent chọn action có Q cao nhất.
Update rule Bellman: Q(s,a) ← Q(s,a) + α·[r + γ·max_{a'} Q(s',a') − Q(s,a)]. Đây là cốt lõi của Q-Learning.
Epsilon-greedy cân bằng explore (random) và exploit (best Q). Giảm ε dần theo thời gian để chuyển từ khám phá sang khai thác.
Off-policy: học từ best action (max Q) bất kể action thực sự → linh hoạt, cho phép experience replay.
Q-table chỉ dùng được với state/action rời rạc nhỏ. State lớn (ảnh, cảm biến) → Deep Q-Network (DQN) thay Q-table bằng neural network.
Bẫy cần biết: overestimation bias (dùng Double Q-Learning), reward sparse (dùng reward shaping, HER), và sai γ (chọn γ theo horizon bài toán).

Bạn đã làm được

Qua tiện ích phía trên, bạn đã huấn luyện một agent thực sự: Q values lan ngược từ đích, các mũi tên chính sách xuất hiện dần, và ε giảm dần thể hiện sự chuyển dịch từ khám phá sang khai thác. Cũng chính là cách Grab tối ưu tài xế, cách AlphaGo đánh giá nước cờ.

Tiếp theo học gì?

Sau bài này, hãy xem Deep Q-Network để biết cách mở rộng Q-Learning cho state space liên tục, và Policy Gradient cho cách tiếp cận ngược lại — học thẳng chính sách.

8Kiểm tra8/8

Kiểm tra hiểu biết

Câu 1/8

Q(s,a) đại diện cho gì?

Chủ đề liên quan

Deep Q-Network (DQN): Mạng Q sâu Multi-Armed Bandit: Bài toán máy đánh bạc nhiều tay Supervised / Unsupervised / Reinforcement Learning: Ba kiểu học máy: supervised, unsupervised, reinforcement