Probability & Statistics
Xác suất và thống kê
Bạn tung xu ba lần liên tiếp ra đầu cả ba. Đồng xu có bị lệch không?
Xác suất = tần số dài hạn
Bạn không cần biết công thức trước. Hãy tưởng tượng bạn ngồi ở quán trà sữa, lôi ra một đồng xu, tung 1000 lần. Bạn ghi tổng số mặt ngửa và chia cho 1000. Con số đó sẽ tiến gần đến một giá trị cố định — chính là xác suất ra ngửa của đồng xu này.
Xác suất không phải một ý niệm huyền bí. Nó là tỷ lệ bạn quan sát được khi thí nghiệm đủ lâu. Tiếng Anh gọi đó là frequentist view (góc nhìn tần suất). Cả một ngành thống kê đặt nền trên điều đơn giản này.
Tung 10 lần có thể ra 7 ngửa, 3 sấp. Kết luận gì cũng liều.
Tung 100 lần — tỷ lệ bắt đầu ổn định quanh giá trị thật. Vẫn dao động vài phần trăm.
Tung 1.000 lần — tỷ lệ cực gần giá trị thật. Đây là luật số lớn.
Hình minh họa
Kéo thanh “độ lệch thật” để quyết định đồng xu của bạn. Rồi bấm “Tung 100 lần”. Histogram dưới đây sẽ chia 100 lần thành 10 nhóm mỗi nhóm 10 lần, và đếm có bao nhiêu nhóm cho 0, 1, 2, ..., 10 mặt ngửa.
Ba con số này nghe to tát nhưng chỉ là ba cách mô tả cùng một thứ. Bấm “Tung thêm 100 lần” ở thử nghiệm trên để thấy chúng di chuyển.
Mean (trung bình): chuyển mỗi lần ngửa thành số 1, mỗi lần sấp thành số 0, rồi lấy trung bình.
Chú ý: giá trị này chính là tỷ lệ mặt ngửa bạn đã quan sát. Trong trường hợp xu 0/1, mean = xác suất thực nghiệm.
Kéo ba thanh dưới đây. Mỗi đồng xu có một bias khác nhau. Hình bên trên so sánh ba histogram để bạn thấy phân phối thay đổi theo bias.
So sánh ba đồng xu lý thuyết
Thanh càng dài = đồng xu càng thiên về mặt ngửa.
Toàn bộ thống kê đứng trên hai ý đơn giản đó. Từ thăm dò dư luận đến huấn luyện AI — tất cả chỉ là đếm, chia, rồi rút kết luận.
Dưới đây là ba histogram của ba đồng xu khác nhau. Mỗi histogram đếm số mặt ngửa trong 100 nhóm mỗi nhóm 10 lần. Bạn đoán xem histogram nào có mean cao nhất?
Một hộp có 70 bi đỏ và 30 bi xanh. Bạn bốc 1 bi (không nhìn màu), rồi bốc thêm 1 bi nữa (không trả viên đầu lại). Xác suất viên THỨ HAI là đỏ bằng bao nhiêu?
Giải thích
Ở trên bạn đã nhìn luật số lớn và ba con số mô tả dữ liệu bằng mắt. Phần này là tên gọi chính thức và công thức tối thiểu — để lần sau bạn nhìn thấy chúng trong sách giáo khoa vẫn nhận ra.
Công thức 1 — Trung bình
Bằng lời:cộng tất cả các giá trị lại, chia cho số lượng. Đơn giản vậy thôi. Đây là con số “điểm giữa” của cả đám dữ liệu — ký hiệu bằng chữ Hy Lạp (đọc là “mu”). Trong ví dụ xu 0/1, trung bình chính là tỷ lệ mặt ngửa bạn quan sát được.
Công thức 2 — Định lý Bayes
Bằng lời:xác suất A xảy ra khi biết B đã xảy ra = “xác suất thấy B nếu A đúng” × “niềm tin ban đầu vào A”, chia cho “xác suất B xảy ra nói chung”. Nghe rắc rối nhưng bản chất chỉ là cập nhật niềm tin khi có bằng chứng mới.
Chơi với cây Bayes: Lọc spam đơn giản
Kéo ba thanh dưới để thay đổi: tỷ lệ spam ban đầu, xác suất từ “trúng thưởng” xuất hiện trong spam, và trong email thật. Bấm nhánh để mở/đóng.
Khi bạn tăng tỷ lệ spam ban đầu (prior), P(spam | có từ đó) cũng tăng. Khi bạn nâng P(từ | email thật) (nhiều email thật cũng có từ đó), P(spam | có từ đó) giảm — dù likelihood trong spam không đổi. Đây là sức mạnh của Bayes: cả prior lẫn likelihood đều quan trọng. Trực giác hay quên prior, nên thường sai.
Phân phối thường gặp — chỉ cần biết tên
Hình chuông đối xứng quanh mean. Chiều cao con người, điểm thi SAT, sai số đo đạc đều gần như Gaussian. Quy tắc 68-95-99.7: 68% nằm trong 1 std, 95% trong 2 std, 99.7% trong 3 std.
Đếm số lần thành công trong n thử nghiệm độc lập. Chính là histogram xu bạn vừa thấy. Khi n lớn, binomial trông gần giống Gaussian.
Mọi giá trị có cơ hội như nhau. Bốc số trúng thưởng từ trống quay. Tung một con xúc xắc 6 mặt.
Đếm số sự kiện hiếm trong một khoảng thời gian cố định. Số cuộc gọi đến tổng đài trong 1 giờ. Số lượt đặt hàng Shopee trong 1 phút lúc 23h.
- Xác suất = tần số dài hạn. Nếu bạn tung đủ nhiều lần, tỷ lệ quan sát sẽ tiến đến xác suất thật.
- Mean = điểm giữa của dữ liệu. Median = giá trị nằm chính giữa. Khi có giá trị cực đoan, median ổn định hơn.
- Variance và std đo độ lan. Std cùng đơn vị với dữ liệu gốc, dễ dùng hơn variance.
- Bayes: cả prior (tỷ lệ nền) và likelihood (bằng chứng mới) đều quan trọng. Quên một cái, kết luận sai.
- Phân phối chuẩn, nhị thức, đều, Poisson — bốn người bạn thường gặp. Chưa cần nhớ công thức, chỉ cần nhớ tình huống nào dùng phân phối nào.
Kiểm tra hiểu biết
Bạn tung một đồng xu công bằng 10 lần và ra đầu 8 lần. Kết luận nào hợp lý nhất?