Perceptron in Image Classification
Perceptron trong Phân loại Ảnh
Công ty nào đang ứng dụng Perceptron?
Năm 1958, tại Cornell Aeronautical Laboratory (phòng thí nghiệm hàng không Cornell), nhà tâm lý học Frank Rosenblatt công bố một cỗ máy có thể học nhận dạng hình ảnh. Báo New York Times gọi nó là “phôi thai của bộ não điện tử” (embryo of an electronic brain).
Cỗ máy đó — Mark I Perceptron — là mạng nơ-ron nhân tạo đầu tiên được chế tạo thành phần cứng thực sự. Nó có thể học phân biệt chữ cái, hình dạng đơn giản, và các mẫu hình ảnh — hoàn toàn từ dữ liệu, không cần lập trình quy tắc thủ công. Nguyên lý perceptron (đơn vị xử lý cơ bản nhất của mạng nơ-ron) mà Rosenblatt phát minh vẫn sống trong mọi mạng nơ-ron hiện đại.
Vấn đề công ty cần giải quyết
Vào thập niên 1950, máy tính chỉ có thể thực hiện các phép tính được lập trình sẵn. Muốn máy nhận dạng chữ “A” hay chữ “B”, lập trình viên phải viết từng quy tắc thủ công: “nếu pixel ở vị trí X sáng thì...”. Cách này cực kỳ dễ vỡ — xoay ảnh vài độ hoặc thay đổi kích thước là quy tắc hỏng.
Rosenblatt đặt câu hỏi: liệu máy có thể tự học nhận dạng mẫu (pattern recognition — nhận ra quy luật trong dữ liệu) từ ví dụ, giống cách bộ não con người học? Hải quân Hoa Kỳ (US Office of Naval Research) tài trợ dự án này với hy vọng tạo ra máy đọc ảnh trinh sát tự động.
Cách Perceptron giải quyết vấn đề
Thu nhận ảnh qua mắt cảm biến (sensory units). Mark I có một lưới 20×20 = 400 tế bào quang điện (photocell — cảm biến ánh sáng) đóng vai trò “võng mạc”. Mỗi tế bào ghi nhận một pixel: sáng hoặc tối. Ảnh đầu vào — chẳng hạn chữ cái viết tay — được chiếu lên lưới cảm biến này.
Kết nối ngẫu nhiên tới tầng liên kết (association units). Tín hiệu từ các tế bào quang điện được nối ngẫu nhiên tới 512 đơn vị liên kết. Mỗi đơn vị nhận đầu vào từ nhiều cảm biến, tính tổng có trọng số (weighted sum — tổng các tín hiệu nhân với hệ số quan trọng), và kích hoạt nếu tổng vượt ngưỡng (threshold — giá trị giới hạn). Đây chính là phép tính cốt lõi của perceptron.
Quyết định phân loại ở tầng phản hồi (response units). Các đơn vị phản hồi nhận tổng có trọng số từ tầng liên kết và đưa ra quyết định nhị phân (binary — hai lớp): ảnh thuộc lớp A hay lớp B. Ví dụ: chữ “X” hay chữ “E”, tờ giấy đánh dấu bên trái hay bên phải.
Học bằng quy tắc cập nhật trọng số (Perceptron Learning Rule). Khi máy dự đoán sai, trọng số kết nối được điều chỉnh: tăng trọng số cho tín hiệu hữu ích, giảm cho tín hiệu gây nhiễu. Quy trình lặp lại nhiều lần trên tập dữ liệu huấn luyện cho đến khi máy phân loại đúng. Đây là thuật toán học đầu tiên cho mạng nơ-ron nhân tạo.
Con số thật
Nếu không có Perceptron, app sẽ ra sao?
Nếu Rosenblatt không chứng minh được rằng máy có thể tự học từ dữ liệu, ngành AI có thể mắc kẹt trong paradigm lập trình quy tắc thủ công (rule-based — dựa trên quy tắc viết sẵn) thêm nhiều thập kỷ.
Perceptron Learning Rule — ý tưởng điều chỉnh trọng số dựa trên sai số — là tiền thân trực tiếp của backpropagation (lan truyền ngược), thuật toán huấn luyện mọi mạng nơ-ron hiện đại từ GPT đến mạng nhận diện khuôn mặt. Mọi bước tiến của deep learning ngày nay đều bắt nguồn từ nguyên lý đơn giản mà Rosenblatt chứng minh năm 1958.