Jupyter & Google Colab Workflow
Jupyter và Google Colab — Notebook là IDE của data scientist
Notebook là IDE của data scientist
Viết code, chạy, thấy kết quả ngay, viết chú thích, tiếp tục. Cứ vòng lặp đó mỗi ngày. Nếu lập trình web thường cần chạy lại cả chương trình để xem một thay đổi, thì với notebook, bạn chỉ cần ấn Shift + Enter và thấy kết quả tại chỗ.
Bài thực hành này chỉ bạn cách sử dụng notebook trong ngày đầu tiên: từ tạo ô đầu tiên, chạy thử một bài phân tích mini, đến chọn giữa Jupyter chạy local hay Google Colab trên cloud.
Bạn muốn huấn luyện một mạng nơ-ron nhỏ nhưng máy tính không có GPU. Công cụ nào cho bạn GPU miễn phí để bắt đầu ngay trong buổi chiều nay?
Hình minh họa
Notebook mô phỏng: một bài phân tích mini
Đây là bản mô phỏng của Colab thu nhỏ. Notebook có 4 ô: một ô ghi chú bằng markdown, ba ô code. Bấm nút Play bên cạnh từng ô để chạy (hoặc “Chạy tất cả” phía trên), rồi xem kết quả xuất hiện ngay phía dưới.
Phân tích điểm thi lớp 12
Mục tiêu: đọc file CSV, tính điểm trung bình từng môn, rồi vẽ biểu đồ phân phối điểm Toán.
import pandas as pd
df = pd.read_csv('diem_lop12.csv')
df.head()means = df[['toan', 'van', 'anh']].mean()
print('Điểm trung bình mỗi môn:')
print(means.round(2))import matplotlib.pyplot as plt
df['toan'].hist(bins=10, color='#10b981')
plt.title('Phân phối điểm Toán')
plt.show()Ô markdown
Ghi chú, tiêu đề, công thức. Dùng để kể câu chuyện quanh code. Render ngay khi chạy.
Ô code
Python thật, chạy thật. Số trong ngoặc vuông là thứ tự chạy — tăng dần mỗi lần bạn chạy ô.
Ô output
Xuất hiện ngay dưới ô code. Text, bảng, biểu đồ, hình ảnh — tất cả chung một dòng chảy.
Không có công cụ “tốt nhất” tuyệt đối — chỉ có công cụ phù hợp nhất cho hoàn cảnh của bạn. Bốn tab dưới đây tóm tắt ưu nhược điểm của từng lựa chọn phổ biến, kèm cách bắt đầu trong 4 bước cho mỗi công cụ.
Jupyter Notebook (local)
Notebook gốc chạy trực tiếp trên máy tính của bạn. Bạn tự lo mọi thứ: Python, thư viện, phần cứng.
Điểm mạnh
- +Không giới hạn thời gian — máy của bạn, bạn toàn quyền
- +Dữ liệu không rời khỏi máy, phù hợp hồ sơ nhạy cảm
- +Có thể dùng mọi thư viện, kể cả bản sửa đổi do bạn tự viết
Điểm yếu
- -Cần cài Python, pip, jupyter lần đầu — bước đầu thường rối
- -Không có GPU trừ khi máy bạn có card rời
- -Chia sẻ khó hơn — người nhận phải tự cài lại môi trường
Cách bắt đầu trong 4 bước
- 1Cài Python 3.10 trở lên qua python.org hoặc Anaconda
- 2Mở terminal, gõ: pip install notebook
- 3Gõ tiếp: jupyter notebook — trình duyệt sẽ tự mở
- 4Tạo notebook mới từ nút New → Python 3
Phù hợp nhất khi
Khi bạn cần bảo mật dữ liệu, hoặc muốn học sâu về môi trường Python.
Bạn là sinh viên mới bắt đầu học deep learning, máy laptop cũ không có GPU. Vì sao Colab lại là lựa chọn gần như hoàn hảo cho giai đoạn này?
Giải thích
Notebook có hai chế độ: command (bàn phím điều khiển ô) và edit (bàn phím gõ vào ô). Biết được bạn đang ở chế độ nào — và biết vài phím tắt quan trọng — sẽ tăng tốc độ bạn làm việc lên gấp đôi trong tuần đầu tiên.
Chạy ô và sang ô tiếp
Phím tắt nổi tiếng nhất. Chạy ô hiện tại, hiện output, rồi đưa con trỏ xuống ô bên dưới.
Chạy ô, ở nguyên
Hữu ích khi bạn muốn chỉnh lại cùng một ô nhiều lần.
Vào chế độ command
Rời chế độ gõ. Khung ô chuyển sang xanh dương — giờ bàn phím điều khiển ô, không phải gõ vào ô.
Vào chế độ edit
Quay lại chế độ gõ. Khung ô chuyển sang xanh lá — giờ bạn gõ được code hoặc markdown.
Thêm ô phía trên
Nhanh khi bạn quên một bước khởi tạo và muốn chèn ô mới ở trên ô hiện tại.
Thêm ô phía dưới
Cặp đôi của A. Nhớ mẹo: A là above (trên), B là below (dưới).
Xoá ô (ấn D hai lần)
Ấn D liền nhau hai lần. Thiết kế an toàn: đề phòng bạn ấn nhầm một lần.
Đổi sang ô code
Chuyển ô markdown hoặc raw sang ô code. Nhớ: Y là yes-to-code.
Đổi sang ô markdown
Chuyển ô code sang ô markdown để ghi chú. M là markdown.
Khi dùng Colab, bạn hay gặp ba câu lệnh sau. Mỗi lệnh chỉ vài ký tự nhưng thay đổi cách thí nghiệm của bạn chạy.
1. !pip install — cài thư viện mới
Colab đã cài sẵn nhiều thư viện phổ biến (numpy, pandas, torch...), nhưng vẫn thiếu nhiều gói khác. Dấu ! cho phép chạy lệnh shell ngay trong ô notebook.
!pip install -q seaborn==0.13.2
import seaborn as sns
print(sns.__version__)Cờ -q (quiet) giúp giảm log. Ghi cụ thể phiên bản (==0.13.2) để người khác chạy lại được kết quả của bạn.
2. !nvidia-smi — kiểm tra GPU đang được cấp
Sau khi đổi runtime sang GPU, hãy xác nhận GPU đã được gắn thật bằng câu lệnh này. Nếu dòng đầu báo command not found, runtime của bạn đang là CPU.
!nvidia-smi
# Hoặc in gọn hơn qua PyTorch:
import torch
print('CUDA khả dụng:', torch.cuda.is_available())
print('Tên GPU:', torch.cuda.get_device_name(0))Với tài khoản miễn phí, Colab thường cấp Tesla T4 (16 GB VRAM). Với Colab Pro hoặc Pro+, bạn có thể gặp L4 hoặc A100.
3. drive.mount — gắn Google Drive vào notebook
Colab sẽ xoá file khi phiên kết thúc. Mount Drive để lưu dữ liệu lâu dài hoặc truy cập dataset bạn đã tải lên từ trước.
from google.colab import drive
drive.mount('/content/drive')
# Giờ file Drive nằm dưới /content/drive/MyDrive/
import pandas as pd
df = pd.read_csv('/content/drive/MyDrive/data/iris.csv')Khi chạy, Colab sẽ mở cửa sổ yêu cầu bạn đăng nhập Google và cấp quyền. Nhớ xoá ô drive.mount trước khi chia sẻ notebook — bạn không muốn ai cũng nhìn thấy đường dẫn riêng của mình.
- ModuleNotFoundError sau khi !pip install — đôi khi pip cài vào interpreter khác với kernel. Cách sửa: dùng
%pip installthay cho!pip install. - Không restart kernel sau khi nâng cấp — vài gói (như numpy) chỉ load một lần mỗi phiên. Ấn Runtime → Restart session khi cần chắc ăn.
- Quên ghi phiên bản —
!pip install pkglấy bản mới nhất. Một tuần sau pkg cập nhật, code bạn gãy. Luônpkg==X.Y.
Một thói quen tốt: mỗi khi mở notebook, luôn chạy các ô theo thứ tự cố định dưới đây. Chạy sai thứ tự là nguyên nhân số một khiến người mới gặp lỗi khó hiểu.
- Đổi runtime — Menu
Runtime → Change runtime type, chọn T4 GPU nếu cần. Đổi runtime sẽ xoá toàn bộ biến cũ. - Chạy !nvidia-smi để xác nhận GPU đã được cấp.
- Mount Drive nếu dataset ở Drive. Làm sớm để đỡ phải xác thực giữa chừng.
- %pip install các gói còn thiếu, ghi rõ phiên bản.
- import và kiểm tra __version__ — đảm bảo kernel thấy đúng bản.
- Cập nhật đường dẫn dataset thành biến hằng ở một ô đầu, rồi viết logic phân tích bên dưới.
Notebook cho phép viết công thức toán bằng LaTeX ngay trong ô markdown. Điều này cực hữu ích khi bạn cần trình bày một metric. Ví dụ, công thức RMSE (Root Mean Squared Error) dùng trong mọi bài toán hồi quy:
RMSE = sqrt( (1/n) * sum( (y_i - y_hat_i)^2 ) )
Trong ô markdown, bạn gõ công thức bọc giữa hai ký tự $...$ cho inline, hoặc $$...$$ cho block. Jupyter, Colab, nbviewer đều render ra công thức chuẩn.
Mẹo: nếu công thức hiện ra đúng trên Colab nhưng vỡ khi xem trên GitHub, có thể GitHub đang render một phiên bản cũ của bộ parser. Giải pháp phổ biến: xuất notebook qua jupyter nbconvert --to html để gửi ảnh, hoặc tải lên nbviewer.org.
- Idle timeout 90 phút — Colab miễn phí cắt runtime khi bạn rời tab quá lâu. Mở tab trước khi đi uống cà phê dài là đủ mất cả phiên.
- Quên lưu mô hình ra Drive — sau khi huấn luyện, luôn
joblib.dump(clf, '/content/drive/.../model.pkl'). Runtime hết là mô hình mất.⚠️ Chỉjoblib.loadtrên file do chính bạn tạo — file.pkllạ có thể chạy code Python tuỳ ý khi load. - Execution count nhảy lung tung — các số trong ngoặc vuông như [3][8][1][5] là dấu hiệu bạn đã chạy ô lộn xộn. Trước khi chia sẻ, luôn
Runtime → Restart and run allđể kiểm tra notebook chạy sạch từ đầu. - Biến “ma” — bạn xoá định nghĩa một hàm khỏi ô, nhưng hàm vẫn còn trong runtime nên vẫn gọi được. Người nhận mở lại bị lỗi. Cách chữa: restart kernel thường xuyên, và nhớ rằng file .ipynb phải chạy độc lập.
Bài này là điểm khởi đầu. Khi bạn đã thoải mái với notebook:
- Python cho ML — kỹ năng lập trình nền tảng bạn dùng trong mọi ô code.
- Tiền xử lý dữ liệu — bước tự nhiên tiếp theo sau khi load dataset.
- Dự án ML end-to-end — ghép các mảnh rời thành pipeline hoàn chỉnh.
- Notebook là IDE sống: code và kết quả cạnh nhau, vòng lặp viết-chạy-xem chỉ mất vài giây.
- Mỗi ô code có execution count riêng — thứ tự bạn chạy quan trọng hơn thứ tự ô xếp trong file.
- Colab là lựa chọn số một cho người mới học deep learning: không cần cài, có GPU T4 miễn phí.
- Thứ tự chuẩn mỗi phiên Colab: đổi runtime → kiểm tra GPU → mount Drive → cài gói → import và kiểm tra version.
- Dấu ! biến ô thành shell: !pip install, !nvidia-smi, !ls đều chạy được y như terminal.
- Phím tắt cốt lõi: Shift+Enter chạy ô, Esc/Enter đổi chế độ, A/B thêm ô, DD xoá ô, Y/M đổi loại ô.
!pip install, !nvidia-smi, drive.mount — ấn Shift+Enter từng dòng. Đó là cách chắc chắn nhất để kiến thức dính lại.Kiểm tra hiểu biết
Google Colab khác Jupyter Notebook chạy trên máy cá nhân ở điểm quan trọng nhất nào cho người mới học deep learning?