Mô hình Machine Learning có một thách thức đặc thù: chúng có thể thất bại một cách âm thầm do dữ liệu đầu vào thay đổi (Data Drift), mà không làm hệ thống sập. Cuốn sách Reliable Machine Learning (2022), được đồng viết bởi Niall Richard Murphy (một chuyên gia SRE hàng đầu từ Google), cung cấp các kỹ thuật SRE để quản lý rủi ro này.
Tại sao cuốn sách này là bắt buộc cho các SRE và MLOps Engineer Việt Nam? Sách hướng dẫn cách áp dụng các nguyên tắc SRE (vốn dành cho hạ tầng truyền thống) vào các hệ thống AI:
SLOs và SLIs cho ML: Định nghĩa các mục tiêu và chỉ số độ tin cậy cấp độ dịch vụ (Service Level Objectives/Indicators) không chỉ cho Uptime mà còn cho Độ chính xác của Model (Model Accuracy) và Độ trễ dự đoán (Prediction Latency).
Error Budgets: Sử dụng ngân sách lỗi để cân bằng giữa tốc độ phát triển (Feature Velocity) và sự ổn định của hệ thống.
Quan sát dữ liệu: Xây dựng hệ thống giám sát chuyên biệt để phát hiện sớm các dấu hiệu Data Drift hoặc Model Drift và tự động phản ứng.
Incident Response: Quy trình xử lý sự cố khi Model thất bại hoặc đưa ra dự đoán sai lệch, giảm thiểu tác động đến khách hàng.
Đối với các tổ chức tại Hà Nội và TP.HCM đang vận hành các dịch vụ AI quan trọng, cuốn sách này là giáo trình để chuyển đổi từ MLOps tốt sang MLOps đáng tin cậy.