Việc vận hành Machine Learning (MLOps) ở quy mô lớn đòi hỏi sự chuẩn hóa trên nền tảng Container hàng đầu: Kubernetes. Cuốn sách Kubeflow Operations Guide (2021) là cẩm nang chuyên biệt, cung cấp kiến thức kỹ thuật để thiết lập và duy trì Kubeflow – bộ công cụ MLOps mã nguồn mở – một cách hiệu quả.
Tại sao cuốn sách này là bắt buộc cho MLOps Engineer Việt Nam? Sách tập trung vào các vấn đề vận hành (Operations) thường gặp, vượt qua giới hạn của các hướng dẫn Kubeflow cơ bản:
Triển khai linh hoạt: Hướng dẫn các chiến lược Deployment Kubeflow chi tiết trên cả Cloud (AWS, GCP, Azure) và hạ tầng On-Premise, đảm bảo tính di động (Portability) cho các dự án Python ML.
Quản lý Tài nguyên: Tối ưu hóa việc sử dụng GPU, CPU và bộ nhớ trong Kubernetes Cluster cho các tác vụ Huấn luyện (Training) và Phục vụ Model (Serving).
Bảo mật và Governance: Thiết lập các quy tắc truy cập, xác thực và quản lý quyền hạn trong môi trường Kubeflow.
Troubleshooting: Các kỹ thuật chẩn đoán và khắc phục sự cố Pipeline, đặc biệt là trong môi trường phân tán (Distributed Systems).
Đối với các DevOps và ML Engineer tại Hà Nội và TP.HCM đang quản lý các Cluster Kubernetes và muốn đưa AI vào Production một cách chuyên nghiệp, cuốn sách này chính là kim chỉ nam về mặt vận hành.