Giới công nghệ có câu kinh điển: "Garbage In, Garbage Out" (Rác vào thì rác ra). Dù thuật toán của bạn có xịn đến đâu, nếu dữ liệu huấn luyện kém chất lượng, dự án AI vẫn sẽ thất bại. Training Data for Machine Learning (2024) là tài liệu chuyên sâu đầu tiên tập trung hoàn toàn vào quy trình "Human Supervision" – sự giám sát của con người trong vòng đời dữ liệu.
Tại sao cuốn sách này cực kỳ cần thiết cho thị trường Việt Nam? Việt Nam đang là một trong những trung tâm gia công gán nhãn dữ liệu (Data Labeling) lớn của thế giới. Cuốn sách này trang bị tư duy quản trị chất lượng dữ liệu chuẩn quốc tế cho các Data Scientist và Project Manager:
Annotation Pipelines: Thiết kế quy trình gán nhãn dữ liệu hiệu quả, kết hợp giữa con người và công cụ tự động.
Quality Control (QC): Các phương pháp thống kê để đo lường độ chính xác của nhãn (Inter-annotator agreement).
Active Learning: Kỹ thuật chọn lọc dữ liệu thông minh, giúp giảm chi phí gán nhãn mà vẫn tăng độ chính xác của Model.
Weak Supervision: Sử dụng các quy tắc lập trình (bằng Python) để gán nhãn tự động cho lượng dữ liệu khổng lồ.
Anthony Sarkis (với kinh nghiệm từ các dự án AI quy mô lớn) sẽ hướng dẫn bạn chuyển dịch từ tư duy Model-centric sang Data-centric. Đây là mảnh ghép còn thiếu mà hầu hết các khóa học ML hiện nay đều bỏ qua.