Trong kỷ nguyên Big Data, việc huấn luyện mô hình Machine Learning trên laptop hay một server đơn lẻ (Single Node) đã trở nên lỗi thời. Scaling Machine Learning with Spark (2023) là tài liệu chuyên sâu hướng dẫn cách chuyển đổi từ tư duy xử lý cục bộ sang xử lý phân tán (Distributed Computing) bằng hệ sinh thái Apache Spark.
Tại sao cuốn sách này là "vũ khí hạng nặng" cho Data Engineer? Adi Polak (chuyên gia từng làm việc tại Microsoft Azure) mang đến cái nhìn toàn cảnh về hạ tầng dữ liệu quy mô lớn. Sách không chỉ dạy về Spark MLlib (thư viện ML có sẵn của Spark) mà còn hướng dẫn cách tích hợp các Framework Deep Learning hiện đại như TensorFlow và PyTorch vào môi trường Spark để huấn luyện mạng nơ-ron trên hàng TB dữ liệu.
Nội dung trọng tâm:
Distributed Training: Hiểu cơ chế phân tán dữ liệu và tính toán song song.
Hybrid Pipelines: Kết hợp sức mạnh xử lý dữ liệu của Spark với khả năng mô hình hóa của Deep Learning.
Operationalizing ML: Xây dựng quy trình MLOps tự động hóa từ Data Ingestion đến Model Serving.
Ngôn ngữ đa dạng: Hỗ trợ code ví dụ bằng cả Python (PySpark), Scala và Java.
Đối với các kỹ sư dữ liệu tại Hà Nội và TP.HCM đang làm việc với các hệ thống Hadoop/Spark, cuốn sách này là cầu nối quan trọng để nâng cấp hạ tầng AI, giúp doanh nghiệp khai thác tối đa giá trị từ hồ dữ liệu (Data Lake).