Chào bạn, tôi là Tiến sĩ Minh Trí. Bạn đang bơi trong hàng triệu dòng dữ liệu và không biết bắt đầu từ đâu? Bạn muốn xây dựng những quy trình tự động hóa việc làm sạch và biến đổi dữ liệu thay vì thao tác thủ công trên Excel? Đã đến lúc bạn làm chủ ngôn ngữ phân tích dữ liệu quyền năng nhất thế giới với cuốn sách "Python Data Analysis - Perform data collection, data processing, wrangling, visualization, and model building using Python" (Ấn bản lần thứ 3 - 2021).
Avinash Navlani cùng các cộng sự dẫn dắt bạn đi qua từng giai đoạn quan trọng của một dự án dữ liệu thực tế. Trong cuốn sách phân tích dữ liệu Python chuyên sâu này, bạn sẽ làm chủ:
Thu thập dữ liệu (Data Collection): Kỹ thuật trích xuất dữ liệu từ các nguồn khác nhau như CSV, JSON, SQL Databases và Web Scraping.
Xử lý & Làm sạch (Data Wrangling): Sử dụng sức mạnh của Pandas và NumPy để xử lý dữ liệu thiếu, loại bỏ nhiễu và định dạng lại dữ liệu thô một cách chuyên nghiệp.
Trực quan hóa dữ liệu (Visualization): Biến những con số khô khan thành những biểu đồ đầy sức thuyết phục với Matplotlib, Seaborn và Plotly.
Phân tích thống kê: Áp dụng các phương pháp thống kê mô tả và suy diễn để tìm ra những quy luật ẩn giấu bên trong dữ liệu.
Xây dựng mô hình (Model Building): Bước đầu tiếp cận Machine Learning với Scikit-learn để thực hiện các bài toán phân loại, dự báo xu hướng và phân cụm khách hàng.
Phân tích chuỗi thời gian (Time-series Analysis): Kỹ thuật đặc thù để phân tích và dự báo các dữ liệu biến thiên theo thời gian như chứng khoán hay doanh số bán hàng.
Về mặt học thuật, tôi đánh giá cao cách tác giả cấu trúc sách theo luồng công việc thực tế (Workflow), giúp người đọc dễ dàng áp dụng vào các dự án tại doanh nghiệp. Đối với cộng đồng dữ liệu Việt Nam, ấn bản lần 3 này là tài liệu tham khảo không thể thiếu để nâng cấp kỹ năng lên tầm Senior. Tại 89ebook, chúng tôi mang đến tri thức này để giúp bạn thấu hiểu ngôn ngữ của dữ liệu.