Trong khi các công nghệ Data Warehouse liên tục thay đổi (từ On-Premise sang Cloud như Snowflake, BigQuery), các nguyên tắc về thiết kế Mô hình Dữ liệu (Dimensional Modeling) do Ralph Kimball đề xướng vẫn là nền tảng vững chắc nhất. Cuốn sách The Data Warehouse Toolkit, 3rd Edition (2013) là tài liệu toàn diện nhất về việc này.
Tại sao cuốn sách này là bắt buộc cho Data Engineer và BI Developer Việt Nam? Sách không chỉ dạy lý thuyết mà cung cấp hàng loạt Case Study thực tế trong các ngành khác nhau:
Dimensional Modeling: Làm chủ các khái niệm cốt lõi: Fact Tables (Bảng sự kiện), Dimension Tables (Bảng chiều), và cách chúng liên kết với nhau.
Star Schema: Hướng dẫn cách thiết kế Star Schema (Mô hình Ngôi sao) để tối ưu hóa tốc độ truy vấn cho các công cụ BI (như Power BI, Tableau).
Quản lý Dữ liệu Lịch sử: Chi tiết về các loại Slowly Changing Dimensions (SCDs) và cách áp dụng chúng để theo dõi sự thay đổi của dữ liệu theo thời gian.
Quy trình ETL/ELT: Các nguyên tắc về Trích xuất, Biến đổi và Tải dữ liệu để đảm bảo chất lượng và tính nhất quán.
Đối với các Data Engineer, Data Architect tại Hà Nội và TP.HCM đang xây dựng các hệ thống dữ liệu tập trung (Centralized Data Platform), đây là tài liệu tối thượng để đảm bảo chất lượng và hiệu suất cho toàn bộ hệ thống báo cáo.