Trong kỷ nguyên Cloud Native và Microservices, việc đảm bảo hệ thống "luôn sống" (Uptime) là nhiệm vụ sống còn. Prometheus: Up & Running (2nd Edition) chính là tài liệu chính thống và đầy đủ nhất để bạn làm chủ Prometheus – công cụ giám sát mã nguồn mở tiêu chuẩn hiện nay.
Tại sao cuốn sách này quan trọng với cộng đồng DevOps Việt Nam? Phiên bản thứ 2 (2023) đã được cập nhật toàn diện để phù hợp với các stack công nghệ mới nhất. Tác giả Julien Pivotto và Brian Brazil (những người trực tiếp phát triển Prometheus) sẽ dẫn dắt bạn đi từ kiến trúc cơ bản đến các kỹ thuật nâng cao:
Tư duy Observability: Hiểu sâu về Metrics, Logs và Tracing.
Làm chủ PromQL: Ngôn ngữ truy vấn mạnh mẽ để trích xuất dữ liệu, vẽ biểu đồ và phân tích sự cố.
Instrumentation: Hướng dẫn cách gắn "cảm biến" theo dõi vào ứng dụng viết bằng Go (Golang), Python, Java để thu thập dữ liệu hiệu năng chính xác nhất.
Service Discovery & Kubernetes: Tích hợp Prometheus vào môi trường container động, tự động phát hiện services mới.
Alertmanager: Thiết lập hệ thống cảnh báo thông minh, tránh "spam" tin nhắn rác cho đội ngũ vận hành.
Đối với các Site Reliability Engineer (SRE) tại Hà Nội hay TP.HCM đang vận hành các hệ thống lớn, cuốn sách này cung cấp các Best Practices về thiết kế hạ tầng giám sát quy mô lớn (Scaling), đảm bảo bạn luôn đi trước sự cố một bước.