Observability Engineering: Achieving Production Excellence (2022) là cuốn sách định hình tư duy hiện đại về observability – vượt xa khái niệm monitoring truyền thống. Ba tác giả đều là những người tiên phong trong cộng đồng SRE & DevOps toàn cầu, mang đến góc nhìn thực chiến từ các hệ thống cloud-native, microservices và distributed systems quy mô lớn.
Khác với các tài liệu chỉ tập trung vào công cụ, cuốn sách này trả lời câu hỏi cốt lõi:
👉 Làm thế nào để hiểu hệ thống đang làm gì trong production, khi nó đã phức tạp và phân tán?
Nội dung đi sâu vào ba trụ cột của observability (logs, metrics, traces) nhưng nhấn mạnh sự kiện (events), ngữ cảnh (context) và khả năng đặt câu hỏi mới khi sự cố xảy ra. Tác giả giúp người đọc chuyển từ “đoán lỗi” sang “điều tra có hệ thống”, từ phản ứng bị động sang chủ động kiểm soát độ tin cậy.
Các chủ đề trọng tâm:
🔍 Observability vs Monitoring: khác biệt bản chất & tư duy hệ thống.
🧠 Production Debugging: điều tra sự cố chưa từng thấy trước đó.
⚙️ Instrumentation đúng cách: thêm telemetry có chủ đích, không dư thừa.
🌐 Distributed Systems: hiểu hành vi hệ thống phức tạp & microservices.
🚀 Engineering for Reliability: hỗ trợ DevOps, SRE, on-call hiệu quả.
👥 Team & Culture: observability như một năng lực tổ chức, không chỉ là tool.
Cuốn sách đặc biệt phù hợp với kỹ sư Việt Nam đang vận hành hệ thống production, nơi monitoring dashboard không còn đủ, log quá nhiều nhưng vẫn không tìm ra nguyên nhân gốc. Đây là tài liệu giúp nâng cấp tư duy vận hành lên tầm engineering.