Nghiên cứu khoa học hiện đại tạo ra lượng dữ liệu khổng lồ (Genomic, Proteomic), và việc quản lý, phân tích dữ liệu này đòi hỏi kỹ năng lập trình và kỹ thuật dữ liệu chuyên sâu. Cuốn sách Bioinformatics Data Skills (2015) tập trung vào các công cụ Open Source để đảm bảo quy trình phân tích không chỉ hiệu quả mà còn có thể được lặp lại và kiểm chứng.
Tại sao cuốn sách này là bắt buộc cho giới nghiên cứu BioInformatics Việt Nam? Sách nhấn mạnh vào các kỹ năng nền tảng mà mọi nhà Bioinformatician cần phải làm chủ, độc lập với các thư viện sinh học cụ thể:
Command Line Mastery: Sử dụng thành thạo giao diện dòng lệnh (Bash) để xử lý các file dữ liệu lớn (Big Data) một cách nhanh chóng.
Tự động hóa bằng Scripting: Hướng dẫn viết các script Python và R để tự động hóa các tác vụ lặp đi lặp lại trong phân tích dữ liệu sinh học.
Quản lý Phiên bản: Sử dụng Git và các công cụ khác để đảm bảo mọi bước phân tích đều được ghi chép lại và có thể tái tạo.
Data Wrangling: Các kỹ thuật làm sạch, chuyển đổi và tích hợp các loại dữ liệu sinh học khác nhau (chuỗi DNA, ma trận biểu hiện gen).
Đối với các nhà nghiên cứu, Data Scientist làm việc trong lĩnh vực Y sinh, Gen học tại Hà Nội và TP.HCM, cuốn sách này là nguồn tài nguyên vô giá để nâng cao tiêu chuẩn kỹ thuật cho công việc của mình.