- Trang chủ
- ›
- Làm Gì Khi Hệ Thống Máy Chủ Bị Lỗi
Làm Gì Khi Hệ Thống Máy Chủ Bị Lỗi
Hệ thống máy chủ vô cùng quan trọng đối với tình hình hoạt động của một tổ chức, doanh nghiệp. Ngày nay với sự phổ cập và đồng bộ hóa CNTT ứng dụng trong hoạt động quản lý, vận hành, phát triển hệ thống kinh doanh, máy chủ được coi là trái tim trong hệ thống đó. Vì vậy mỗi khi hệ thống máy chủ mỗi khi bị lỗi sẽ gây ra nhiều thiệt hại lớn, gây ngưng trệ hoạt động của chủ thể
Bài viết sẽ hướng dẫn cho các quản trị viên hệ thống chưa có nhiều kinh nghiệm những bước cơ bản để khắc phục mỗi khi hệ thống máy chủ bị lỗi
Xử Lý Khi Hệ Thống Máy Chủ Bị Lỗi
Khôi phục hệ thống trước tiên
Đúng là như vậy. Việc để hệ thống ngưng trệ quá lâu sẽ gây hậu quả nghiêm trọng. Do đó người quản trị cần tìm mọi cách cho hệ thống hoạt động trở lại trước tiên, sau đó mới đi tìm nguyên nhân để khắc phục sau.
Điều này nghe có vẻ không hợp lý nhưng nó lại rất thực tế. Bởi vì khi tìm được nguyên nhân làm hệ thống sụp, ta sẽ tìm được cách giải quyết đúng hơn, hợp lý hơn. Trên thực tế, đôi khi việc này sẽ tốn nhiều thời gian hơn, ảnh hưởng tới hình ảnh/doanh thu công ty.
Do vậy, người ta thường khôi phục hoạt động của hệ thống trước, rồi mới tìm nguyên nhân sau, giúp quản trị có thêm thời gian để debug, tìm nguyên nhân.
Một số bước khắc phục hệ thống máy chủ cơ bản
- Việc đầu tiên cần làm là restart server, rất có thể chỉ cần như vậy là giải quyết được sự cố.
- Nhiều khả năng lỗi là do bản deploy mới của code. Rollback lại code về phiên bản trước đó có thể giải quyết được vấn đề
- Trong trường hợp chưa thể khởi động lại ngay được, chúng ta có thể để 1 thông báo “Hệ thống đang bảo trì sự cố” để cho người dùng được biết
Truy tìm nguyên nhân sự cố
Lúc này bạn cần phải tìm hiểu nguyên nhân gây lỗi và fix càng sớm càng tốt. Chúng ta sẽ tìm nguyên nhân và fix theo các bước như sau:
- Nhờ người dùng chụp màn hình bị lỗi để kiểm tra
- Nếu có dùng các tool như Sentry/LogRocket, hãy kiểm tra xem có exception nào lạ hay không
- Kiểm tra log hệ thống để tìm lỗi, kiểm tra các công cụ monitoring xem CPU/RAM có tăng đột biến hay không
- Nếu dùng Cloud thì lên Dashboard xem có warning gì lạ, có lỗi gì lạ hay không (AWS ngỏm, Google Cloud tèo).
- Kiểm tra service của các bên thứ 3 tích hợp với hệ thống có lỗi gì không, nhiều khi do lỗi của bên họ!
Cập nhật tình hình cho stakeholder
Khi hệ thống sụp, người sốt ruột nhất thực ra không phải là bạn mà là … sếp của bạn, hoặc sếp của sếp của bạn. Vì vậy, bạn nên báo cáo, cập nhật tình hình cho sếp, chứ đừng im im mà làm kẻo họ sốt ruột.
Báo cáo tiến độ, dự đoán thời gian, thiệt hại
- Đã khôi phục được DB, người dùng không ảnh hưởng gì, tầm 1 tiếng nữa xong | Không khôi phục được DB gần nhất, sẽ mất toàn bộ dữ liệu tháng này.
- Đã tìm ra nguyên nhân gây lỗi, team dev đang nghĩ cách fix
- Team dev đang test cách fix, sẽ deploy trong vòng 15 phút nữa | Bug khó hơn dự tính, sẽ mất tầm 2-3 tiếng để fix và khôi phục dữ liệu
Việc tự quản trị máy chủ có thể mang đến khá nhiều rủi ro nếu không có chuyên gia CNTT. Vì vậy thuê máy chủ đang là xu hướng chuyển dịch được nhiều cá nhân và tổ chức lựa chọn bởi tính tiết kiệm, an toàn và linh hoạt nó mang lại. Hãy liên hệ với chúng tôi nếu hệ thống của bạn gặp rắc rối nhé!