BÁO CÁO SỰ CỐ CLOUDFLARE – NGÀY 18/11/2025
Tổng hợp & phân tích chi tiết
1. Giới thiệu sự cố
Ngày 18/11/2025, Cloudflare – nhà cung cấp CDN, DNS và bảo mật web lớn nhất thế giới – đã xảy ra sự cố nghiêm trọng khiến hàng loạt website và ứng dụng trên toàn cầu bị gián đoạn. Sự cố bắt đầu vào khoảng 11:20 UTC và gây lỗi HTTP 5xx, làm nhiều trang không thể truy cập trong vài giờ.
Sự cố ảnh hưởng đến các dịch vụ lớn như X (Twitter), ChatGPT, Perplexity, Canva, Workers của Cloudflare, Turnstile và hàng triệu website dùng Cloudflare.
Cloudflare khẳng định đây không phải tấn công mạng, mà đến từ lỗi nội bộ trong hệ thống cấu hình.
2. Triệu chứng & phạm vi ảnh hưởng
2.1. Triệu chứng ghi nhận
- Người dùng Internet gặp:
- “Internal Server Error (5xx)”
- “Website is unreachable”
- “Please unblock challenges.cloudflare.com to proceed”
- Nhiều trang sử dụng Turnstile (Captcha của Cloudflare) không thể đăng nhập vì captcha không tải được.
- Dashboard của Cloudflare cũng không truy cập được.
2.2. Phạm vi
- Ảnh hưởng toàn cầu, do Cloudflare phân phối cấu hình ở quy mô toàn mạng.
- Giao thông qua các dịch vụ bị ảnh hưởng:
- CDN / Reverse Proxy
- Bot Management
- Workers KV
- Turnstile
- Email Security
- Các hệ thống nội bộ, bảng điều khiển và API của Cloudflare gặp lỗi cao bất thường.
3. Diễn biến chi tiết theo thời gian
| Thời điểm (UTC) | Diễn biến |
|---|---|
| 11:20 | Các edge proxy bắt đầu xuất hiện lỗi khi nạp file cấu hình bất thường. |
| 11:25 – 12:00 | Lưu lượng lỗi tăng nhanh, nhiều dịch vụ báo gián đoạn. Cloudflare nghi ngờ khả năng tấn công DDoS. |
| 12:30 | Xác định lỗi đến từ feature file phục vụ Bot Management. |
| 14:24 | Cloudflare dừng việc tạo và phân phối file lỗi. |
| 14:30 | File cấu hình “tốt” cuối cùng được phân phối trở lại, hệ thống dần phục hồi. |
| 17:06 | Mạng Cloudflare trở lại trạng thái bình thường. |
4. Nguyên nhân gốc rễ (Root Cause Analysis)
4.1. Lỗi bắt đầu từ cơ sở dữ liệu (ClickHouse)
Một thay đổi về phân quyền (permissions) trong cluster cơ sở dữ liệu ClickHouse dẫn đến việc truy vấn dùng để tạo file tính năng (feature file) trả về các bản ghi trùng lặp.
4.2. Feature File bị phình to bất thường
- File cấu hình Bot Management được tạo 5 phút/lần.
- Do bản ghi trùng nhau → file chứa nhiều entry hơn bình thường → vượt ngưỡng giới hạn mà proxy có thể xử lý.
4.3. Proxy Cloudflare gặp lỗi “panic”
Phần proxy lõi (core proxy) của Cloudflare viết bằng Rust có đoạn code sử dụng unwrap() không xử lý ngoại lệ:
“thread fl2_worker_thread panicked: called Result::unwrap() on an Err value”
Khi feature file vượt giới hạn (200 entries), proxy “panic” và crash.
4.4. Lỗi lan rộng toàn mạng
Cloudflare phân phối file cấu hình đến tất cả edge servers trên toàn cầu.
Khi file lỗi được đẩy ra mạng lưới → hàng nghìn proxy cùng crash → gây outage toàn cầu.
5. Biện pháp xử lý & khôi phục
5.1. Hành động khẩn cấp
- Ngừng kích hoạt pipeline tạo file cấu hình lỗi.
- Gỡ file lỗi ra khỏi hệ thống phân phối cấu hình.
- Phục hồi bản last known good configuration.
- Khởi động lại kết hợp hàng loạt proxy.
5.2. Hệ thống phục hồi
- Khoảng 14:30 UTC: dịch vụ On-path bắt đầu hoạt động lại.
- 17:06 UTC: toàn bộ dịch vụ khôi phục 100%.
6. Hành động phòng ngừa sau sự cố
Cloudflare cam kết sửa chữa:
- Thay đổi logic để không còn giới hạn tĩnh khiến proxy panic nếu vượt ngưỡng.
- Thêm validation cho feature file trước khi phân phối toàn cầu.
- Triển khai cơ chế sandbox để kiểm tra cấu hình trước khi release.
- Cải thiện quy trình quản lý phân quyền trong ClickHouse.
- Thay thế các đoạn code
unwrap()bằng cơ chế xử lý lỗi an toàn hơn.
7. Ảnh hưởng tới Việt Nam & Đông Nam Á
Dù Cloudflare không nêu rõ khu vực chịu ảnh hưởng cụ thể, do hệ thống cấu hình phân phối toàn cầu, các website tại Việt Nam, Singapore, Malaysia, Thái Lan cũng bị ảnh hưởng tương đương:
- Website dùng Cloudflare bị chậm hoặc không truy cập được.
- Các API dựa trên Workers hoặc Turnstile không hoạt động.
- Thời gian downtime phụ thuộc mức độ caching của từng ISP.
8. Kết luận
Sự cố 18/11/2025 của Cloudflare là một ví dụ điển hình cho việc một thay đổi nhỏ trong cấu hình nội bộ có thể gây ra sự cố quy mô toàn cầu.
Dù đây không phải tấn công, mức độ ảnh hưởng cho thấy các nhà cung cấp hạ tầng Internet lớn cần tăng cường kiểm thử cấu hình và hạn chế cập nhật phân phối diện rộng khi chưa được sandbox kỹ lưỡng.
Nguồn tham khảo
- Cloudflare Official Post-Mortem:
https://blog.cloudflare.com/18-november-2025-outage/?utm_source=chatgpt.com - Reuters:
https://www.reuters.com/business/elon-musks-x-down-thousands-us-users-downdetector-shows-2025-11-18/ - Washington Post:
https://www.washingtonpost.com/business/2025/11/18/cloudflare-outage-error-status/ - Business Insider:
https://www.businessinsider.com/cloudflare-outage-internet-down-x-open-ai-2025-11 - Times of India:
https://timesofindia.indiatimes.com/technology/tech-news/chatgpt-perplexity-and-other-platforms-down-what-does-please-unblock-challenges-cloudflare-com-to-proceed-error-message-mean/articleshow/125414397.cms
