เมื่อวันที่ 19 กรกฎาคม 2024 CrowdStrike พยายามอัปเดต “Falcon Sensor” เพื่อตรวจจับภัยคุกคามและป้องกันอุปกรณ์ แต่เกิดปัญหาระบบล่ม ทำให้ Microsoft Windows จำนวน 8.5 ล้านเครื่องรับผลกระทบจากเหตุการณ์นี้ ซึ่งสร้างความวุ่นวายในระบบ IT และการทำงานทั้วโลก แม้ว่าเหตุการณ์นี้จะไม่เกี่ยวกับการโจมตีทางไซเบอร์หรือมัลแวร์ แต่ก็แสดงให้เห็นว่าการมีแผนสำรองข้อมูลและการมีระบบกู้คืนที่ดีเป็นสิ่งสำคัญสำหรับการป้องกันการหยุดชะงักในการทำงานของธุรกิจ
CrowdStrike สร้างผลกระทบทั่วโลกทันที
การหยุดทำงานของระบบถูกตรวจพบครั้งแรกในออสเตรเลีย โดยที่ “หน้าจอสีน้ำเงินแห่งความตาย” แพร่กระจายไปยัง Windows ทั่วโลก ทำให้เกิดการหยุดชะงักกับผู้ใช้อย่างมากและยังส่งผลกระทบถึงบริษัทและผู้ให้บริการสำคัญๆด้วย เช่นธุรกิจด้านการเงิน IT การผลิตและอื่นๆ
Wall Street Journal ได้รายงานว่ามีการยกเลิกเที่ยวบินประมาณ 2,600 เที่ยวในสหรัฐอเมริกา และเที่ยวบินมากกว่า 4,200 เที่ยวทั่วโลกต้องเปลี่ยนไปใช้วิธีเช็คอินแบบ manual
ระยะเวลาการกู้คืน (RTO) ส่งผลกระทบต่อการดำเนินธุรกิจนานแค่ไหน
หลังเหตุการณ์นี้ CrowdStrike ให้การซัพพอร์ตด้านเทคนิคและปล่อยแพตช์เพื่อช่วยฟื้นฟูการทำงานของระบบต่างๆ แต่บางระบบไม่สามารถถูกกู้คืนได้โดยอัตโนมัติผ่านโปรแกรมซ่อมแซม ผู้ดูแลระบบ IT จะต้องบูตอุปกรณ์ที่ได้รับผลกระทบทุกเครื่องด้วยตนเองใน safe mode และลบอัปเดตที่มีปัญหาของ CrowdStrike ออก
แม้ว่า Microsoft จะเสนอวิธีแก้ปัญหา “ลดกระบวนการ” ภายในวันถัดมา ซึ่งช่วยลบไฟล์ที่มีปัญหาโดยอัตโนมัติ แต่งานนี้ยังคงเป็นกระบวนการที่ใช้เวลานาน เพราะว่าผู้ดูแลระบบต้องบูตอุปกรณ์แต่ละเครื่องด้วยตนเองให้เข้าสู่ WinPE ผ่าน USB
Downtime ทำให้เกิดการหยุดชะงักในการดำเนินงาน การสูญเสียประสิทธิภาพการทำงาน ค่าใช้จ่ายที่เพิ่มเติม ความเสี่ยงที่เพิ่มขึ้น และก่อให้เกิดประสบการณ์ที่ไม่ดีต่อผู้ใช้และอาจทำให้ชื่อเสียงขององค์กรเสื่อมเสีย
สร้างแผนป้องกันข้อมูลที่แข็งแกร่งเพื่อรักษาความต่อเนื่องทางธุรกิจตลอดเวลา
1. การสำรองข้อมูลอย่างครอบคลุม: การใช้กลยุทธ์การสำรองข้อมูลที่ครอบคลุมแหล่งข้อมูลและอุปกรณ์อย่างสม่ำเสมอ เป็นสิ่งสำคัญสำหรับองค์กรทุกขนาด โดยเฉพาะธุรกิจที่ดำเนินงานข้ามหลายแพลตฟอร์ม
2. การทดสอบการกู้คืนข้อมูลอย่างสม่ำเสมอ: ความล้มเหลวของอุปกรณ์และระบบเป็นสิ่งที่ไม่สามารถคาดการณ์ได้ เพราะฉะนั้น การทดสอบความสามารถในการกู้คืนข้อมูลสำรองเป็นสิ่งสำคัญในการตรวจสอบความมีประสิทธิภาพและความพร้อมใช้งานของแผนการกู้คืนจากภัยพิบัติ
3.การกู้คืน VM ทันที: การจำลองบริการเสมือน (virtualizing services) และการกู้คืนการดำเนินงานโดยเร็วที่สุดจะช่วย ลดเวลาหยุดทำงานและรักษาความต่อเนื่องทางธุรกิจ
4.การกู้คืนข้ามแพลตฟอร์ม: ในกรณีของ CrowdStrike มีแค่แพลตฟอร์มเดียวที่ได้รับผลกระทบ ธุรกิจสามารถลดความเสี่ยงข้อมูลสูญหายได้โดยตรวจสอบให้แน่ใจว่าข้อมูล แอปพลิเคชัน และระบบทั้งหมดสามารถถูกกู้คืนและใช้งานได้ในหลายสภาพแวดล้อม
5.การสำรองข้อมูลและการกู้คืนข้อมูลนอกสถานที่: นอกเหนือจากการสำรองข้อมูลในสถานที่แล้ว การสำรองข้อมูลนอก สถานที่จะช่วยลดความเสี่ยงของการสูญเสียข้อมูลได้ หากบริษัทได้ใช้การสำรองข้อมูลบนคลาวด์นอกสถานที่ในระหว่างเหตุการณ์ของ CrowdStrike บริษัทสามารถกลับมาให้บริการได้ง่ายจากไซต์สำรองนอกสถานที่นั้น
การสำรองข้อมูลเป็นกุญแจสำคัญในการฟื้นฟูข้อมูล
การสำรองข้อมูลที่ปลอดภัยและการมีแผนการกู้คืนระบบเป็นขั้นตอนสำคัญสำหรับธุรกิจที่มุ่งสู่การเปลี่ยนแปลงทางดิจิทัล (digital transformation) เหตุการณ์ CrowdStrike เน้นย้ำถึงความสำคัญของการสร้างกลยุทธ์การสำรองข้อมูลที่มีประสิทธิภาพและการทดสอบการสำรองข้อมูลเป็นประจำเพื่อรักษาความต่อเนื่องเมื่อเผชิญกับสถานการณ์ที่ไม่คาดคิด
ผู้แต่ง : Tony Lin, Product Marketing Manager, Synology