در ساعات پایانی دوشنبه ۱۰ فروردین ۱۴۰۵ دیتاسنتر زون c13 همروش دچار حادثه شد و سرویسهای عمومی روی این زون به مدت ۲۴ ساعت و سرویسهای تعدادی از مشتریان به مدت ۳۱ ساعت از دسترس خارج شد. دلیل این حادثه، آتشسوزی کابلها و تجهیزات برق بود که قطع برق دیتاسنتر میزبان را به همراه داشت. این حادثه در سطح زیرساخت فیزیکی رخ داد و خارج از اختیارات همروش بود.
طی مدت حادثه صفحه «وضعیت سرویسهای همروش» در حال بهروزرسانی بود تا کاربران در جریان آخرین وضعیت دیتاسنتر و سرویسها قرار بگیرند.
روند زمانی حادثه و اقدامات انجام شده
- ۲۲:۴۰ – ۱۰ فروردین ۱۴۰۵: هشدار افزایش دمای سرورها دریافت شد و به سرعت تعدادی از سرورها از دسترس خارج شدند. با پیگیری از دیتاسنتر مشخص شد که حادثه ناشی از اختلال برق و از کار افتادن سیستمهای سرمایش دیتاسنتر بوده است. در ادامه به منظور جلوگیری از آسیب بیشتر به سختافزارها، سایر سرورها نیز خاموش شدند.
- ۲۲:۴۵ – ۱۰ فروردین ۱۴۰۵: دسترسی همروش به دیتاسنتر قطع شد. با پیگیری از دیتاسنتر مشخص شد که بخشی از کابلهای تامین برق دچار آتشسوزی شده و دیتاسنتر بهصورت کامل از دسترس خارج شده است. پس از مهار آتشسوزی، فرایند تعویض کابلها توسط تیم تاسیسات دیتاسنتر آغاز شد.
- ۱۲:۰۵ – ۱۱ فروردین ۱۴۰۵: تیم فنی همروش اطمینان پیدا کرد که ساختمان دیتاسنتر آسیبی ندیده و فرایند بازیابی سرویسها را آغاز کرد.
- ۱۹:۱۵ – ۱۱ فروردین ۱۴۰۵: جریان برق دیتاسنتر، مجدد برقرار و شارژ شدن یوپیاسها آغاز شد.
- ۱۹:۵۳ – ۱۱ فروردین ۱۴۰۵: فرایند روشن شدن سرورها شروع شد. البته سرورهایی که به دلیل دمای بالا خاموش شده بودند همچنان خاموش باقی ماندند. برخی از سرویسها مجدد در دسترس قرار گرفتند.
- ۲۱:۵۷ – ۱۱ فروردین ۱۴۰۵: برق دیتاسنتر بار دیگر به دلیل مشکل در ورودی برق شهری قطع و فرایند بازیابی و راهاندازی سرویسها متوقف شد.
- ۲۲:۲۴ – ۱۱ فروردین ۱۴۰۵: جریان برق برقرار شد و سرورها روشن شدند. تیم فنی همروش اطمینان پیدا کرد که همه سختافزارهای سرورها سالم هستند ولی برخی از استورجهای SSD در اثر شوک ناشی از قطع برق آسیب دیدهاند. در ادامه، فرایند راهاندازی و بازیابی سرویسها مجدد از سر گرفته شد.
- ۲۳:۰۰ – ۱۱ فروردین ۱۴۰۵: در ۳۶ دقیقه پس از وصل مجدد برق، تمام سرویسهای عمومی همروش بهطور کامل در دسترس کاربران قرار گرفت.
- ۰۰:۰۵ – ۱۲ فروردین ۱۴۰۵: فرایند بازیابی دادههای استورجهای معیوب شروع شد. همچنین استورجهای SSD خراب که دچار شوک ناشی از حادثه شده بودند تعویض شدند.
- ۰۶:۰۰ – ۱۲ فروردین ۱۴۰۵: سرویسهای تمام مشتریان بهصورت پایدار در دسترس قرار گرفت.
طی این حادثه، حداکثر میزان از دست رفتن دادهها مربوط به بازه ۲۴ ساعته و محدود به تعداد کمی از مشتریان بود که سرویسهای آنها با مشکل آسیب استورجهای SSD مواجه شد. همچنین سرویس «دیتابیس مدیریتشده» با استفاده از مکانیزم PITR و بر پایه آخرین base backup و لاگهای تراکنش، تا نقطهای کمتر از ۳۰ ثانیه قبل از زمان وقوع حادثه بازیابی شد.