گزارش حادثه عمومی زون c13 هم‌روش در ۱۰ فروردین ۱۴۰۵

  • 1 دقیقه مطالعه
  • به‌روزرسانی‌شده در
گزارش حادثه عمومی زون c13 هم‌روش در ۱۰ فروردین ۱۴۰۵

در ساعات پایانی دوشنبه ۱۰ فروردین ۱۴۰۵ دیتاسنتر زون c13 هم‌روش دچار حادثه شد و سرویس‌‌های عمومی روی این زون به مدت ۲۴ ساعت و سرویس‌های تعدادی از مشتریان به مدت ۳۱ ساعت از دسترس خارج شد. دلیل این حادثه، آتش‌سوزی کابل‌ها و تجهیزات برق بود که قطع برق دیتاسنتر میزبان را به همراه داشت. این حادثه در سطح زیرساخت فیزیکی رخ داد و خارج از اختیارات هم‌روش بود.

طی مدت حادثه صفحه «وضعیت سرویس‌های هم‌روش» در حال به‌روزرسانی بود تا کاربران در جریان آخرین وضعیت دیتاسنتر و سرویس‌ها قرار بگیرند.

روند زمانی حادثه و اقدامات انجام شده

  • ۲۲:۴۰ – ۱۰ فروردین ۱۴۰۵: هشدار افزایش دمای سرورها دریافت شد و به سرعت تعدادی از سرورها از دسترس خارج شدند. با پیگیری از دیتاسنتر مشخص شد که حادثه ناشی از اختلال برق و از کار افتادن سیستم‌های سرمایش دیتاسنتر بوده است. در ادامه به منظور جلوگیری از آسیب بیشتر به سخت‌افزارها، سایر سرورها نیز خاموش شدند.
  • ۲۲:۴۵ – ۱۰ فروردین ۱۴۰۵: دسترسی هم‌روش به دیتاسنتر قطع شد. با پیگیری از دیتاسنتر مشخص شد که بخشی از کابل‌های تامین برق دچار آتش‌سوزی شده و دیتاسنتر به‌صورت کامل از دسترس خارج شده است. پس از مهار آتش‌سوزی، فرایند تعویض کابل‌ها توسط تیم تاسیسات دیتاسنتر آغاز شد.
  • ۱۲:۰۵ – ۱۱ فروردین ۱۴۰۵: تیم فنی هم‌روش اطمینان پیدا کرد که ساختمان دیتاسنتر آسیبی ندیده و فرایند بازیابی سرویس‌ها را آغاز کرد.
  • ۱۹:۱۵ – ۱۱ فروردین ۱۴۰۵: جریان برق دیتاسنتر، مجدد برقرار و شارژ شدن یو‌پی‌اس‌ها آغاز شد.
  • ۱۹:۵۳ – ۱۱ فروردین ۱۴۰۵: فرایند روشن شدن سرورها شروع شد. البته سرورهایی که به دلیل دمای بالا خاموش شده بودند همچنان خاموش باقی ماندند. برخی از سرویس‌ها مجدد در دسترس قرار گرفتند.
  • ۲۱:۵۷ – ۱۱ فروردین ۱۴۰۵: برق دیتاسنتر بار دیگر به دلیل مشکل در ورودی برق شهری قطع و فرایند بازیابی و راه‌اندازی سرویس‌ها متوقف شد.
  • ۲۲:۲۴ – ۱۱ فروردین ۱۴۰۵: جریان برق برقرار شد و سرورها روشن شدند. تیم فنی هم‌روش اطمینان پیدا کرد که همه سخت‌افزارهای سرورها سالم هستند ولی برخی از استورج‌های SSD در اثر شوک ناشی از قطع برق آسیب دیده‌اند. در ادامه، فرایند راه‌اندازی و بازیابی سرویس‌ها مجدد از سر گرفته شد.
  • ۲۳:۰۰ – ۱۱ فروردین ۱۴۰۵: در ۳۶ دقیقه پس از وصل مجدد برق، تمام سرویس‌های عمومی هم‌روش به‌طور کامل در دسترس کاربران قرار گرفت.
  • ۰۰:۰۵ – ۱۲ فروردین ۱۴۰۵: فرایند بازیابی داده‌های استورج‌های معیوب شروع شد. همچنین استورج‌های SSD خراب که دچار شوک ناشی از حادثه شده بودند تعویض شدند.
  • ۰۶:۰۰ – ۱۲ فروردین ۱۴۰۵: سرویس‌های تمام مشتریان به‌صورت پایدار در دسترس قرار گرفت.

طی این حادثه، حداکثر میزان از دست رفتن داده‌ها مربوط به بازه ۲۴ ساعته و محدود به تعداد کمی از مشتریان بود که سرویس‌های آن‌ها با مشکل آسیب استورج‌های SSD مواجه شد. همچنین سرویس «دیتابیس مدیریت‌شده» با استفاده از مکانیزم PITR و بر پایه آخرین base backup و لاگ‌های تراکنش، تا نقطه‌ای کمتر از ۳۰ ثانیه قبل از زمان وقوع حادثه بازیابی شد.

کتاب‌ها

کتاب‌ها

منابع توسعه زیرساخت به زبان فارسی
موفقیت مشتریان

موفقیت مشتریان

نقش هم‌روش در تحقق ایده‌ها
وبینارها

وبینارها

معرفی جدیدترین محصولات و ارائه‌ها