بازیابی فاجعه (Incident Management) چیست؟

بازیابی فاجعه (Incident Management) چیست؟

بازیابی فاجعه چیست؟

بازیابی فاجعه فرآیندی است که به وسیله آن یک سازمان، فجایع مرتبط با فناوری را پیش‌بینی و به آن‌ها رسیدگی می‌کند. این فرآیند شامل آماده‌سازی برای و بازیابی از هر رویدادی است که مانع از انجام اهداف تجاری یک بار کاری یا سیستم در محل استقرار اصلی آن می‌شود، مانند قطعی برق، رویدادهای طبیعی یا مسائل امنیتی. اهداف بازیابی فاجعه با اهداف نقطه بازیابی (RPO) و اهداف زمان بازیابی (RTO) اندازه‌گیری می‌شوند. خرابی‌هایی که توسط بازیابی فاجعه مدیریت می‌شوند، معمولاً نادرتر از خرابی‌های تحت پوشش دسترس‌پذیری بالا هستند و رویدادهای فاجعه در مقیاس بزرگ‌تری را شامل می‌شوند. بازیابی فاجعه شامل رویه‌ها و سیاست‌های یک سازمان برای بازیابی سریع از چنین رویدادهایی است.

چرا بازیابی فاجعه مهم است؟

فاجعه یک مشکل غیرمنتظره است که منجر به کندی، وقفه یا قطع شبکه در یک سیستم فناوری اطلاعات می‌شود. قطعی‌ها به اشکال مختلفی رخ می‌دهند، از جمله نمونه‌های زیر:

  • زلزله یا آتش‌سوزی
  • خرابی‌های فناوری
  • ناسازگاری‌های سیستم
  • اشتباه ساده انسانی
  • دسترسی غیرمجاز عمدی توسط اشخاص ثالث

این فجایع، عملیات تجاری را مختل می‌کنند، مشکلات خدمات مشتری را به وجود می‌آورند و منجر به از دست دادن درآمد می‌شوند. یک طرح بازیابی فاجعه به سازمان‌ها کمک می‌کند تا به سرعت به رویدادهای مختل‌کننده پاسخ دهند و مزایای کلیدی را فراهم می‌کند:

  • تضمین تداوم کسب و کار: هنگامی که یک فاجعه رخ می‌دهد، می‌تواند برای تمام جنبه‌های کسب و کار زیان‌آور و اغلب پرهزینه باشد. همچنین عملیات عادی کسب و کار را مختل می‌کند، زیرا بهره‌وری تیم به دلیل دسترسی محدود به ابزارهایی که برای کار نیاز دارند، کاهش می‌یابد. یک طرح بازیابی فاجعه، راه‌اندازی سریع سیستم‌های پشتیبان و داده‌ها را تسریع می‌کند تا عملیات طبق برنامه ادامه یابد.
  • افزایش امنیت سیستم: ادغام حفاظت از داده‌ها، پشتیبان‌گیری و فرآیندهای بازیابی در یک طرح بازیابی فاجعه، تأثیر باج‌افزار، بدافزار یا سایر خطرات امنیتی برای کسب و کار را محدود می‌کند. به عنوان مثال، پشتیبان‌گیری از داده‌ها در فضای ابری دارای ویژگی‌های امنیتی متعددی است که فعالیت‌های مشکوک را قبل از تأثیرگذاری بر کسب و کار محدود می‌کند.
  • بهبود حفظ مشتری: اگر فاجعه‌ای رخ دهد، مشتریان در مورد قابلیت اطمینان شیوه‌های امنیتی و خدمات یک سازمان تردید می‌کنند. هرچه تأثیر فاجعه بر کسب و کار طولانی‌تر باشد، نارضایتی مشتری بیشتر می‌شود. یک طرح بازیابی فاجعه خوب با آموزش کارکنان برای رسیدگی به سوالات مشتریان، این خطر را کاهش می‌دهد. مشتریان زمانی اعتماد پیدا می‌کنند که مشاهده کنند کسب و کار برای مقابله با هر فاجعه‌ای به خوبی آماده شده است.
  • کاهش هزینه‌های بازیابی: بسته به شدت آن، یک فاجعه باعث از دست دادن درآمد و بهره‌وری می‌شود. یک طرح بازیابی فاجعه قوی از ضررهای غیرضروری جلوگیری می‌کند زیرا سیستم‌ها به زودی پس از حادثه به حالت عادی باز می‌گردند. به عنوان مثال، راه حل‌های ذخیره‌سازی ابری یک روش مقرون به صرفه برای پشتیبان‌گیری از داده‌ها هستند. شما می‌توانید داده‌ها را در حالی که کسب و کار به طور معمول کار می‌کند، مدیریت، نظارت و نگهداری کنید.

بازیابی فاجعه چگونه کار می‌کند؟

بازیابی فاجعه بر راه‌اندازی و اجرای برنامه‌ها در عرض چند دقیقه پس از قطعی متمرکز است. سازمان‌ها به سه مؤلفه زیر می‌پردازند:

  • پیشگیری: برای کاهش احتمال وقوع یک فاجعه مرتبط با فناوری، کسب و کارها به برنامه‌ای نیاز دارند تا اطمینان حاصل کنند که تمام سیستم‌های کلیدی تا حد امکان قابل اعتماد و ایمن هستند. از آنجایی که انسان نمی‌تواند یک فاجعه طبیعی را کنترل کند، پیشگیری فقط در مورد مشکلات شبکه، خطرات امنیتی و خطاهای انسانی اعمال می‌شود. شما باید ابزارها و تکنیک‌های مناسب را برای جلوگیری از فاجعه تنظیم کنید. به عنوان مثال، نرم‌افزار تست سیستم که به طور خودکار تمام فایل‌های پیکربندی جدید را قبل از اعمال آن‌ها بررسی می‌کند، می‌تواند از اشتباهات و خرابی‌های پیکربندی جلوگیری کند.
  • پیش‌بینی: پیش‌بینی شامل پیش‌بینی فجایع احتمالی آینده، دانستن پیامدها و برنامه‌ریزی رویه‌های مناسب بازیابی فاجعه است. پیش‌بینی آنچه ممکن است رخ دهد چالش‌برانگیز است، اما می‌توانید با دانش حاصل از موقعیت‌های قبلی و تجزیه و تحلیل، یک راه حل بازیابی فاجعه ارائه دهید. به عنوان مثال، پشتیبان‌گیری از تمام داده‌های مهم تجاری در فضای ابری به منظور پیش‌بینی خرابی سخت‌افزار دستگاه‌های محلی، یک رویکرد عملی برای مدیریت داده‌ها است.
  • تخفیف: تخفیف نحوه واکنش یک کسب و کار پس از وقوع یک سناریوی فاجعه است. یک استراتژی تخفیف، کاهش تأثیر منفی بر رویه‌های عادی کسب و کار را هدف قرار می‌دهد. تمام ذینفعان کلیدی می‌دانند در صورت وقوع فاجعه چه کاری انجام دهند، از جمله مراحل زیر:
    • به روز رسانی مستندات
    • انجام آزمایش‌های منظم بازیابی فاجعه
    • شناسایی رویه‌های عملیاتی دستی در صورت قطعی
    • هماهنگی استراتژی بازیابی فاجعه با پرسنل مربوطه

عناصر کلیدی یک طرح بازیابی فاجعه چیست؟

یک طرح بازیابی فاجعه مؤثر شامل عناصر کلیدی زیر است:

  • ارتباطات داخلی و خارجی: تیمی که مسئول ایجاد، پیاده‌سازی و مدیریت طرح بازیابی فاجعه است، باید در مورد نقش‌ها و مسئولیت‌های خود با یکدیگر ارتباط برقرار کند. اگر فاجعه‌ای رخ دهد، تیم باید بداند چه کسی مسئول چه کاری است و چگونه با کارمندان، مشتریان و یکدیگر ارتباط برقرار کند.
  • جدول زمانی بازیابی: تیم بازیابی فاجعه باید در مورد اهداف و بازه‌های زمانی برای بازگشت سیستم‌ها به عملیات عادی پس از یک فاجعه تصمیم بگیرد. جدول زمانی برخی از صنایع ممکن است طولانی‌تر از سایرین باشد، در حالی که برخی دیگر باید در عرض چند دقیقه به حالت عادی بازگردند.
  • جدول زمانی باید به دو هدف زیر بپردازد:
    • هدف زمان بازیابی (RTO): هدف زمان بازیابی (RTO) معیاری است که حداکثر زمان سپری شده قبل از تکمیل بازیابی فاجعه را تعیین می‌کند. RTOهای شما ممکن است بسته به زیرساخت و سیستم‌های فناوری اطلاعات آسیب دیده متفاوت باشد.
    • هدف نقطه بازیابی (RPO): هدف نقطه بازیابی (RPO) حداکثر زمان قابل قبول برای از دست دادن داده‌ها پس از یک فاجعه است. به عنوان مثال، اگر RPO شما چند دقیقه یا چند ساعت باشد، باید به طور مداوم از داده‌های خود در سایت‌های آینه‌ای پشتیبان‌گیری کنید، نه فقط یک بار در پایان روز.
  • پشتیبان‌گیری از داده‌ها: طرح بازیابی فاجعه نحوه پشتیبان‌گیری از داده‌های شما را تعیین می‌کند. گزینه‌ها شامل ذخیره‌سازی ابری، پشتیبان‌گیری‌های تحت پشتیبانی فروشنده و پشتیبان‌گیری‌های داخلی خارج از سایت است. برای در نظر گرفتن رویدادهای فاجعه طبیعی، پشتیبان‌گیری نباید در محل باشد. تیم باید تعیین کند چه کسی از داده‌ها پشتیبان‌گیری می‌کند، چه اطلاعاتی پشتیبان‌گیری می‌شود و چگونه سیستم پیاده‌سازی می‌شود.
  • آزمایش و بهینه‌سازی: شما باید طرح بازیابی فاجعه خود را حداقل یک یا دو بار در سال آزمایش کنید. می‌توانید هرگونه شکافی را که در این آزمایش‌ها شناسایی می‌کنید، مستند کرده و برطرف کنید. به طور مشابه، باید تمام استراتژی‌های امنیتی و حفاظت از داده‌ها را به طور مکرر به روز کنید تا از دسترسی غیرمجاز ناخواسته جلوگیری شود.

چگونه می‌توانید یک تیم بازیابی فاجعه ایجاد کنید؟

یک تیم بازیابی فاجعه شامل یک تیم متخصص و همکار، مانند متخصصان فناوری اطلاعات و افراد در نقش‌های رهبری است که برای تیم حیاتی خواهند بود. شما باید فردی را در تیم داشته باشید که از حوزه‌های کلیدی زیر مراقبت کند:

  • مدیریت بحران: فرد مسئول مدیریت بحران، طرح بازیابی فاجعه را بلافاصله اجرا می‌کند. او با سایر اعضای تیم و مشتریان ارتباط برقرار می‌کند و فرآیند بازیابی فاجعه را هماهنگ می‌کند.
  • تداوم کسب و کار: مدیر تداوم کسب و کار اطمینان حاصل می‌کند که طرح بازیابی فاجعه با نتایج حاصل از تجزیه و تحلیل تأثیر کسب و کار همسو است. او برنامه‌ریزی تداوم کسب و کار را در استراتژی بازیابی فاجعه لحاظ می‌کند.
  • بازیابی و ارزیابی تأثیر: مدیران ارزیابی تأثیر، متخصصان زیرساخت فناوری اطلاعات و برنامه‌های کاربردی تجاری هستند. آن‌ها زیرساخت شبکه، سرورها و پایگاه‌های داده را ارزیابی و تعمیر می‌کنند. آن‌ها همچنین سایر وظایف بازیابی فاجعه، مانند نمونه‌های زیر را مدیریت می‌کنند:
    • یکپارچه‌سازی برنامه‌های کاربردی
    • حفظ یکپارچگی داده‌ها
    • تنظیمات و پیکربندی برنامه‌های کاربردی

بهترین روش‌های بازیابی فاجعه کدامند؟

هنگام برنامه‌ریزی برای بازیابی فاجعه، کسب و کارها یک یا چند روش از روش‌های زیر را پیاده‌سازی می‌کنند:

  • پشتیبان‌گیری: پشتیبان‌گیری از داده‌ها یکی از ساده‌ترین روش‌های بازیابی فاجعه است که تمام کسب و کارها آن را پیاده‌سازی می‌کنند. پشتیبان‌گیری از داده‌های مهم شامل ذخیره داده‌ها در خارج از سایت، در فضای ابری یا روی یک درایو قابل جابجایی است. برای به روز نگه داشتن داده‌ها، باید به طور مکرر از آن‌ها پشتیبان‌گیری کنید. به عنوان مثال، با پشتیبان‌گیری در AWS، کسب و کارها یک زیرساخت انعطاف‌پذیر و مقیاس‌پذیر دریافت می‌کنند که از تمام انواع داده‌ها محافظت می‌کند.
  • بازیابی فاجعه مرکز داده: در صورت وقوع انواع خاصی از فجایع طبیعی، تجهیزات مناسب می‌توانند از مرکز داده شما محافظت کرده و به بازیابی سریع فاجعه کمک کنند. به عنوان مثال، ابزارهای اطفاء حریق به تجهیزات و داده‌ها کمک می‌کنند تا از آتش‌سوزی جان سالم به در ببرند، و منابع تغذیه پشتیبان در صورت قطع برق، از تداوم کسب و کار پشتیبانی می‌کنند. به طور مشابه، مراکز داده AWS دارای سیستم‌های نوآورانه‌ای هستند که از آن‌ها در برابر خطرات انسانی و طبیعی محافظت می‌کنند.
  • مجازی‌سازی: کسب و کارها با استفاده از ماشین‌های مجازی (VM) خارج از سایت که تحت تأثیر فجایع فیزیکی قرار نمی‌گیرند، از داده‌ها و عملیات خود پشتیبان‌گیری می‌کنند. با مجازی‌سازی به عنوان بخشی از طرح بازیابی فاجعه، کسب و کارها برخی از فرآیندها را خودکار می‌کنند و سریع‌تر از یک فاجعه طبیعی بازیابی می‌شوند. انتقال مداوم داده‌ها و بارهای کاری به ماشین‌های مجازی مانند Amazon Elastic Compute Cloud (Amazon EC2) برای مجازی‌سازی مؤثر ضروری است.
  • بازیابی فاجعه به عنوان یک سرویس (DRaaS): خدمات بازیابی فاجعه مانند AWS Elastic Disaster Recovery می‌توانند پردازش رایانه‌ای یک شرکت و عملیات تجاری حیاتی آن را در صورت وقوع فاجعه به خدمات ابری خود منتقل کنند. بنابراین، حتی اگر سرورهای محلی از کار افتاده باشند، عملیات عادی می‌توانند از محل ارائه دهنده ادامه یابند. Elastic Disaster Recovery همچنین از خاموش شدن مناطق در فضای ابری محافظت می‌کند.
  • سایت سرد: در صورت وقوع یک فاجعه طبیعی، یک شرکت عملیات خود را به یک مکان فیزیکی دیگر که به ندرت استفاده می‌شود و سایت سرد نامیده می‌شود، منتقل می‌کند. به این ترتیب، کارمندان مکانی برای کار دارند و عملکردهای تجاری می‌توانند به طور معمول ادامه یابند. این نوع بازیابی فاجعه از داده‌های مهم محافظت یا آن‌ها را بازیابی نمی‌کند، بنابراین باید از روش بازیابی فاجعه دیگری در کنار این روش استفاده شود.
توسعهٔ عملیات (DevOps) چیست؟
ردیابی توزیع‌شده (Distributed Tracing) چیست؟

دیدگاهتان را بنویسید

سبد خرید
علاقه‌مندی‌ها
مشاهدات اخیر
دسته بندی ها