بازیابی فاجعه چیست؟
بازیابی فاجعه فرآیندی است که به وسیله آن یک سازمان، فجایع مرتبط با فناوری را پیشبینی و به آنها رسیدگی میکند. این فرآیند شامل آمادهسازی برای و بازیابی از هر رویدادی است که مانع از انجام اهداف تجاری یک بار کاری یا سیستم در محل استقرار اصلی آن میشود، مانند قطعی برق، رویدادهای طبیعی یا مسائل امنیتی. اهداف بازیابی فاجعه با اهداف نقطه بازیابی (RPO) و اهداف زمان بازیابی (RTO) اندازهگیری میشوند. خرابیهایی که توسط بازیابی فاجعه مدیریت میشوند، معمولاً نادرتر از خرابیهای تحت پوشش دسترسپذیری بالا هستند و رویدادهای فاجعه در مقیاس بزرگتری را شامل میشوند. بازیابی فاجعه شامل رویهها و سیاستهای یک سازمان برای بازیابی سریع از چنین رویدادهایی است.
چرا بازیابی فاجعه مهم است؟
فاجعه یک مشکل غیرمنتظره است که منجر به کندی، وقفه یا قطع شبکه در یک سیستم فناوری اطلاعات میشود. قطعیها به اشکال مختلفی رخ میدهند، از جمله نمونههای زیر:
- زلزله یا آتشسوزی
- خرابیهای فناوری
- ناسازگاریهای سیستم
- اشتباه ساده انسانی
- دسترسی غیرمجاز عمدی توسط اشخاص ثالث
این فجایع، عملیات تجاری را مختل میکنند، مشکلات خدمات مشتری را به وجود میآورند و منجر به از دست دادن درآمد میشوند. یک طرح بازیابی فاجعه به سازمانها کمک میکند تا به سرعت به رویدادهای مختلکننده پاسخ دهند و مزایای کلیدی را فراهم میکند:
- تضمین تداوم کسب و کار: هنگامی که یک فاجعه رخ میدهد، میتواند برای تمام جنبههای کسب و کار زیانآور و اغلب پرهزینه باشد. همچنین عملیات عادی کسب و کار را مختل میکند، زیرا بهرهوری تیم به دلیل دسترسی محدود به ابزارهایی که برای کار نیاز دارند، کاهش مییابد. یک طرح بازیابی فاجعه، راهاندازی سریع سیستمهای پشتیبان و دادهها را تسریع میکند تا عملیات طبق برنامه ادامه یابد.
- افزایش امنیت سیستم: ادغام حفاظت از دادهها، پشتیبانگیری و فرآیندهای بازیابی در یک طرح بازیابی فاجعه، تأثیر باجافزار، بدافزار یا سایر خطرات امنیتی برای کسب و کار را محدود میکند. به عنوان مثال، پشتیبانگیری از دادهها در فضای ابری دارای ویژگیهای امنیتی متعددی است که فعالیتهای مشکوک را قبل از تأثیرگذاری بر کسب و کار محدود میکند.
- بهبود حفظ مشتری: اگر فاجعهای رخ دهد، مشتریان در مورد قابلیت اطمینان شیوههای امنیتی و خدمات یک سازمان تردید میکنند. هرچه تأثیر فاجعه بر کسب و کار طولانیتر باشد، نارضایتی مشتری بیشتر میشود. یک طرح بازیابی فاجعه خوب با آموزش کارکنان برای رسیدگی به سوالات مشتریان، این خطر را کاهش میدهد. مشتریان زمانی اعتماد پیدا میکنند که مشاهده کنند کسب و کار برای مقابله با هر فاجعهای به خوبی آماده شده است.
- کاهش هزینههای بازیابی: بسته به شدت آن، یک فاجعه باعث از دست دادن درآمد و بهرهوری میشود. یک طرح بازیابی فاجعه قوی از ضررهای غیرضروری جلوگیری میکند زیرا سیستمها به زودی پس از حادثه به حالت عادی باز میگردند. به عنوان مثال، راه حلهای ذخیرهسازی ابری یک روش مقرون به صرفه برای پشتیبانگیری از دادهها هستند. شما میتوانید دادهها را در حالی که کسب و کار به طور معمول کار میکند، مدیریت، نظارت و نگهداری کنید.
بازیابی فاجعه چگونه کار میکند؟
بازیابی فاجعه بر راهاندازی و اجرای برنامهها در عرض چند دقیقه پس از قطعی متمرکز است. سازمانها به سه مؤلفه زیر میپردازند:
- پیشگیری: برای کاهش احتمال وقوع یک فاجعه مرتبط با فناوری، کسب و کارها به برنامهای نیاز دارند تا اطمینان حاصل کنند که تمام سیستمهای کلیدی تا حد امکان قابل اعتماد و ایمن هستند. از آنجایی که انسان نمیتواند یک فاجعه طبیعی را کنترل کند، پیشگیری فقط در مورد مشکلات شبکه، خطرات امنیتی و خطاهای انسانی اعمال میشود. شما باید ابزارها و تکنیکهای مناسب را برای جلوگیری از فاجعه تنظیم کنید. به عنوان مثال، نرمافزار تست سیستم که به طور خودکار تمام فایلهای پیکربندی جدید را قبل از اعمال آنها بررسی میکند، میتواند از اشتباهات و خرابیهای پیکربندی جلوگیری کند.
- پیشبینی: پیشبینی شامل پیشبینی فجایع احتمالی آینده، دانستن پیامدها و برنامهریزی رویههای مناسب بازیابی فاجعه است. پیشبینی آنچه ممکن است رخ دهد چالشبرانگیز است، اما میتوانید با دانش حاصل از موقعیتهای قبلی و تجزیه و تحلیل، یک راه حل بازیابی فاجعه ارائه دهید. به عنوان مثال، پشتیبانگیری از تمام دادههای مهم تجاری در فضای ابری به منظور پیشبینی خرابی سختافزار دستگاههای محلی، یک رویکرد عملی برای مدیریت دادهها است.
- تخفیف: تخفیف نحوه واکنش یک کسب و کار پس از وقوع یک سناریوی فاجعه است. یک استراتژی تخفیف، کاهش تأثیر منفی بر رویههای عادی کسب و کار را هدف قرار میدهد. تمام ذینفعان کلیدی میدانند در صورت وقوع فاجعه چه کاری انجام دهند، از جمله مراحل زیر:
- به روز رسانی مستندات
- انجام آزمایشهای منظم بازیابی فاجعه
- شناسایی رویههای عملیاتی دستی در صورت قطعی
- هماهنگی استراتژی بازیابی فاجعه با پرسنل مربوطه
عناصر کلیدی یک طرح بازیابی فاجعه چیست؟
یک طرح بازیابی فاجعه مؤثر شامل عناصر کلیدی زیر است:
- ارتباطات داخلی و خارجی: تیمی که مسئول ایجاد، پیادهسازی و مدیریت طرح بازیابی فاجعه است، باید در مورد نقشها و مسئولیتهای خود با یکدیگر ارتباط برقرار کند. اگر فاجعهای رخ دهد، تیم باید بداند چه کسی مسئول چه کاری است و چگونه با کارمندان، مشتریان و یکدیگر ارتباط برقرار کند.
- جدول زمانی بازیابی: تیم بازیابی فاجعه باید در مورد اهداف و بازههای زمانی برای بازگشت سیستمها به عملیات عادی پس از یک فاجعه تصمیم بگیرد. جدول زمانی برخی از صنایع ممکن است طولانیتر از سایرین باشد، در حالی که برخی دیگر باید در عرض چند دقیقه به حالت عادی بازگردند.
- جدول زمانی باید به دو هدف زیر بپردازد:
- هدف زمان بازیابی (RTO): هدف زمان بازیابی (RTO) معیاری است که حداکثر زمان سپری شده قبل از تکمیل بازیابی فاجعه را تعیین میکند. RTOهای شما ممکن است بسته به زیرساخت و سیستمهای فناوری اطلاعات آسیب دیده متفاوت باشد.
- هدف نقطه بازیابی (RPO): هدف نقطه بازیابی (RPO) حداکثر زمان قابل قبول برای از دست دادن دادهها پس از یک فاجعه است. به عنوان مثال، اگر RPO شما چند دقیقه یا چند ساعت باشد، باید به طور مداوم از دادههای خود در سایتهای آینهای پشتیبانگیری کنید، نه فقط یک بار در پایان روز.
- پشتیبانگیری از دادهها: طرح بازیابی فاجعه نحوه پشتیبانگیری از دادههای شما را تعیین میکند. گزینهها شامل ذخیرهسازی ابری، پشتیبانگیریهای تحت پشتیبانی فروشنده و پشتیبانگیریهای داخلی خارج از سایت است. برای در نظر گرفتن رویدادهای فاجعه طبیعی، پشتیبانگیری نباید در محل باشد. تیم باید تعیین کند چه کسی از دادهها پشتیبانگیری میکند، چه اطلاعاتی پشتیبانگیری میشود و چگونه سیستم پیادهسازی میشود.
- آزمایش و بهینهسازی: شما باید طرح بازیابی فاجعه خود را حداقل یک یا دو بار در سال آزمایش کنید. میتوانید هرگونه شکافی را که در این آزمایشها شناسایی میکنید، مستند کرده و برطرف کنید. به طور مشابه، باید تمام استراتژیهای امنیتی و حفاظت از دادهها را به طور مکرر به روز کنید تا از دسترسی غیرمجاز ناخواسته جلوگیری شود.
چگونه میتوانید یک تیم بازیابی فاجعه ایجاد کنید؟
یک تیم بازیابی فاجعه شامل یک تیم متخصص و همکار، مانند متخصصان فناوری اطلاعات و افراد در نقشهای رهبری است که برای تیم حیاتی خواهند بود. شما باید فردی را در تیم داشته باشید که از حوزههای کلیدی زیر مراقبت کند:
- مدیریت بحران: فرد مسئول مدیریت بحران، طرح بازیابی فاجعه را بلافاصله اجرا میکند. او با سایر اعضای تیم و مشتریان ارتباط برقرار میکند و فرآیند بازیابی فاجعه را هماهنگ میکند.
- تداوم کسب و کار: مدیر تداوم کسب و کار اطمینان حاصل میکند که طرح بازیابی فاجعه با نتایج حاصل از تجزیه و تحلیل تأثیر کسب و کار همسو است. او برنامهریزی تداوم کسب و کار را در استراتژی بازیابی فاجعه لحاظ میکند.
- بازیابی و ارزیابی تأثیر: مدیران ارزیابی تأثیر، متخصصان زیرساخت فناوری اطلاعات و برنامههای کاربردی تجاری هستند. آنها زیرساخت شبکه، سرورها و پایگاههای داده را ارزیابی و تعمیر میکنند. آنها همچنین سایر وظایف بازیابی فاجعه، مانند نمونههای زیر را مدیریت میکنند:
- یکپارچهسازی برنامههای کاربردی
- حفظ یکپارچگی دادهها
- تنظیمات و پیکربندی برنامههای کاربردی
بهترین روشهای بازیابی فاجعه کدامند؟
هنگام برنامهریزی برای بازیابی فاجعه، کسب و کارها یک یا چند روش از روشهای زیر را پیادهسازی میکنند:
- پشتیبانگیری: پشتیبانگیری از دادهها یکی از سادهترین روشهای بازیابی فاجعه است که تمام کسب و کارها آن را پیادهسازی میکنند. پشتیبانگیری از دادههای مهم شامل ذخیره دادهها در خارج از سایت، در فضای ابری یا روی یک درایو قابل جابجایی است. برای به روز نگه داشتن دادهها، باید به طور مکرر از آنها پشتیبانگیری کنید. به عنوان مثال، با پشتیبانگیری در AWS، کسب و کارها یک زیرساخت انعطافپذیر و مقیاسپذیر دریافت میکنند که از تمام انواع دادهها محافظت میکند.
- بازیابی فاجعه مرکز داده: در صورت وقوع انواع خاصی از فجایع طبیعی، تجهیزات مناسب میتوانند از مرکز داده شما محافظت کرده و به بازیابی سریع فاجعه کمک کنند. به عنوان مثال، ابزارهای اطفاء حریق به تجهیزات و دادهها کمک میکنند تا از آتشسوزی جان سالم به در ببرند، و منابع تغذیه پشتیبان در صورت قطع برق، از تداوم کسب و کار پشتیبانی میکنند. به طور مشابه، مراکز داده AWS دارای سیستمهای نوآورانهای هستند که از آنها در برابر خطرات انسانی و طبیعی محافظت میکنند.
- مجازیسازی: کسب و کارها با استفاده از ماشینهای مجازی (VM) خارج از سایت که تحت تأثیر فجایع فیزیکی قرار نمیگیرند، از دادهها و عملیات خود پشتیبانگیری میکنند. با مجازیسازی به عنوان بخشی از طرح بازیابی فاجعه، کسب و کارها برخی از فرآیندها را خودکار میکنند و سریعتر از یک فاجعه طبیعی بازیابی میشوند. انتقال مداوم دادهها و بارهای کاری به ماشینهای مجازی مانند Amazon Elastic Compute Cloud (Amazon EC2) برای مجازیسازی مؤثر ضروری است.
- بازیابی فاجعه به عنوان یک سرویس (DRaaS): خدمات بازیابی فاجعه مانند AWS Elastic Disaster Recovery میتوانند پردازش رایانهای یک شرکت و عملیات تجاری حیاتی آن را در صورت وقوع فاجعه به خدمات ابری خود منتقل کنند. بنابراین، حتی اگر سرورهای محلی از کار افتاده باشند، عملیات عادی میتوانند از محل ارائه دهنده ادامه یابند. Elastic Disaster Recovery همچنین از خاموش شدن مناطق در فضای ابری محافظت میکند.
- سایت سرد: در صورت وقوع یک فاجعه طبیعی، یک شرکت عملیات خود را به یک مکان فیزیکی دیگر که به ندرت استفاده میشود و سایت سرد نامیده میشود، منتقل میکند. به این ترتیب، کارمندان مکانی برای کار دارند و عملکردهای تجاری میتوانند به طور معمول ادامه یابند. این نوع بازیابی فاجعه از دادههای مهم محافظت یا آنها را بازیابی نمیکند، بنابراین باید از روش بازیابی فاجعه دیگری در کنار این روش استفاده شود.