مدیریت حادثه چیست؟
مدیریت حادثه (IM) فرآیندی است که تیمهای فناوری اطلاعات برای پاسخ به اختلالات برنامهریزی نشده در خدمات از آن استفاده میکنند. اختلالات غیرمنتظره به دلیل حوادثی مانند از دست دادن یا کاهش اتصال شبکه، انجام نشدن یک وظیفه برنامهریزی شده (مانند وظیفه پشتیبانگیری) یا پاسخ ندادن یک API رخ میدهند. فرآیند مدیریت حادثه تلاش میکند تا به سرعت عملکرد عادی سرویس فناوری اطلاعات را بازیابی و تأثیرات تجاری را به حداقل برساند. در این فرآیند، تیم حوادث را شناسایی و بررسی میکند، مشکلات را حل میکند و مراحلی را که برای بازیابی سرویس انجام میدهند، مستند میکند.
چرا مدیریت حادثه مهم است؟
مدیریت حادثه تیمهای فناوری اطلاعات را در مورد مناسبترین پاسخ برای هر حادثه راهنمایی میکند. سیستمی ایجاد میکند تا تیمهای فناوری اطلاعات بتوانند تمام جزئیات مربوطه را برای یادگیری بیشتر ثبت کنند. میتوانید مدیریت حادثه را به عنوان دفترچه راهنما برای بازیابی سریعتر عملیات عادی با حداقل اختلال در مشتریان داخلی و خارجی در نظر بگیرید.
بدون سیستمهای مناسب، بازیابی حادثه ناگزیر منجر به اشتباهات مکرر، استفاده نادرست از منابع و تأثیر منفی بیشتر بر سازمان میشود. در ادامه، به برخی از مزایای مدیریت حادثه میپردازیم.
کاهش وقوع حادثه
با داشتن دفترچه راهنما برای طی کردن مراحل در صورت وقوع حادثه، تیمها میتوانند حوادث را در سریعترین زمان ممکن حل کنند. در عین حال، مدیریت حادثه با گذشت زمان وقوع حوادث را نیز کاهش میدهد. هنگامی که ریسکها را در مراحل اولیه فرآیند مدیریت حادثه شناسایی میکنید، احتمال وقوع حوادث در آینده کاهش مییابد. ثبت اطلاعات کامل پزشکی قانونی حادثه به اصلاحات پیشگیرانه کمک میکند و از وقوع حوادث مشابه در آینده جلوگیری میکند.
بهبود عملکرد
هنگامی که از نظارت مؤثر و حساس در مدیریت حادثه فناوری اطلاعات استفاده میکنید، میتوانید کاهشهای جزئی در کیفیت را شناسایی و بررسی کنید. همچنین میتوانید راههای جدیدی برای بهبود عملکرد کشف کنید. با گذشت زمان، تیم فناوری اطلاعات شما میتواند کیفیت الگوهای شناسایی حادثه سرویس را قضاوت کند، که میتواند منجر به اصلاحات پیشبینیکننده و خدمات مداوم شود.
همکاری مؤثر
اغلب تیمهای مختلف باید برای بازیابی حادثه با یکدیگر همکاری کنند. میتوانید با تعیین دستورالعملهای ارتباطی برای همه طرفها در چارچوب پاسخ به حادثه، همکاری را به طور قابل توجهی بهبود بخشید. همچنین میتوانید احساسات ذینفعان را به طور مؤثرتری مدیریت کنید.
چه رویدادهایی نیاز به مدیریت حادثه دارند؟
اصطلاح مدیریت حادثه به طور انحصاری در زمینه فناوری اطلاعات استفاده نمیشود. خارج از فناوری اطلاعات، نام IM را در زمینههایی مانند خدمات اضطراری، مدیریت رویدادهای بزرگ و عملیات کارخانه خواهید شنید.
برای هدف این مقاله، ما به IM در چارچوب مدیریت خدمات فناوری اطلاعات (ITSM) اشاره میکنیم. در این زمینه، مدیریت حادثه بر فعالیتهای مدیریتی مربوط به کیفیت خدمات و خود خدمات مشتری تمرکز دارد.
در ادامه، به رویدادهای مختلف فناوری اطلاعات در محدوده IM در ITSM میپردازیم.
حادثه
در مدیریت حادثه، حوادث را میتوان به عنوان رویدادهای غیرمنتظرهای تعریف کرد که باعث کاهش کیفیت مورد انتظار یا توافق شده خدمات فناوری اطلاعات میشوند. مقیاس حادثه میتواند کوچک یا بزرگ باشد و میتوانید میزان اهمیت آن را مشخص کنید. به عنوان مثال، کاهش کیفیت خدمات میتواند حداقل و محدود به یک موقعیت جغرافیایی خاص باشد. یا ممکن است سرویس در مناطق متعدد دچار قطعی کامل شود.
مشکل
مشکل به علت اصلی حادثه اشاره دارد که پس از بررسی بیشتر کشف میشود و برای حل کامل حادثه ضروری است. به عنوان مثال، اگر یک وب سرور به کندی کار میکند، مشکل ممکن است پیکربندی نادرست روتر در مرکز داده یا قطع شدن کابل شبکه در محیط پیرامونی باشد.
تغییر
در IM، تغییر به زمانی اشاره دارد که خود سرویس برای بهبود کیفیت یا افزودن ویژگیهای جدید در حال تغییر است، به عنوان مثال. در طول دوره تغییر، انتقال باید با دقت انجام شود تا از اختلال در عملیات عادی تجاری جلوگیری یا به حداقل برسد. این شامل اطلاع رسانی به مشتریان در مورد اختلالات پیش بینی شده یا احتمالی خدمات است.
درخواست خدمات
درخواست خدمات، درخواستی است که توسط مشتری در محدوده شرایط توافقنامه ارائهدهنده و مشتری آغاز میشود. این درخواست باید بدون اختلال در عملیات عادی انجام شود.
مدیریت حادثه چگونه کار میکند؟
مدیریت حادثه از مجموعهای از فرآیندهای مستند استفاده میکند که به وضوح مشخص میکنند برای به حداقل رساندن تأثیر منفی و مدت زمان اختلال فناوری اطلاعات چه کاری باید انجام شود. علاوه بر مدیریت فنی آنچه اشتباه رخ داده است، شامل مدیریت انتظارات مشتری، کاربر و ذینفعان در طول یک حادثه نیز میشود.
برای مشتریان، توافقنامههای سطح خدمات (SLA) به وضوح تضمینهای زمان آپتایم مورد انتظار، زمانهای حل و کانالهای ارتباطی برای حوادث را تعریف میکنند. برای برآورده کردن شرایط و ضوابط SLA، مدیریت جامع حادثه از طرف ارائهدهنده خدمات لازم است.
درباره SLAها بیشتر بخوانید »
چارچوبهای مدیریت حادثه فناوری اطلاعات
چارچوبهای مختلفی وجود دارد که سازمانها برای مدلسازی IM خود از آنها استفاده میکنند. دو نمونه عبارتند از مدیریت حادثه از کتابخانه زیرساخت فناوری اطلاعات (ITIL) 4 و چارچوب امنیت سایبری از موسسه ملی استانداردها و فناوری (NIST). این چارچوبها ممکن است همانطور که هستند استفاده شوند یا برای انطباق با محیطهای تجاری، خدمات و استانداردهای ارتباطات مشتری و ذینفعان منحصر به فرد گسترش یابند.
نرمافزار مدیریت حادثه اغلب برای استقرار یک چارچوب در یک سازمان استفاده میشود. چارچوب دقیق مورد استفاده به خدمات ارائه شده بستگی دارد.
مراحل فرآیند مدیریت حادثه چیست؟
مراحل مربوط به فرآیندهای مدیریت حادثه بستگی به چارچوبی دارد که در سازمان استفاده میشود. در ادامه، مراحل اصلی در بسیاری از چارچوبهای رایج چرخه حیات مدیریت حادثه را بررسی میکنیم.
شناسایی ریسک
شناسایی داراییهای حیاتی، سیستمها، دادهها و سایر منابع، مشخص میکند که بزرگترین خطرات برای کسبوکار در کجا قرار دارند. در زمینه ارائه خدمات به مشتریان، این شامل شناسایی ارزشمندترین سیستمها و داراییهای آنها میشود.
محافظت از داراییها
هنگامی که داراییها شناسایی شدند، سازمانها کنترلهای امنیتی و عملکردی را تقویت میکنند. برای مثال، یک برنامه کاربردی میتواند در چندین منطقه برای دسترسی مداوم در صورت قطعیهای منطقهای مستقر شود.
شناسایی حوادث
سیستمها باید برای نظارت بر وضعیت داراییهای حیاتی در محل قرار گیرند تا هر حادثهای بتواند در زمان واقعی شناسایی شود. سازمانها باید در نظارت بر ناهنجاریها فعال باشند؛ معمولاً ترجیح داده نمیشود که ابتدا از طریق گزارش مشتری از قطعی مطلع شوند. تأکید بر رفع فعالانه است.
پاسخ به حوادث
هنگامی که یک حادثه شناسایی شد، باید بلافاصله هرگونه اختلال را متوقف کنید. اگر این امکانپذیر نیست، میتوانید فرآیندی را برای مهار یا محدود کردن تأثیر دنبال کنید. همچنین ممکن است مجبور شوید سیستمهای ثانویه را فعال کنید تا عملیات حتی در صورت عدم وجود راه حل سریع، از سر گرفته شود. بسته به ماهیت حادثه و ابزارهای مدیریت حادثه فعلی، بسیاری از این موارد ممکن است خودکار شوند.
بازیابی از حوادث
در مرحله بازیابی، تجزیه و تحلیل حادثه آغاز میشود. درسهای آموخته شده را ثبت میکنید، برنامههای پاسخ بهبود یافته را تدوین میکنید و مشکلات و فرآیندها را اصلاح میکنید. حوادث بزرگ ممکن است نیاز به تلاشهای بازیابی قابل توجهی داشته باشند. تصویر زیر یکی از فرآیندهای مدیریت حادثه را نشان میدهد که آمازون وب سرویس (AWS) از آن استفاده میکند.
بهترین روشهای مدیریت رخدادها کدامند؟
بهترین روشها به سازمانها کمک میکنند تا در بالاترین سطح بلوغ در یک واحد تجاری یا حوزه استراتژیک معین فعالیت کنند. با پیروی از بهترین روشها در سیستمهای مدیریت رخداد، میتوانید بهترین خدمات ممکن را به مشتریان خود ارائه دهید.
ایجاد سیاستهای ارتقاء (escalation)
شما باید بتوانید رخدادها را بر اساس اولویت و شدت آنها دستهبندی کنید تا جدول زمانی، اقدامات اصلاحی و تحقیقات را هدایت کنید. هنگامی که پاسخگویی به رخدادها طبق انتظار پیش نمیرود یا اگر یک رخداد بزرگ با اولویت یا شدت بالا رخ میدهد، باید سیاستهای ارتقاء را اجرا کنید. بدون این سیاستها، تیم شما ممکن است زمان را برای تصمیمگیری در مورد اینکه با چه کسی تماس بگیرد و چه کاری انجام دهد، تلف کند.
برنامهریزی دقیق ارتباطات
ذینفعان، از تیم فناوری اطلاعات گرفته تا کاربران نهایی شما، باید از وضعیت رخدادها مطلع شوند. همچنین داشتن کانالهای ارتباطی واضح ارزشمند است تا افراد آسیبدیده بدانند برای دریافت بهروزرسانی یا گزارش رخدادهای جدید به کجا مراجعه کنند. با داشتن برنامههای ارتباطی واضح، میتوانید اعتماد ایجاد کنید و از سرزنشهای نابجا جلوگیری کنید. رخدادهای حیاتی همیشه با تدبیر مدیریت میشوند.
انجام تحلیل علت ریشهای (root cause analysis)
پس از حل یک رخداد، باید تحلیل علت ریشهای را انجام دهید تا بفهمید چرا رخداد در وهله اول رخ داده است. این به شناسایی شکافها یا آسیبپذیریها در سیستم کمک میکند، که میتوانید برای جلوگیری از رخدادهای مشابه در آینده به آنها رسیدگی کنید. درسهای آموخته شده از هر رخداد در بهبود مستمر زیرساخت و فرآیندهای فناوری اطلاعات مفید است.
اتخاذ روشهای مهندسی آشوب (chaos engineering)
مهندسی آشوب یک رشته در مهندسی نرمافزار است که در آن سیستمها عمداً در معرض شرایط مخرب قرار میگیرند—مانند خرابی سرور، تأخیرهای شبکه یا محدودیتهای منابع. ایجاد آشوب در تستهای سیستم، انعطافپذیری آنها را آزمایش میکند و همچنین فرآیندهای پاسخگویی و مدیریت رخداد یک سازمان را تقویت میکند. این تکنیکی مشابه با استقرار هک اخلاقی در مدیریت رخدادهای امنیت سایبری است.