مدیریت حادثه (Incident Management) چیست؟

مدیریت حادثه (Incident Management) چیست؟

مدیریت حادثه چیست؟

مدیریت حادثه (IM) فرآیندی است که تیم‌های فناوری اطلاعات برای پاسخ به اختلالات برنامه‌ریزی نشده در خدمات از آن استفاده می‌کنند. اختلالات غیرمنتظره به دلیل حوادثی مانند از دست دادن یا کاهش اتصال شبکه، انجام نشدن یک وظیفه برنامه‌ریزی شده (مانند وظیفه پشتیبان‌گیری) یا پاسخ ندادن یک API رخ می‌دهند. فرآیند مدیریت حادثه تلاش می‌کند تا به سرعت عملکرد عادی سرویس فناوری اطلاعات را بازیابی و تأثیرات تجاری را به حداقل برساند. در این فرآیند، تیم حوادث را شناسایی و بررسی می‌کند، مشکلات را حل می‌کند و مراحلی را که برای بازیابی سرویس انجام می‌دهند، مستند می‌کند.

چرا مدیریت حادثه مهم است؟

مدیریت حادثه تیم‌های فناوری اطلاعات را در مورد مناسب‌ترین پاسخ برای هر حادثه راهنمایی می‌کند. سیستمی ایجاد می‌کند تا تیم‌های فناوری اطلاعات بتوانند تمام جزئیات مربوطه را برای یادگیری بیشتر ثبت کنند. می‌توانید مدیریت حادثه را به عنوان دفترچه راهنما برای بازیابی سریع‌تر عملیات عادی با حداقل اختلال در مشتریان داخلی و خارجی در نظر بگیرید.

بدون سیستم‌های مناسب، بازیابی حادثه ناگزیر منجر به اشتباهات مکرر، استفاده نادرست از منابع و تأثیر منفی بیشتر بر سازمان می‌شود. در ادامه، به برخی از مزایای مدیریت حادثه می‌پردازیم.

کاهش وقوع حادثه

با داشتن دفترچه راهنما برای طی کردن مراحل در صورت وقوع حادثه، تیم‌ها می‌توانند حوادث را در سریع‌ترین زمان ممکن حل کنند. در عین حال، مدیریت حادثه با گذشت زمان وقوع حوادث را نیز کاهش می‌دهد. هنگامی که ریسک‌ها را در مراحل اولیه فرآیند مدیریت حادثه شناسایی می‌کنید، احتمال وقوع حوادث در آینده کاهش می‌یابد. ثبت اطلاعات کامل پزشکی قانونی حادثه به اصلاحات پیشگیرانه کمک می‌کند و از وقوع حوادث مشابه در آینده جلوگیری می‌کند.

بهبود عملکرد

هنگامی که از نظارت مؤثر و حساس در مدیریت حادثه فناوری اطلاعات استفاده می‌کنید، می‌توانید کاهش‌های جزئی در کیفیت را شناسایی و بررسی کنید. همچنین می‌توانید راه‌های جدیدی برای بهبود عملکرد کشف کنید. با گذشت زمان، تیم فناوری اطلاعات شما می‌تواند کیفیت الگوهای شناسایی حادثه سرویس را قضاوت کند، که می‌تواند منجر به اصلاحات پیش‌بینی‌کننده و خدمات مداوم شود.

همکاری مؤثر

اغلب تیم‌های مختلف باید برای بازیابی حادثه با یکدیگر همکاری کنند. می‌توانید با تعیین دستورالعمل‌های ارتباطی برای همه طرف‌ها در چارچوب پاسخ به حادثه، همکاری را به طور قابل توجهی بهبود بخشید. همچنین می‌توانید احساسات ذینفعان را به طور مؤثرتری مدیریت کنید.

چه رویدادهایی نیاز به مدیریت حادثه دارند؟

اصطلاح مدیریت حادثه به طور انحصاری در زمینه فناوری اطلاعات استفاده نمی‌شود. خارج از فناوری اطلاعات، نام IM را در زمینه‌هایی مانند خدمات اضطراری، مدیریت رویدادهای بزرگ و عملیات کارخانه خواهید شنید.

برای هدف این مقاله، ما به IM در چارچوب مدیریت خدمات فناوری اطلاعات (ITSM) اشاره می‌کنیم. در این زمینه، مدیریت حادثه بر فعالیت‌های مدیریتی مربوط به کیفیت خدمات و خود خدمات مشتری تمرکز دارد.

در ادامه، به رویدادهای مختلف فناوری اطلاعات در محدوده IM در ITSM می‌پردازیم.

حادثه

در مدیریت حادثه، حوادث را می‌توان به عنوان رویدادهای غیرمنتظره‌ای تعریف کرد که باعث کاهش کیفیت مورد انتظار یا توافق شده خدمات فناوری اطلاعات می‌شوند. مقیاس حادثه می‌تواند کوچک یا بزرگ باشد و می‌توانید میزان اهمیت آن را مشخص کنید. به عنوان مثال، کاهش کیفیت خدمات می‌تواند حداقل و محدود به یک موقعیت جغرافیایی خاص باشد. یا ممکن است سرویس در مناطق متعدد دچار قطعی کامل شود.

مشکل

مشکل به علت اصلی حادثه اشاره دارد که پس از بررسی بیشتر کشف می‌شود و برای حل کامل حادثه ضروری است. به عنوان مثال، اگر یک وب سرور به کندی کار می‌کند، مشکل ممکن است پیکربندی نادرست روتر در مرکز داده یا قطع شدن کابل شبکه در محیط پیرامونی باشد.

تغییر

در IM، تغییر به زمانی اشاره دارد که خود سرویس برای بهبود کیفیت یا افزودن ویژگی‌های جدید در حال تغییر است، به عنوان مثال. در طول دوره تغییر، انتقال باید با دقت انجام شود تا از اختلال در عملیات عادی تجاری جلوگیری یا به حداقل برسد. این شامل اطلاع رسانی به مشتریان در مورد اختلالات پیش بینی شده یا احتمالی خدمات است.

درخواست خدمات

درخواست خدمات، درخواستی است که توسط مشتری در محدوده شرایط توافقنامه ارائه‌دهنده و مشتری آغاز می‌شود. این درخواست باید بدون اختلال در عملیات عادی انجام شود.

مدیریت حادثه چگونه کار می‌کند؟

مدیریت حادثه از مجموعه‌ای از فرآیندهای مستند استفاده می‌کند که به وضوح مشخص می‌کنند برای به حداقل رساندن تأثیر منفی و مدت زمان اختلال فناوری اطلاعات چه کاری باید انجام شود. علاوه بر مدیریت فنی آنچه اشتباه رخ داده است، شامل مدیریت انتظارات مشتری، کاربر و ذینفعان در طول یک حادثه نیز می‌شود.

برای مشتریان، توافق‌نامه‌های سطح خدمات (SLA) به وضوح تضمین‌های زمان آپ‌تایم مورد انتظار، زمان‌های حل و کانال‌های ارتباطی برای حوادث را تعریف می‌کنند. برای برآورده کردن شرایط و ضوابط SLA، مدیریت جامع حادثه از طرف ارائه‌دهنده خدمات لازم است.

درباره SLAها بیشتر بخوانید »

چارچوب‌های مدیریت حادثه فناوری اطلاعات

چارچوب‌های مختلفی وجود دارد که سازمان‌ها برای مدل‌سازی IM خود از آنها استفاده می‌کنند. دو نمونه عبارتند از مدیریت حادثه از کتابخانه زیرساخت فناوری اطلاعات (ITIL) 4 و چارچوب امنیت سایبری از موسسه ملی استانداردها و فناوری (NIST). این چارچوب‌ها ممکن است همانطور که هستند استفاده شوند یا برای انطباق با محیط‌های تجاری، خدمات و استانداردهای ارتباطات مشتری و ذینفعان منحصر به فرد گسترش یابند.

نرم‌افزار مدیریت حادثه اغلب برای استقرار یک چارچوب در یک سازمان استفاده می‌شود. چارچوب دقیق مورد استفاده به خدمات ارائه شده بستگی دارد.

 مدیریت حادثه (Incident Management) چیست؟

مراحل فرآیند مدیریت حادثه چیست؟

مراحل مربوط به فرآیندهای مدیریت حادثه بستگی به چارچوبی دارد که در سازمان استفاده می‌شود. در ادامه، مراحل اصلی در بسیاری از چارچوب‌های رایج چرخه حیات مدیریت حادثه را بررسی می‌کنیم.

شناسایی ریسک

شناسایی دارایی‌های حیاتی، سیستم‌ها، داده‌ها و سایر منابع، مشخص می‌کند که بزرگترین خطرات برای کسب‌وکار در کجا قرار دارند. در زمینه ارائه خدمات به مشتریان، این شامل شناسایی ارزشمندترین سیستم‌ها و دارایی‌های آنها می‌شود.

محافظت از دارایی‌ها

هنگامی که دارایی‌ها شناسایی شدند، سازمان‌ها کنترل‌های امنیتی و عملکردی را تقویت می‌کنند. برای مثال، یک برنامه کاربردی می‌تواند در چندین منطقه برای دسترسی مداوم در صورت قطعی‌های منطقه‌ای مستقر شود.

شناسایی حوادث

سیستم‌ها باید برای نظارت بر وضعیت دارایی‌های حیاتی در محل قرار گیرند تا هر حادثه‌ای بتواند در زمان واقعی شناسایی شود. سازمان‌ها باید در نظارت بر ناهنجاری‌ها فعال باشند؛ معمولاً ترجیح داده نمی‌شود که ابتدا از طریق گزارش مشتری از قطعی مطلع شوند. تأکید بر رفع فعالانه است.

پاسخ به حوادث

هنگامی که یک حادثه شناسایی شد، باید بلافاصله هرگونه اختلال را متوقف کنید. اگر این امکان‌پذیر نیست، می‌توانید فرآیندی را برای مهار یا محدود کردن تأثیر دنبال کنید. همچنین ممکن است مجبور شوید سیستم‌های ثانویه را فعال کنید تا عملیات حتی در صورت عدم وجود راه حل سریع، از سر گرفته شود. بسته به ماهیت حادثه و ابزارهای مدیریت حادثه فعلی، بسیاری از این موارد ممکن است خودکار شوند.

بازیابی از حوادث

در مرحله بازیابی، تجزیه و تحلیل حادثه آغاز می‌شود. درس‌های آموخته شده را ثبت می‌کنید، برنامه‌های پاسخ بهبود یافته را تدوین می‌کنید و مشکلات و فرآیندها را اصلاح می‌کنید. حوادث بزرگ ممکن است نیاز به تلاش‌های بازیابی قابل توجهی داشته باشند. تصویر زیر یکی از فرآیندهای مدیریت حادثه را نشان می‌دهد که آمازون وب سرویس (AWS) از آن استفاده می‌کند.

مدیریت حادثه (Incident Management) چیست؟

بهترین روش‌های مدیریت رخدادها کدامند؟

بهترین روش‌ها به سازمان‌ها کمک می‌کنند تا در بالاترین سطح بلوغ در یک واحد تجاری یا حوزه استراتژیک معین فعالیت کنند. با پیروی از بهترین روش‌ها در سیستم‌های مدیریت رخداد، می‌توانید بهترین خدمات ممکن را به مشتریان خود ارائه دهید.

ایجاد سیاست‌های ارتقاء (escalation)

شما باید بتوانید رخدادها را بر اساس اولویت و شدت آنها دسته‌بندی کنید تا جدول زمانی، اقدامات اصلاحی و تحقیقات را هدایت کنید. هنگامی که پاسخگویی به رخدادها طبق انتظار پیش نمی‌رود یا اگر یک رخداد بزرگ با اولویت یا شدت بالا رخ می‌دهد، باید سیاست‌های ارتقاء را اجرا کنید. بدون این سیاست‌ها، تیم شما ممکن است زمان را برای تصمیم‌گیری در مورد اینکه با چه کسی تماس بگیرد و چه کاری انجام دهد، تلف کند.

برنامه‌ریزی دقیق ارتباطات

ذینفعان، از تیم فناوری اطلاعات گرفته تا کاربران نهایی شما، باید از وضعیت رخدادها مطلع شوند. همچنین داشتن کانال‌های ارتباطی واضح ارزشمند است تا افراد آسیب‌دیده بدانند برای دریافت به‌روزرسانی یا گزارش رخدادهای جدید به کجا مراجعه کنند. با داشتن برنامه‌های ارتباطی واضح، می‌توانید اعتماد ایجاد کنید و از سرزنش‌های نابجا جلوگیری کنید. رخدادهای حیاتی همیشه با تدبیر مدیریت می‌شوند.

انجام تحلیل علت ریشه‌ای (root cause analysis)

پس از حل یک رخداد، باید تحلیل علت ریشه‌ای را انجام دهید تا بفهمید چرا رخداد در وهله اول رخ داده است. این به شناسایی شکاف‌ها یا آسیب‌پذیری‌ها در سیستم کمک می‌کند، که می‌توانید برای جلوگیری از رخدادهای مشابه در آینده به آنها رسیدگی کنید. درس‌های آموخته شده از هر رخداد در بهبود مستمر زیرساخت و فرآیندهای فناوری اطلاعات مفید است.

اتخاذ روش‌های مهندسی آشوب (chaos engineering)

مهندسی آشوب یک رشته در مهندسی نرم‌افزار است که در آن سیستم‌ها عمداً در معرض شرایط مخرب قرار می‌گیرند—مانند خرابی سرور، تأخیرهای شبکه یا محدودیت‌های منابع. ایجاد آشوب در تست‌های سیستم، انعطاف‌پذیری آنها را آزمایش می‌کند و همچنین فرآیندهای پاسخگویی و مدیریت رخداد یک سازمان را تقویت می‌کند. این تکنیکی مشابه با استقرار هک اخلاقی در مدیریت رخدادهای امنیت سایبری است.

داده‌های ژنومی (Genomic Data) چیست؟
عیب‌یابی (Debugging) چیست؟

دیدگاهتان را بنویسید

سبد خرید
علاقه‌مندی‌ها
مشاهدات اخیر
دسته بندی ها