بررسی اجمالی
سازمانها زمانی تصمیمات بهتری میگیرند که بتوانند نتایج احتمالی مسیرهای مختلف اقدام را پیشبینی کنند. مدلسازی پیشبینیکننده روشی برای شناسایی روندها و پیشبینی نتایج آینده از طریق مدلسازی دادههاست، در حالی که تحلیل پیشبینی این روش را در عمل به کار میگیرد. تحلیل پیشبینی، یا تحلیل پیشبینیکننده، با هدف حل چالشهای کسبوکار از طریق استخراج اطلاعات مرتبط از مجموعهای از دادههای تاریخی انجام میشود. برای استخراج حجم عظیم دادههایی که معمولاً در مدلسازی پیشبینیکننده استفاده میشوند، اغلب از هوش مصنوعی و یادگیری ماشین استفاده میشود.
انواع رایج مدلسازی پیشبینیکننده
در حالی که بیش از دوازده نوع مدل پیشبینیکننده در علم داده وجود دارد، ما پنج نوع رایجترین آنها را که در تحلیل پیشبینی استفاده میشوند، بررسی خواهیم کرد:
طبقهبندی
مدل طبقهبندی به سادگی دادهها را بر اساس یادگیریهای حاصل از دادههای تاریخی به دستههای مختلفی تقسیم میکند. این مدل به سؤالات بله/خیر ساده پاسخ میدهد، مانند «آیا این تراکنش تقلبی است؟» یا «آیا این مشتری قصد تغییر به رقیب را دارد؟» مدلسازی طبقهبندی اغلب در مراقبتهای بهداشتی برای شناسایی مناسب بودن یا نبودن یک دارو برای درمان بیماری استفاده میشود. درختهای تصمیم نوع پیچیدهتری از مدلسازی طبقهبندی هستند که چندین متغیر را تحلیل میکنند. در یک درخت تصمیم، یک الگوریتم راههای تقسیم دادهها به شاخهها یا زیرمجموعهها را بر اساس متغیرهای مختلف ارزیابی میکند. برای مثال، یک درخت تصمیم ممکن است نیت خرید را بر اساس عوامل مختلفی شناسایی کند.
رگرسیون
تحلیل رگرسیون به دنبال شناسایی روابط بین متغیرها است. این روش الگوها را در مجموعههای داده بسیار بزرگ جستجو میکند و تعیین میکند که چگونه این متغیرها به یکدیگر مرتبط هستند. این روش میتواند مشخص کند کدام متغیرها واقعاً تأثیرگذار هستند. به عنوان مثال، یک تیم فروش ممکن است به مجموعههای داده مختلفی نگاه کند تا بفهمد چه عواملی بر فروش در سهماهه آینده تأثیر خواهند گذاشت.
خوشهبندی
این نوع مدلسازی دادهها را به خوشهها یا گروههای تودرتو بر اساس ویژگیهای مشترک مرتب میکند. مدلهای خوشهبندی گروههایی از سوابق مشابه را در یک مجموعه داده شناسایی کرده و آنها را بر اساس گروه برچسبگذاری میکنند. مدلهای خوشهبندی اغلب در تبلیغات هدفمند استفاده میشوند و مشتریانی را که ویژگیهای مشترکی دارند برای کمپینهای سفارشی گروهبندی میکنند.
تشخیص ناهنجاری
تشخیص ناهنجاری، که به عنوان مدل ناهنجاریها، استخراج ناهنجاری و تشخیص نوآوری نیز شناخته میشود، سوابق دادهای غیرعادی را در یک مجموعه داده شناسایی میکند. این نوع مدلسازی در صنایع خردهفروشی و خدمات مالی رایج است. برای مثال، میتواند تشخیص دهد که یک تراکنش کارت اعتباری به مبلغ ۲۰۰۰ دلار در یک فروشگاه کامپیوتر احتمالاً تقلبی نیست، در حالی که خرید ۲۰۰۰ دلاری در یک پمپ بنزین احتمالاً تقلبی است.
قوانین وابستگی
قوانین وابستگی به نمایش احتمال روابط بین اقلام در مجموعههای داده بزرگ کمک میکنند. این تکنیک نسبت به پیشبینیهای متداول که معمولاً بر اساس پیشبینیهای بهترین حالت هستند، برتری دارد، زیرا به تصمیمگیرندگان امکان میدهد سؤالات «چه میشود اگر» را برای ارزیابی نتایج ممکن بررسی کنند. یک تولیدکننده ممکن است از قوانین وابستگی استفاده کند تا ببیند کسبوکارش در صورت افزایش قیمت تأمینکننده، وقوع یک فاجعه طبیعی، یا اجرایی شدن مقررات جدید چگونه عمل خواهد کرد.
۴ چالش مرتبط با مدلسازی پیشبینیکننده
در حالی که مدلسازی پیشبینیکننده مزایای ارزشمندی برای تقریباً هر سازمانی دارد، استفاده مؤثر از آن چالشهایی را به همراه دارد:
- وابستگی به کامل بودن و دقت دادهها: بینشهای پیشبینی دقیق به کامل بودن و دقت دادههایی که وارد مدل پیشبینیکننده میشوند وابسته است. اگر به دادههایی نگاه نکنید که تمام عوامل بالقوه تأثیرگذار بر یک مسئله را پوشش میدهند، در نهایت با تحلیلی مواجه خواهید شد که نقصهایی دارد. و از آنجا که مدلسازی پیشبینیکننده معمولاً شامل مجموعههای داده بسیار بزرگ است و اغلب به هوش مصنوعی و یادگیری ماشین وابسته است، به راحتی میتوان کمبودهای داده را نادیده گرفت.
- ایجاد مرزهای مصنوعی: مشکل مرتبط دیگر، نادیده گرفتن فرصتها صرفاً به این دلیل است که مدل پیشبینیکننده آنها را شناسایی نکرده است. به راحتی میتوان تنها به تحلیل پیشبینیکننده برای شناسایی فرصتهای کسبوکار وابسته شد، در حالی که بهترین روش شامل تفکر انتقادی و کنجکاوی برای کاوش امکانات است.
- آسیبپذیری در برابر سوگیریها: یکی از مهمترین چالشهای مدلسازی پیشبینیکننده، اطمینان از عدم معرفی سوگیریهاست. برای مثال، عدم نمایندگی میتواند نتایج را منحرف کند و منجر به تصمیمگیریهایی شود که به گروههای جمعیتی مختلف آسیب میرساند. مثال کلاسیک استفاده از مدلهای پیشبینیکننده ناکافی برای امتیازدهی اعتباری است که به طور آماری علیه افراد در گروههای نژادی و قومی خاص تبعیض قائل میشوند. مدلهای پیشبینیکننده نمیتوانند رابطه علت و معلولی را برقرار کنند، بنابراین سازمانها باید هنگام اتکا به هوش مصنوعی و یادگیری ماشین احتیاط کنند.
- نیاز به همکاری: به دلایل ذکر شده در بالا، داشتن مشارکتکنندگان متنوع که در ایجاد مدلهای پیشبینیکننده با هم همکاری میکنند، حیاتی است. علاوه بر متخصصان داده، افرادی با دانش حوزهای ارزشمند و کسانی که به معنای دادهها نزدیکتر هستند باید برای مشارکت توانمند شوند.