داده کاوی چیست؟
داده کاوی یک تکنیک کامپیوتری است که در تجزیه و تحلیل برای پردازش و کاوش مجموعه دادههای بزرگ استفاده میشود. با استفاده از ابزارها و روشهای داده کاوی، سازمانها میتوانند الگوها و روابط پنهان در دادههای خود را کشف کنند. داده کاوی، دادههای خام را به دانش عملی تبدیل میکند. شرکتها از این دانش برای حل مشکلات، تجزیه و تحلیل تأثیر آینده تصمیمات تجاری و افزایش حاشیه سود خود استفاده میکنند.
معنای اصطلاح داده کاوی چیست؟
“داده کاوی” یک نام اشتباه است زیرا هدف داده کاوی، استخراج یا کاوش خود داده نیست. در عوض، مقدار زیادی داده از قبل وجود دارد و داده کاوی به استخراج معنا یا دانش ارزشمند از آن میپردازد. فرآیند معمول جمعآوری، ذخیرهسازی، تجزیه و تحلیل و کاوش داده در زیر شرح داده شده است:
- جمعآوری داده: گرفتن داده از منابع مختلف مانند بازخورد مشتری، پرداختها و سفارشات خرید.
- انبار داده: فرآیند ذخیره سازی دادهها در یک پایگاه داده بزرگ یا انبار داده.
- تجزیه و تحلیل داده: پردازش بیشتر، ذخیره سازی و تجزیه و تحلیل دادهها با استفاده از نرم افزارها و الگوریتمهای پیچیده.
- داده کاوی: شاخهای از تجزیه و تحلیل داده یا یک استراتژی تحلیلی است که برای یافتن الگوهای پنهان یا ناشناخته قبلی در دادهها استفاده میشود.
چرا داده کاوی مهم است؟
داده کاوی بخش مهمی از هر ابتکار تحلیلی موفق است. کسب و کارها میتوانند از فرآیند کشف دانش برای افزایش اعتماد مشتری، یافتن منابع جدید درآمد و حفظ مشتریان خود استفاده کنند. داده کاوی موثر در جنبههای مختلف برنامهریزی کسب و کار و مدیریت عملیات کمک میکند. در زیر چند نمونه از نحوه استفاده صنایع مختلف از داده کاوی آورده شده است:
- مخابرات، رسانه و فناوری: صنایع با رقابت بالا مانند مخابرات، رسانه و فناوری از داده کاوی برای بهبود خدمات مشتری با یافتن الگوهایی در رفتار مشتری استفاده میکنند. به عنوان مثال، یک شرکت میتواند الگوهای استفاده از پهنای باند را تجزیه و تحلیل کند و ارتقاء یا توصیههای خدمات سفارشی ارائه دهد.
- بانکداری و بیمه: خدمات مالی میتوانند از برنامههای داده کاوی برای حل مشکلات پیچیده کلاهبرداری، انطباق، مدیریت ریسک و ریزش مشتری استفاده کنند. به عنوان مثال، شرکتهای بیمه میتوانند با مقایسه عملکرد محصول گذشته با قیمت گذاری رقبا، قیمت گذاری بهینه محصول را کشف کنند.
- آموزش: ارائه دهندگان آموزش میتوانند از الگوریتمهای داده کاوی برای آزمایش دانش آموزان، سفارشی سازی دروس و بازی سازی یادگیری استفاده کنند. نماهای یکپارچه و داده محور از پیشرفت دانش آموزان میتواند به مربیان کمک کند تا ببینند دانش آموزان به چه چیزی نیاز دارند و از آنها بهتر حمایت کنند.
- تولید: خدمات تولیدی میتوانند از تکنیکهای داده کاوی برای ارائه تجزیه و تحلیل بلادرنگ و پیش بینی برای اثربخشی کلی تجهیزات، سطوح خدمات، کیفیت محصول و کارایی زنجیره تامین استفاده کنند. به عنوان مثال، تولیدکنندگان میتوانند از دادههای تاریخی برای پیش بینی سایش ماشین آلات تولید و پیش بینی تعمیر و نگهداری استفاده کنند. در نتیجه، آنها میتوانند برنامههای تولید را بهینه کرده و زمان خرابی را کاهش دهند.
- خرده فروشی: شرکتهای خرده فروشی دارای پایگاه دادههای بزرگ مشتری با دادههای خام در مورد رفتار خرید مشتری هستند. داده کاوی میتواند این دادهها را پردازش کند تا بینشهای مرتبط را برای کمپینهای بازاریابی و پیش بینی فروش به دست آورد. از طریق مدلهای داده دقیقتر، شرکتهای خرده فروشی میتوانند فروش و لجستیک را برای افزایش رضایت مشتری بهینه کنند. به عنوان مثال، داده کاوی میتواند محصولات فصلی محبوب را که میتوانند از قبل ذخیره شوند تا از کمبودهای لحظه آخری جلوگیری شود، آشکار کند.
داده کاوی چگونه کار میکند؟
فرآیند استاندارد بین صنعتی برای داده کاوی (CRISP-DM) یک راهنمای عالی برای شروع فرآیند داده کاوی است. CRISP-DM هم یک روش شناسی و هم یک مدل فرآیند است که خنثی از صنعت، ابزار و برنامه است.
- به عنوان یک روش شناسی، مراحل معمول در یک پروژه داده کاوی را شرح میدهد، وظایف مربوط به هر مرحله را مشخص میکند و روابط بین این وظایف را توضیح میدهد.
- به عنوان یک مدل فرآیند، CRISP-DM نمای کلی از چرخه حیات داده کاوی را ارائه میدهد.
شش مرحله فرآیند داده کاوی چیست؟
با استفاده از مراحل انعطاف پذیر CRISP-DM، تیمهای داده میتوانند در صورت نیاز بین مراحل به عقب و جلو حرکت کنند. همچنین، فناوریهای نرم افزاری میتوانند برخی از این وظایف را انجام دهند یا از آنها پشتیبانی کنند.
-
درک کسب و کار: دانشمند داده یا داده کاوی با شناسایی اهداف و دامنه پروژه شروع میکند. آنها با ذینفعان کسب و کار برای شناسایی اطلاعات خاص همکاری میکنند.
- مشکلاتی که باید برطرف شوند
- محدودیتها یا محدودیتهای پروژه
- تأثیر تجاری راه حلهای بالقوه سپس از این اطلاعات برای تعریف اهداف داده کاوی و شناسایی منابع مورد نیاز برای کشف دانش استفاده میکنند.
-
درک داده: هنگامی که آنها مشکل کسب و کار را درک کردند، دانشمندان داده شروع به تجزیه و تحلیل اولیه دادهها میکنند. آنها مجموعه دادهها را از منابع مختلف جمع آوری میکنند، حقوق دسترسی را به دست میآورند و یک گزارش توصیف داده تهیه میکنند. این گزارش شامل انواع داده، کمیت و الزامات سخت افزاری و نرم افزاری برای پردازش داده است. هنگامی که کسب و کار طرح آنها را تأیید کرد، آنها شروع به کاوش و تأیید دادهها میکنند. آنها دادهها را با استفاده از تکنیکهای آماری اولیه دستکاری میکنند، کیفیت دادهها را ارزیابی میکنند و یک مجموعه داده نهایی را برای مرحله بعدی انتخاب میکنند.
-
آماده سازی داده: داده کاویها بیشترین زمان را صرف این مرحله میکنند زیرا نرم افزار داده کاوی به دادههای با کیفیت بالا نیاز دارد. فرآیندهای کسب و کار دادهها را به دلایلی غیر از کاوش جمع آوری و ذخیره میکنند و داده کاویها باید قبل از استفاده از آن برای مدل سازی، آن را اصلاح کنند. آماده سازی داده شامل فرآیندهای زیر است:
- پاکسازی داده: به عنوان مثال، رسیدگی به دادههای از دست رفته، خطاهای داده، مقادیر پیش فرض و اصلاحات داده.
- ادغام داده: به عنوان مثال، ترکیب دو مجموعه داده متفاوت برای به دست آوردن مجموعه داده هدف نهایی.
- قالب بندی داده: به عنوان مثال، تبدیل انواع داده یا پیکربندی داده برای فناوری خاص کاوش مورد استفاده.
-
مدل سازی داده: داده کاویها دادههای آماده شده را وارد نرم افزار داده کاوی میکنند و نتایج را مطالعه میکنند. برای انجام این کار، آنها میتوانند از بین تکنیکها و ابزارهای مختلف داده کاوی انتخاب کنند. آنها همچنین باید تستهایی را برای ارزیابی کیفیت نتایج داده کاوی بنویسند. برای مدل سازی دادهها، دانشمندان داده میتوانند:
- مدلهای یادگیری ماشین (ML) را روی مجموعه دادههای کوچکتر با نتایج شناخته شده آموزش دهند
- از مدل برای تجزیه و تحلیل بیشتر مجموعه دادههای ناشناخته استفاده کنید
- نرم افزار داده کاوی را تنظیم و پیکربندی مجدد کنید تا نتایج رضایت بخش باشد
-
ارزیابی: پس از ایجاد مدلها، داده کاویها شروع به اندازهگیری آنها در برابر اهداف اصلی کسب و کار میکنند. آنها نتایج را با تحلیلگران کسب و کار به اشتراک میگذارند و بازخورد جمع آوری میکنند. مدل ممکن است به خوبی به سوال اصلی پاسخ دهد یا الگوهای جدید و قبلا ناشناخته را نشان دهد. داده کاویها میتوانند بسته به بازخورد کسب و کار، مدل را تغییر دهند، هدف کسب و کار را تنظیم کنند یا دادهها را دوباره بررسی کنند. ارزیابی مستمر، بازخورد و اصلاح بخشی از فرآیند کشف دانش است.
-
استقرار: در طول استقرار، سایر ذینفعان از مدل کاری برای تولید هوش تجاری استفاده میکنند. دانشمند داده فرآیند استقرار را برنامه ریزی میکند که شامل آموزش دیگران در مورد عملکردهای مدل، نظارت مستمر و نگهداری برنامه داده کاوی است. تحلیلگران کسب و کار از این برنامه برای ایجاد گزارش برای مدیریت، به اشتراک گذاری نتایج با مشتریان و بهبود فرآیندهای کسب و کار استفاده میکنند.
تکنیکهای داده کاوی چیست؟
تکنیکهای داده کاوی از زمینههای مختلف یادگیری که با هم همپوشانی دارند، از جمله تجزیه و تحلیل آماری، یادگیری ماشین (ML) و ریاضیات، استفاده میکنند. برخی از نمونهها در زیر آورده شده است:
-
کاوش قانون وابستگی: کاوش قانون وابستگی فرآیند یافتن روابط بین دو مجموعه داده متفاوت و به ظاهر نامرتبط است. عبارات اگر-آنگاه احتمال رابطه بین دو نقطه داده را نشان میدهند. دانشمندان داده دقت نتایج را با استفاده از معیارهای پشتیبانی و اطمینان اندازه گیری میکنند. پشتیبانی میزان فراوانی عناصر مرتبط را در مجموعه داده اندازه گیری میکند، در حالی که اطمینان تعداد دفعاتی را که یک عبارت اگر-آنگاه دقیق است نشان میدهد. به عنوان مثال، هنگامی که مشتریان یک کالا را میخرند، اغلب کالای مرتبط دومی را نیز میخرند. خرده فروشان میتوانند از کاوش وابستگی در دادههای خرید گذشته برای شناسایی علاقه یک مشتری جدید استفاده کنند. آنها از نتایج داده کاوی برای پر کردن بخشهای پیشنهادی فروشگاههای آنلاین استفاده میکنند.
-
طبقه بندی: طبقه بندی یک تکنیک پیچیده داده کاوی است که الگوریتم ML را برای مرتب سازی دادهها در دستههای مجزا آموزش میدهد. از روشهای آماری مانند درختهای تصمیم و نزدیکترین همسایه برای شناسایی دسته استفاده میکند. در تمام این روشها، الگوریتم با طبقه بندیهای داده شناخته شده از قبل برنامه ریزی شده است تا نوع یک عنصر داده جدید را حدس بزند. به عنوان مثال، تحلیلگران میتوانند با استفاده از تصاویر برچسب گذاری شده سیب و انبه، نرم افزار داده کاوی را آموزش دهند. سپس نرم افزار با دقت خاصی میتواند پیش بینی کند که آیا یک تصویر جدید سیب، انبه یا میوه دیگری است.
-
خوشه بندی: خوشه بندی گروه بندی چندین نقطه داده بر اساس شباهتهای آنها است. با طبقه بندی متفاوت است زیرا نمیتواند دادهها را بر اساس دسته بندی خاص متمایز کند اما میتواند الگوهایی را در شباهتهای آنها بیابد. نتیجه داده کاوی مجموعهای از خوشهها است که در آن هر مجموعه از گروههای دیگر متمایز است، اما اشیاء در هر خوشه به نوعی مشابه هستند. به عنوان مثال، تجزیه و تحلیل خوشه ای میتواند در تحقیقات بازار هنگام کار با دادههای چند متغیره از نظرسنجیها کمک کند. محققان بازار از تجزیه و تحلیل خوشه ای برای تقسیم مصرف کنندگان به بخشهای بازار و درک بهتر روابط بین گروههای مختلف استفاده میکنند.
-
تجزیه و تحلیل توالی و مسیر: نرم افزار داده کاوی همچنین میتواند به دنبال الگوهایی باشد که در آن مجموعه خاصی از رویدادها یا مقادیر منجر به موارد بعدی میشود. میتواند برخی از تغییرات در دادهها را که در فواصل منظم یا در جریان و جریان نقاط داده در طول زمان اتفاق میافتد، تشخیص دهد. به عنوان مثال، یک کسب و کار ممکن است از تجزیه و تحلیل مسیر برای کشف اینکه فروش برخی از محصولات خاص درست قبل از تعطیلات افزایش مییابد یا متوجه شود که هوای گرمتر افراد بیشتری را به وب سایت خود میآورد، استفاده کند.
انواع داده کاوی چیست؟
بسته به دادهها و هدف کاوش، داده کاوی میتواند شاخهها یا تخصصهای مختلفی داشته باشد. بیایید به برخی از آنها در زیر نگاه کنیم:
-
کاوش فرآیند: کاوش فرآیند شاخهای از داده کاوی است که هدف آن کشف، نظارت و بهبود فرآیندهای کسب و کار است. دانش را از گزارشهای رویداد که در سیستمهای اطلاعاتی موجود است استخراج میکند. به سازمانها کمک میکند تا ببینند و درک کنند که در این فرآیندها روز به روز چه اتفاقی میافتد. به عنوان مثال، کسب و کارهای تجارت الکترونیک فرآیندهای زیادی مانند تدارکات، فروش، پرداخت، جمع آوری و حمل و نقل دارند. با کاوش در گزارشهای دادههای تدارکات خود، ممکن است ببینند که قابلیت اطمینان تحویل تامین کننده آنها ۵۴٪ است یا ۱۲٪ از تامین کنندگان به طور مداوم زود تحویل میدهند. آنها میتوانند از این اطلاعات برای بهینه سازی روابط تامین کننده خود استفاده کنند.
-
کاوش متن: کاوش متن یا کاوش دادههای متنی استفاده از نرم افزار داده کاوی برای خواندن و درک متن است. دانشمندان داده از کاوش متن برای خودکارسازی کشف دانش در منابع مکتوب مانند وب سایتها، کتابها، ایمیلها، بررسیها و مقالات استفاده میکنند. به عنوان مثال، یک شرکت رسانه دیجیتال میتواند از کاوش متن برای خواندن خودکار نظرات در ویدیوهای آنلاین خود و طبقه بندی نظرات مخاطبان به عنوان مثبت یا منفی استفاده کند.
-
کاوش پیش بینی: داده کاوی پیش بینی از هوش تجاری برای پیش بینی روندها استفاده میکند. به رهبران کسب و کار کمک میکند تا تأثیر تصمیمات خود را بر آینده شرکت مطالعه کنند و انتخابهای موثری داشته باشند. به عنوان مثال، یک شرکت ممکن است به دادههای بازگشت محصول گذشته نگاه کند تا طرح گارانتی طراحی کند که منجر به ضرر نشود. با استفاده از کاوش پیش بینی، آنها تعداد بالقوه بازده را در سال آینده پیش بینی میکنند و یک طرح گارانتی یک ساله ایجاد میکنند که هنگام تعیین قیمت محصول، ضرر را در نظر میگیرد.