رگرسیون لجستیک (Logistic Regression) چیست؟

رگرسیون لجستیک (Logistic Regression) چیست؟

رگرسیون لجستیک چیست؟

رگرسیون لجستیک یک تکنیک تحلیل داده است که از ریاضیات برای یافتن روابط بین دو عامل داده استفاده می‌کند. سپس از این رابطه برای پیش‌بینی مقدار یکی از آن عوامل بر اساس دیگری استفاده می‌کند. پیش‌بینی معمولاً تعداد محدودی از نتایج دارد، مانند بله یا خیر.برای مثال، فرض کنید می‌خواهید حدس بزنید که آیا بازدیدکننده وب‌سایت شما روی دکمه پرداخت در سبد خرید خود کلیک می‌کند یا خیر. تحلیل رگرسیون لجستیک، رفتار گذشته بازدیدکننده، مانند زمان صرف شده در وب‌سایت و تعداد موارد موجود در سبد خرید را بررسی می‌کند. مشخص می‌کند که در گذشته، اگر بازدیدکنندگان بیش از پنج دقیقه در سایت صرف می‌کردند و بیش از سه مورد به سبد خرید اضافه می‌کردند، روی دکمه پرداخت کلیک می‌کردند. با استفاده از این اطلاعات، تابع رگرسیون لجستیک می‌تواند رفتار یک بازدیدکننده جدید وب‌سایت را پیش‌بینی کند.

چرا رگرسیون لجستیک مهم است؟

رگرسیون لجستیک یک تکنیک مهم در زمینه هوش مصنوعی و یادگیری ماشین (AI/ML) است. مدل‌های ML برنامه‌های نرم‌افزاری هستند که می‌توانید آنها را برای انجام وظایف پیچیده پردازش داده بدون دخالت انسان آموزش دهید. مدل‌های ML ساخته شده با استفاده از رگرسیون لجستیک به سازمان‌ها کمک می‌کنند تا بینش‌های عملی از داده‌های تجاری خود به دست آورند. آنها می‌توانند از این بینش‌ها برای تحلیل پیش‌بینی‌کننده به منظور کاهش هزینه‌های عملیاتی، افزایش کارایی و مقیاس سریع‌تر استفاده کنند. برای مثال، کسب‌وکارها می‌توانند الگوهایی را کشف کنند که منجر به بهبود حفظ کارکنان یا طراحی محصول سودآورتر می‌شوند.

در زیر، برخی از مزایای استفاده از رگرسیون لجستیک نسبت به سایر تکنیک‌های ML را فهرست می‌کنیم.

سادگی: مدل‌های رگرسیون لجستیک از نظر ریاضی پیچیدگی کمتری نسبت به سایر روش‌های ML دارند. بنابراین، می‌توانید آنها را حتی اگر هیچ‌کس در تیم شما تخصص عمیق ML نداشته باشد، پیاده‌سازی کنید.

سرعت: مدل‌های رگرسیون لجستیک می‌توانند حجم زیادی از داده‌ها را با سرعت بالا پردازش کنند، زیرا به ظرفیت محاسباتی کمتری مانند حافظه و قدرت پردازش نیاز دارند. این امر آنها را برای سازمان‌هایی که پروژه‌های ML را شروع می‌کنند تا به برخی از موفقیت‌های سریع دست یابند، ایده‌آل می‌سازد.

انعطاف‌پذیری: می‌توانید از رگرسیون لجستیک برای یافتن پاسخ سؤالاتی که دو یا چند نتیجه محدود دارند، استفاده کنید. همچنین می‌توانید از آن برای پیش‌پردازش داده‌ها استفاده کنید. برای مثال، می‌توانید داده‌ها را با دامنه وسیعی از مقادیر، مانند تراکنش‌های بانکی، با استفاده از رگرسیون لجستیک به دامنه کوچکتر و محدودی از مقادیر مرتب کنید. سپس می‌توانید این مجموعه داده کوچکتر را با استفاده از سایر تکنیک‌های ML برای تحلیل دقیق‌تر پردازش کنید.

قابلیت مشاهده: تحلیل رگرسیون لجستیک نسبت به سایر تکنیک‌های تحلیل داده، دید بیشتری از فرآیندهای نرم‌افزاری داخلی به توسعه‌دهندگان می‌دهد. عیب‌یابی و تصحیح خطا نیز آسان‌تر است، زیرا محاسبات پیچیدگی کمتری دارند.

کاربردهای رگرسیون لجستیک چیست؟

رگرسیون لجستیک کاربردهای واقعی متعددی در صنایع مختلف دارد.

تولید: شرکت‌های تولیدی از تحلیل رگرسیون لجستیک برای تخمین احتمال خرابی قطعات در ماشین‌آلات استفاده می‌کنند. سپس برنامه‌های تعمیر و نگهداری را بر اساس این تخمین برای به حداقل رساندن خرابی‌های آینده برنامه‌ریزی می‌کنند.

مراقبت‌های بهداشتی: محققان پزشکی با پیش‌بینی احتمال بیماری در بیماران، مراقبت‌های پیشگیرانه و درمان را برنامه‌ریزی می‌کنند. آنها از مدل‌های رگرسیون لجستیک برای مقایسه تأثیر سابقه خانوادگی یا ژن‌ها بر بیماری‌ها استفاده می‌کنند.

امور مالی: شرکت‌های مالی باید تراکنش‌های مالی را برای تقلب تجزیه و تحلیل کنند و درخواست‌های وام و درخواست‌های بیمه را از نظر ریسک ارزیابی کنند. این مشکلات برای یک مدل رگرسیون لجستیک مناسب هستند زیرا نتایج گسسته‌ای دارند، مانند ریسک بالا یا ریسک پایین و جعلی یا غیر جعلی.

بازاریابی: ابزارهای تبلیغات آنلاین از مدل رگرسیون لجستیک برای پیش‌بینی اینکه آیا کاربران روی یک تبلیغ کلیک می‌کنند یا خیر، استفاده می‌کنند. در نتیجه، بازاریابان می‌توانند پاسخ‌های کاربران به کلمات و تصاویر مختلف را تجزیه و تحلیل کنند و تبلیغات پربازدهی ایجاد کنند که مشتریان با آنها درگیر شوند.

تحلیل رگرسیون چگونه کار می‌کند؟

رگرسیون لجستیک یکی از چندین تکنیک مختلف تحلیل رگرسیون است که دانشمندان داده معمولاً در یادگیری ماشین (ML) از آن استفاده می‌کنند. برای درک رگرسیون لجستیک، ابتدا باید تحلیل رگرسیون پایه را درک کنیم. در زیر، از یک مثال از تحلیل رگرسیون خطی برای نشان دادن نحوه عملکرد تحلیل رگرسیون استفاده می‌کنیم.

سوال را مشخص کنید: هر تحلیل داده‌ای با یک سؤال تجاری شروع می‌شود. برای رگرسیون لجستیک، باید سؤال را به گونه‌ای مطرح کنید که نتایج خاصی به دست آورید:

  • آیا روزهای بارانی بر فروش ماهانه ما تأثیر دارند؟ (بله یا خیر)
  • مشتری چه نوع فعالیت کارت اعتباری را انجام می‌دهد؟ (مجاز، جعلی یا احتمالاً جعلی)

داده‌های تاریخی را جمع‌آوری کنید: پس از شناسایی سؤال، باید عوامل داده مرتبط را شناسایی کنید. سپس داده‌های گذشته را برای همه عوامل جمع‌آوری خواهید کرد. برای مثال، برای پاسخ به سؤال اول نشان داده شده در بالا، می‌توانید تعداد روزهای بارانی و داده‌های فروش ماهانه خود را برای هر ماه در سه سال گذشته جمع‌آوری کنید.

مدل تحلیل رگرسیون را آموزش دهید: داده‌های تاریخی را با استفاده از نرم‌افزار رگرسیون پردازش می‌کنید. نرم‌افزار نقاط داده مختلف را پردازش می‌کند و آنها را به صورت ریاضی با استفاده از معادلات به هم متصل می‌کند. برای مثال، اگر تعداد روزهای بارانی برای سه ماه ۳، ۵ و ۸ باشد و تعداد فروش در آن ماه‌ها ۸، ۱۲ و ۱۸ باشد، الگوریتم رگرسیون عوامل را با معادله زیر مرتبط می‌کند:

تعداد فروش = 2 * (تعداد روزهای بارانی) + ۲

برای مقادیر ناشناخته پیش‌بینی کنید: برای مقادیر ناشناخته، نرم‌افزار از معادله برای پیش‌بینی استفاده می‌کند. اگر بدانید که شش روز در ماه جولای باران خواهد بارید، نرم‌افزار مقدار فروش جولای را ۱۴ تخمین می‌زند.

مدل رگرسیون لجستیک چگونه کار می‌کند؟

برای درک مدل رگرسیون لجستیک، ابتدا باید معادلات و متغیرها را درک کنیم.

معادلات: در ریاضیات، معادلات رابطه بین دو متغیر x و y را نشان می‌دهند. می‌توانید از این معادلات یا توابع برای رسم نمودار در امتداد محور x و محور y با قرار دادن مقادیر مختلف x و y استفاده کنید. برای مثال، اگر نمودار تابع y = 2 * x را رسم کنید، یک خط مستقیم مانند شکل زیر خواهید داشت. از این رو این تابع را تابع خطی نیز می‌نامند.

رگرسیون لجستیک (Logistic Regression) چیست؟

متغیرها: در آمار، متغیرها عوامل داده یا ویژگی‌هایی هستند که مقادیر آنها تغییر می‌کند. برای هر تحلیل، متغیرهای خاصی مستقل یا متغیرهای توضیحی هستند. این ویژگی‌ها علت یک نتیجه هستند. متغیرهای دیگر وابسته یا متغیرهای پاسخ هستند. مقادیر آنها به متغیرهای مستقل بستگی دارد. به طور کلی، رگرسیون لجستیک بررسی می‌کند که چگونه متغیرهای مستقل با بررسی مقادیر داده‌های تاریخی هر دو متغیر بر یک متغیر وابسته تأثیر می‌گذارند.

در مثال بالا، x متغیر مستقل، متغیر پیش‌بینی‌کننده یا متغیر توضیحی نامیده می‌شود زیرا مقدار شناخته شده‌ای دارد. Y متغیر وابسته، متغیر نتیجه یا متغیر پاسخ نامیده می‌شود زیرا مقدار آن ناشناخته است.

تابع رگرسیون لجستیک: رگرسیون لجستیک یک مدل آماری است که از تابع لجستیک یا تابع logit در ریاضیات به عنوان معادله بین x و y استفاده می‌کند. تابع logit، y را به عنوان یک تابع سیگموئید از x ترسیم می‌کند.

رگرسیون لجستیک (Logistic Regression) چیست؟

اگر این معادله رگرسیون لجستیک را رسم کنید، یک منحنی S شکل مانند شکل زیر خواهید داشت.

رگرسیون لجستیک (Logistic Regression) چیست؟

همانطور که می‌بینید، تابع logit صرف نظر از مقادیر متغیر مستقل، فقط مقادیری بین ۰ و ۱ را برای متغیر وابسته برمی‌گرداند. به این ترتیب رگرسیون لجستیک مقدار متغیر وابسته را تخمین می‌زند. روش‌های رگرسیون لجستیک همچنین معادلات بین چندین متغیر مستقل و یک متغیر وابسته را مدل می‌کنند.

تحلیل رگرسیون لجستیک با چندین متغیر مستقل: در بسیاری از موارد، چندین متغیر توضیحی بر مقدار متغیر وابسته تأثیر می‌گذارند. برای مدل‌سازی چنین مجموعه‌های داده ورودی، فرمول‌های رگرسیون لجستیک یک رابطه خطی بین متغیرهای مستقل مختلف را فرض می‌کنند. می‌توانید تابع سیگموئید را تغییر دهید و متغیر خروجی نهایی را به صورت زیر محاسبه کنید:

y = f(β۰ + β۱×۱ + β۲×۲ +… βnxn)

نماد β نشان دهنده ضریب رگرسیون است. مدل logit می‌تواند این مقادیر ضریب را هنگام ارائه یک مجموعه داده آزمایشی به اندازه کافی بزرگ با مقادیر شناخته شده هر دو متغیر وابسته و مستقل، به صورت معکوس محاسبه کند.

لگاریتم شانس: مدل logit همچنین می‌تواند نسبت موفقیت به شکست یا لگاریتم شانس را تعیین کند. برای مثال، اگر با دوستان خود پوکر بازی می‌کردید و از ۱۰ بازی چهار بازی را بردید، شانس شما برای برنده شدن چهار ششم یا چهار از شش است که نسبت موفقیت شما به شکست است. از سوی دیگر، احتمال برنده شدن شما چهار از ۱۰ است.

به صورت ریاضی، شانس شما از نظر احتمال p/(1 – p) است و لگاریتم شانس شما log (p/(1 – p)) است. می‌توانید تابع لجستیک را به صورت لگاریتم شانس به صورت زیر نشان دهید:

رگرسیون لجستیک (Logistic Regression) چیست؟

انواع تحلیل رگرسیون لجستیک چیست؟

سه رویکرد برای تحلیل رگرسیون لجستیک بر اساس نتایج متغیر وابسته وجود دارد.

رگرسیون لجستیک دودویی: رگرسیون لجستیک دودویی برای مسائل طبقه‌بندی دودویی که فقط دو نتیجه ممکن دارند، به خوبی کار می‌کند. متغیر وابسته فقط می‌تواند دو مقدار داشته باشد، مانند بله و خیر یا ۰ و ۱.

حتی اگر تابع لجستیک طیفی از مقادیر بین ۰ و ۱ را محاسبه کند، مدل رگرسیون دودویی پاسخ را به نزدیکترین مقادیر گرد می‌کند. به طور کلی، پاسخ‌های زیر ۰.۵ به ۰ گرد می‌شوند و پاسخ‌های بالای ۰.۵ به ۱ گرد می‌شوند، به طوری که تابع لجستیک یک نتیجه دودویی را برمی‌گرداند.

رگرسیون لجستیک چند جمله‌ای: رگرسیون چند جمله‌ای می‌تواند مشکلاتی را که چندین نتیجه ممکن دارند، تا زمانی که تعداد نتایج محدود باشد، تجزیه و تحلیل کند. برای مثال، می‌تواند پیش‌بینی کند که آیا قیمت خانه بر اساس داده‌های جمعیت ۲۵٪، ۵۰٪، ۷۵٪ یا ۱۰۰٪ افزایش می‌یابد یا خیر، اما نمی‌تواند مقدار دقیق یک خانه را پیش‌بینی کند.

رگرسیون لجستیک چند جمله‌ای با نگاشت مقادیر نتیجه به مقادیر مختلف بین ۰ و ۱ کار می‌کند. از آنجا که تابع لجستیک می‌تواند طیفی از داده‌های پیوسته، مانند ۰.۱، ۰.۱۱، ۰.۱۲ و غیره را برگرداند، رگرسیون چند جمله‌ای نیز خروجی را به نزدیکترین مقادیر ممکن گروه‌بندی می‌کند.

رگرسیون لجستیک ترتیبی: رگرسیون لجستیک ترتیبی یا مدل logit مرتب شده، نوع خاصی از رگرسیون چند جمله‌ای برای مشکلاتی است که در آنها اعداد به جای مقادیر واقعی، رتبه‌ها را نشان می‌دهند. برای مثال، از رگرسیون ترتیبی برای پیش‌بینی پاسخ به یک سؤال نظرسنجی استفاده می‌کنید که از مشتریان می‌خواهد خدمات شما را بر اساس یک مقدار عددی، مانند تعداد مواردی که در طول سال از شما خریداری می‌کنند، به عنوان ضعیف، منصفانه، خوب یا عالی رتبه‌بندی کنند.

رگرسیون لجستیک چگونه با سایر تکنیک‌های ML مقایسه می‌شود؟

دو تکنیک رایج تحلیل داده، تحلیل رگرسیون خطی و یادگیری عمیق هستند.

تحلیل رگرسیون خطی: همانطور که در بالا توضیح داده شد، رگرسیون خطی رابطه بین متغیرهای وابسته و مستقل را با استفاده از یک ترکیب خطی مدل می‌کند. معادله رگرسیون خطی به صورت زیر است:

y= β0X0 + β1X1 + β2X2+… βnXn+ ε، که در آن β۱ تا βn و ε ضرایب رگرسیون هستند.

رگرسیون لجستیک در مقابل رگرسیون خطی: رگرسیون خطی یک متغیر وابسته پیوسته را با استفاده از مجموعه داده شده‌ای از متغیرهای مستقل پیش‌بینی می‌کند. یک متغیر پیوسته می‌تواند طیفی از مقادیر داشته باشد، مانند قیمت یا سن. بنابراین رگرسیون خطی می‌تواند مقادیر واقعی متغیر وابسته را پیش‌بینی کند. می‌تواند به سؤالاتی مانند “قیمت برنج بعد از ۱۰ سال چقدر خواهد بود؟” پاسخ دهد.

برخلاف رگرسیون خطی، رگرسیون لجستیک یک الگوریتم طبقه‌بندی است. نمی‌تواند مقادیر واقعی را برای داده‌های پیوسته پیش‌بینی کند. می‌تواند به سؤالاتی مانند “آیا قیمت برنج در ۱۰ سال ۵۰ درصد افزایش می‌یابد؟” پاسخ دهد.

یادگیری عمیق: یادگیری عمیق از شبکه‌های عصبی یا اجزای نرم‌افزاری که مغز انسان را برای تجزیه و تحلیل اطلاعات شبیه‌سازی می‌کنند، استفاده می‌کند. محاسبات یادگیری عمیق بر اساس مفهوم ریاضی بردارها است.

رگرسیون لجستیک در مقابل یادگیری عمیق: رگرسیون لجستیک نسبت به یادگیری عمیق پیچیدگی و محاسبات کمتری دارد. مهمتر از آن، محاسبات یادگیری عمیق به دلیل ماهیت پیچیده و ماشین محور خود، نمی‌توانند توسط توسعه‌دهندگان بررسی یا اصلاح شوند. از سوی دیگر، محاسبات رگرسیون لجستیک شفاف و عیب‌یابی آنها آسان‌تر است.

آنالیز عملیاتی (Operational Analytics) چیست؟
آپاچی فلینک (Apache Flink) چیست؟

دیدگاهتان را بنویسید

سبد خرید
علاقه‌مندی‌ها
مشاهدات اخیر
دسته بندی ها