رگرسیون خطی (Linear Regression) چیست؟

رگرسیون خطی (Linear Regression) چیست؟

رگرسیون خطی چیست؟

رگرسیون خطی یک روش تحلیل داده است که با استفاده از یک دادهٔ شناخته‌شده و مرتبط، مقدار یک دادهٔ ناشناخته را پیش‌بینی می‌کند. این روش متغیر وابسته (ناشناخته) و متغیر مستقل (شناخته‌شده) را به‌صورت یک معادلهٔ خطی مدل‌سازی می‌کند. برای مثال، اگر داده‌هایی از درآمد و هزینه‌های سال گذشته داشته باشید، رگرسیون خطی این رابطه را تحلیل کرده و مثلاً نتیجه می‌گیرد که هزینه‌ها نصف درآمد هستند. سپس می‌تواند هزینهٔ آینده را با نصف‌کردن درآمد آینده پیش‌بینی کند.

 

رگرسیون خطی چه اهمیتی دارد؟
مدل‌های رگرسیون خطی ساده هستند و فرمول‌های ریاضی قابل‌فهمی برای پیش‌بینی ارائه می‌دهند. این روش یک تکنیک آماری تثبیت‌شده است و به‌راحتی در نرم‌افزارها پیاده‌سازی می‌شود. کسب‌وکارها از آن برای تبدیل داده‌های خام به اطلاعات کاربردی استفاده می‌کنند. دانشمندان در حوزه‌هایی مثل زیست‌شناسی، علوم رفتاری، محیط‌زیست و علوم اجتماعی از رگرسیون خطی برای تحلیل مقدماتی داده‌ها و پیش‌بینی روندهای آینده بهره می‌برند. بسیاری از روش‌های علم داده، از جمله یادگیری ماشین و هوش مصنوعی، از این تکنیک برای حل مسائل پیچیده استفاده می‌کنند.

 

رگرسیون خطی چگونه کار می‌کند؟
در ساده‌ترین حالت، رگرسیون خطی تلاش می‌کند یک خط بین دو متغیر x و y رسم کند. متغیر مستقل x روی محور افقی قرار می‌گیرد و به آن متغیر توضیحی یا پیش‌بینی‌کننده نیز گفته می‌شود. متغیر وابسته y روی محور عمودی رسم می‌شود و می‌توان آن را متغیر پاسخ یا پیش‌بینی‌شده هم نامید.

 

مراحل انجام رگرسیون خطی
در ساده‌ترین حالت، معادلهٔ خط بین y و x به‌شکل y = c*x + m است؛ که در آن c و m برای همهٔ مقادیر ممکن x و y ثابت هستند. فرض کنید داده‌های ورودی (x, y) شامل (۱،۵)، (۲،۸) و (۳،۱۱) باشند. برای شناسایی مدل رگرسیون خطی، مراحل زیر انجام می‌شوند:

  • یک خط مستقیم رسم می‌شود و رابطه بین ۱ و ۵ بررسی می‌شود.
  • جهت خط به‌گونه‌ای تنظیم می‌شود که سایر نقاط مانند (۲،۸) و (۳،۱۱) نیز روی آن قرار گیرند.
  • معادلهٔ خط به‌صورت y = 3*x + 2 شناسایی می‌شود.
  • سپس می‌توان پیش‌بینی کرد که وقتی x برابر ۴ باشد، y برابر ۱۴ خواهد بود.

 

رگرسیون خطی در یادگیری ماشین چیست؟
در یادگیری ماشین، الگوریتم‌ها داده‌های بزرگ را تحلیل کرده و به‌صورت معکوس از داده‌ها برای محاسبهٔ معادلهٔ رگرسیون خطی استفاده می‌کنند. دانشمندان داده ابتدا الگوریتم را با داده‌های برچسب‌خورده آموزش می‌دهند و سپس از آن برای پیش‌بینی مقادیر ناشناخته بهره می‌برند. داده‌های واقعی بسیار پیچیده‌تر از مثال‌های ساده هستند. به همین دلیل، تحلیل رگرسیون خطی باید داده‌ها را به‌گونه‌ای تغییر دهد که چهار فرض زیر برقرار باشند:

 

۱. رابطهٔ خطی
بین متغیر مستقل و وابسته باید رابطه‌ای خطی وجود داشته باشد. برای بررسی این رابطه، دانشمندان داده از نمودار پراکندگی استفاده می‌کنند تا ببینند نقاط x و y روی یک خط قرار دارند یا نه. اگر چنین نبود، می‌توان از توابع غیرخطی مانند ریشه‌ٔ دوم یا لگاریتم برای تبدیل رابطه به شکل خطی استفاده کرد.

 

۲. استقلال باقی‌مانده‌ها 
باقی‌مانده‌ها برای بررسی دقت پیش‌بینی به کار می‌روند. باقی‌مانده تفاوت بین مقدار واقعی و مقدار پیش‌بینی‌شده است. این باقی‌مانده‌ها نباید الگوی مشخصی داشته باشند؛ مثلاً نباید با گذر زمان بزرگ‌تر شوند. برای بررسی استقلال باقی‌مانده‌ها می‌توان از آزمون‌هایی مثل آزمون دوربین-واتسون (Durbin-Watson) استفاده کرد. همچنین می‌توان از داده‌های ساختگی برای جایگزینی نوسانات خاص، مثل داده‌های فصلی، بهره گرفت.

 

نرمال بودن
تکنیک‌های گرافیکی مانند نمودارهای Q-Q برای بررسی این‌که آیا باقی‌مانده‌ها به‌طور نرمال توزیع شده‌اند یا نه، استفاده می‌شوند. باقی‌مانده‌ها باید در امتداد یک خط قطری در مرکز نمودار قرار گیرند. اگر باقی‌مانده‌ها نرمال نباشند، می‌توان داده‌ها را برای شناسایی داده‌های پرت یا مقادیری که غیرمعمول هستند آزمایش کرد. حذف این داده‌های پرت یا اعمال تغییرات غیرخطی می‌تواند مشکل را حل کند.

 

هم‌واریانسی (Homoscedasticity)
هم‌واریانسی فرض می‌کند که باقی‌مانده‌ها برای هر مقدار از x، واریانس یا انحراف معیار ثابتی از میانگین دارند. در غیر این صورت، نتایج تحلیل ممکن است دقیق نباشند. اگر این فرض برقرار نباشد، ممکن است لازم باشد متغیر وابسته تغییر یابد. از آنجا که واریانس به‌طور طبیعی در داده‌های بزرگ رخ می‌دهد، منطقی است که مقیاس متغیر وابسته تغییر کند. برای مثال، به‌جای استفاده از اندازه جمعیت برای پیش‌بینی تعداد ایستگاه‌های آتش‌نشانی در یک شهر، ممکن است از اندازه جمعیت برای پیش‌بینی تعداد ایستگاه‌های آتش‌نشانی به ازای هر نفر استفاده شود.

 

انواع رگرسیون خطی
برخی از انواع تحلیل رگرسیون برای پردازش داده‌های پیچیده مناسب‌تر از سایرین هستند. در اینجا چند مثال آورده شده است:

 

رگرسیون خطی ساده
رگرسیون خطی ساده با تابع خطی زیر تعریف می‌شود:

Y = β۰*X + β۱ + ε

که در آن β۰ و β۱ دو ثابت ناشناخته هستند که شیب رگرسیون را نشان می‌دهند و ε (اپسیلون) عبارت خطا است.

می‌توانید از رگرسیون خطی ساده برای مدل‌سازی رابطه بین دو متغیر استفاده کنید، مانند این موارد:

  • بارش باران و بازده محصول
  • سن و قد در کودکان
  • دما و انبساط جیوه در دماسنج

 

رگرسیون خطی چندگانه
در تحلیل رگرسیون خطی چندگانه، مجموعه داده‌ها شامل یک متغیر وابسته و چندین متغیر مستقل است. معادله خط رگرسیون به‌گونه‌ای تغییر می‌کند که عوامل بیشتری را در بر می‌گیرد:

Y = β۰*X0 + β1X1 + β2X2 + …… + βnXn + ε

با افزایش تعداد متغیرهای پیش‌بینی‌کننده، ثابت‌های β نیز به‌طور متناسب افزایش می‌یابند.

رگرسیون خطی چندگانه روابط بین چندین متغیر و تأثیر آن‌ها بر یک نتیجه را مدل‌سازی می‌کند:

  • بارش باران، دما و استفاده از کود بر بازده محصول
  • رژیم غذایی و ورزش بر بیماری‌های قلبی
  • رشد دستمزد و تورم بر نرخ وام مسکن

 

رگرسیون لجستیک
دانشمندان داده از رگرسیون لجستیک برای اندازه‌گیری احتمال وقوع یک رویداد استفاده می‌کنند. پیش‌بینی یک مقدار بین ۰ و ۱ است، که ۰ نشان‌دهنده احتمال کم وقوع رویداد و ۱ نشان‌دهنده احتمال زیاد وقوع آن است. معادلات لجستیک از توابع لگاریتمی برای محاسبه خط رگرسیون استفاده می‌کنند.

چند مثال از کاربرد رگرسیون لجستیک:

  • احتمال پیروزی یا باخت در یک مسابقه ورزشی
  • احتمال قبولی یا مردودی در یک آزمون
  • احتمال اینکه یک تصویر میوه یا حیوان باشد
تحلیل پیش‌بینانه (Predictive Analytics) چیست؟
جست‌وجوی اسنادی (Document Search) چیست؟

دیدگاهتان را بنویسید

سبد خرید
علاقه‌مندی‌ها
مشاهدات اخیر
دسته بندی ها