مدل‌های خودرگرسیو (Autoregressive Models) چه هستند؟

مدل‌های خودرگرسیو (Autoregressive Models) چه هستند؟

مدل‌های خودرگرسیو چه هستند؟

مدل‌های خودرگرسیو دسته‌ای از مدل‌های یادگیری ماشین (ML) هستند که به‌طور خودکار مؤلفه بعدی در یک توالی را با اندازه‌گیری از ورودی‌های قبلی در آن توالی پیش‌بینی می‌کنند. خودرگرسیون یک تکنیک آماری است که در تحلیل سری‌های زمانی استفاده می‌شود و فرض می‌کند که مقدار فعلی یک سری زمانی تابعی از مقادیر گذشته آن است. مدل‌های خودرگرسیو از تکنیک‌های ریاضی مشابهی برای تعیین همبستگی احتمالی بین عناصر در یک توالی استفاده می‌کنند. سپس از دانش به‌دست‌آمده برای حدس زدن عنصر بعدی در یک توالی ناشناخته استفاده می‌کنند. برای مثال، در طول آموزش، یک مدل خودرگرسیو چندین جمله زبان انگلیسی را پردازش می‌کند و تشخیص می‌دهد که کلمه “is” همیشه بعد از کلمه “there” می‌آید. سپس یک توالی جدید تولید می‌کند که “there is” را با هم دارد.

مدل‌های خودرگرسیو چگونه در هوش مصنوعی مولد استفاده می‌شوند؟

هوش مصنوعی مولد (generative AI) یک فناوری پیشرفته علم داده است که قادر به ایجاد محتوای جدید و منحصربه‌فرد از طریق یادگیری از داده‌های آموزشی عظیم است. بخش‌های زیر توضیح می‌دهند که چگونه مدل‌سازی خودرگرسیو برنامه‌های هوش مصنوعی مولد را امکان‌پذیر می‌سازد.

پردازش زبان طبیعی (NLP)

مدل‌سازی خودرگرسیو یک جزء مهم از مدل‌های زبانی بزرگ (LLM) است. LLMها توسط ترانسفورماتور پیش‌آموزش‌شده مولد (GPT) که یک شبکه عصبی عمیق مشتق‌شده از معماری ترانسفورماتور است، نیرو می‌گیرند. ترانسفورماتور از یک رمزگذار-رمزگشا تشکیل شده است که به ترتیب درک زبان طبیعی و تولید زبان طبیعی را امکان‌پذیر می‌سازد. GPT فقط از رمزگشا برای مدل‌سازی خودرگرسیو زبان استفاده می‌کند. این امر به GPT اجازه می‌دهد تا زبان‌های طبیعی را درک کند و به روشی پاسخ دهد که انسان‌ها آن را درک می‌کنند. یک مدل زبانی بزرگ مبتنی بر GPT با در نظر گرفتن توزیع احتمال بدنه متنی که روی آن آموزش داده شده است، کلمه بعدی را پیش‌بینی می‌کند.

ترکیب تصویر

خودرگرسیون به مدل‌های یادگیری عمیق اجازه می‌دهد تا با تجزیه و تحلیل اطلاعات محدود، تصاویر تولید کنند. شبکه‌های عصبی پردازش تصویر مانند PixelRNN و PixelCNN از مدل‌سازی خودرگرسیو برای پیش‌بینی داده‌های بصری با بررسی اطلاعات پیکسلی موجود استفاده می‌کنند. می‌توانید از تکنیک‌های خودرگرسیو برای واضح‌تر کردن، افزایش مقیاس و بازسازی تصاویر ضمن حفظ کیفیت استفاده کنید.

پیش‌بینی سری‌های زمانی

مدل‌های خودرگرسیو در پیش‌بینی احتمال وقوع رویدادهای سری‌های زمانی مفید هستند. برای مثال، مدل‌های یادگیری عمیق از تکنیک‌های خودرگرسیو برای پیش‌بینی قیمت سهام، آب و هوا و شرایط ترافیکی بر اساس مقادیر تاریخی استفاده می‌کنند.

افزایش داده‌ها

مهندسان ML مدل‌های هوش مصنوعی را با مجموعه‌داده‌های تنظیم‌شده برای بهبود عملکرد آموزش می‌دهند. در برخی موارد، داده‌های کافی برای آموزش مناسب مدل وجود ندارد. مهندسان از مدل‌های خودرگرسیو برای تولید داده‌های آموزشی یادگیری عمیق جدید و واقعی استفاده می‌کنند. آن‌ها از داده‌های تولیدشده برای افزایش مجموعه‌داده‌های آموزشی محدود موجود استفاده می‌کنند.

مدل‌سازی خودرگرسیو چگونه کار می‌کند؟

یک مدل خودرگرسیو از یک تغییر در تحلیل رگرسیون خطی برای پیش‌بینی توالی بعدی از یک محدوده معین از متغیرها استفاده می‌کند. در تحلیل رگرسیون، مدل آماری با چندین متغیر مستقل ارائه می‌شود که از آن‌ها برای پیش‌بینی مقدار یک متغیر وابسته استفاده می‌کند.

رگرسیون خطی

می‌توانید رگرسیون خطی را به عنوان رسم یک خط مستقیم تصور کنید که بهترین نماینده مقادیر متوسط توزیع‌شده روی یک نمودار دو بعدی است. از خط مستقیم، مدل یک نقطه داده جدید متناظر با توزیع شرطی مقادیر تاریخی تولید می‌کند.

ساده‌ترین شکل معادله خط نمودار بین y (متغیر وابسته) و x (متغیر مستقل) را در نظر بگیرید؛ y=mx+c، که در آن c و m برای تمام مقادیر ممکن x و y ثابت هستند. بنابراین، برای مثال، اگر مجموعه داده ورودی برای (x,y) شامل (۱,۵)، (۲,۸) و (۳,۱۱) باشد. برای شناسایی روش رگرسیون خطی، مراحل زیر را دنبال می‌کنید:

یک خط مستقیم رسم کنید و همبستگی بین ۱ و ۵ را اندازه‌گیری کنید.

جهت خط مستقیم را برای مقادیر جدید (۲,۸) و (۳,۱۱) تغییر دهید تا همه مقادیر مطابقت داشته باشند.

معادله رگرسیون خطی را به عنوان y=3x+2 شناسایی کنید.

برون‌یابی یا پیش‌بینی کنید که وقتی x برابر ۴ است، y برابر ۱۴ خواهد بود.

خودرگرسیون

مدل‌های خودرگرسیو رگرسیون خطی را با متغیرهای تأخیری خروجی خود که از مراحل قبلی گرفته شده‌اند، اعمال می‌کنند. برخلاف رگرسیون خطی، مدل خودرگرسیو از هیچ متغیر مستقل دیگری به جز نتایج پیش‌بینی‌شده قبلی استفاده نمی‌کند. فرمول زیر را در نظر بگیرید.

مدل‌های خودرگرسیو (Autoregressive Models) چه هستند؟

وقتی به صورت احتمالی بیان شود، یک مدل خودرگرسیو متغیرهای مستقل را در n مرحله ممکن توزیع می‌کند، با این فرض که متغیرهای قبلی به‌طور شرطی بر نتیجه متغیر بعدی تأثیر می‌گذارند.

همچنین می‌توانیم مدل‌سازی خودرگرسیو را با معادله زیر بیان کنیم.

مدل‌های خودرگرسیو (Autoregressive Models) چه هستند؟

در اینجا، y نتیجه پیش‌بینی چندین مرتبه از نتایج قبلی است که در ضرایب مربوطه خود، ϕ، ضرب شده‌اند. ضریب نشان‌دهنده وزن‌ها یا پارامترهایی است که بر اهمیت پیش‌بینی‌کننده برای نتیجه جدید تأثیر می‌گذارند. این فرمول نویز تصادفی را نیز در نظر می‌گیرد که ممکن است بر پیش‌بینی تأثیر بگذارد، که نشان می‌دهد مدل ایده‌آل نیست و بهبود بیشتر امکان‌پذیر است.

تأخیر

دانشمندان داده مقادیر تأخیری بیشتری را برای بهبود دقت مدل‌سازی خودرگرسیو اضافه می‌کنند. آن‌ها این کار را با افزایش مقدار t انجام می‌دهند، که نشان‌دهنده تعداد مراحل در سری زمانی داده‌ها است. تعداد مراحل بیشتر به مدل اجازه می‌دهد تا پیش‌بینی‌های گذشته بیشتری را به عنوان ورودی ثبت کند. برای مثال، می‌توانید یک مدل خودرگرسیو را گسترش دهید تا دمای پیش‌بینی‌شده از ۷ روز گذشته تا ۱۴ روز گذشته را شامل شود تا نتیجه دقیق‌تری به دست آورید. با این حال، افزایش مرتبه تأخیری یک مدل خودرگرسیو همیشه منجر به بهبود دقت نمی‌شود. اگر ضریب نزدیک به صفر باشد، پیش‌بینی‌کننده خاص تأثیر کمی بر نتیجه مدل دارد. علاوه بر این، گسترش نامحدود توالی منجر به یک مدل پیچیده‌تر می‌شود که برای اجرا به منابع محاسباتی بیشتری نیاز دارد.

خودهمبستگی چیست؟

خودهمبستگی یک روش آماری است که ارزیابی می‌کند خروجی یک مدل خودرگرسیو چقدر تحت تأثیر متغیرهای تأخیری آن قرار دارد. دانشمندان داده از خودهمبستگی برای توصیف رابطه بین خروجی و ورودی‌های تأخیری یک مدل استفاده می‌کنند. هرچه همبستگی بیشتر باشد، دقت پیش‌بینی مدل بالاتر است. در زیر برخی از ملاحظات مربوط به خودهمبستگی آورده شده است:

یک همبستگی مثبت به این معنی است که خروجی از روندهای ترسیم‌شده در مقادیر قبلی پیروی می‌کند. برای مثال، مدل پیش‌بینی می‌کند که قیمت سهام امروز افزایش خواهد یافت زیرا در چند روز گذشته افزایش یافته است.

یک همبستگی منفی به این معنی است که متغیر خروجی در جهت مخالف نتایج قبلی حرکت می‌کند. برای مثال، سیستم خودرگرسیو مشاهده می‌کند که چند روز گذشته بارانی بوده است اما برای فردا یک روز آفتابی پیش‌بینی می‌کند.

همبستگی صفر ممکن است نشان‌دهنده عدم وجود الگوهای خاص بین ورودی و خروجی باشد.

مهندسان داده از خودهمبستگی برای تعیین تعداد مراحلی که باید در مدل برای بهینه‌سازی منابع محاسباتی و دقت پاسخ گنجانده شود، استفاده می‌کنند. در برخی کاربردها، مدل خودرگرسیو ممکن است هنگام استفاده از متغیرهای مربوط به گذشته نزدیک، خودهمبستگی قوی و برای ورودی‌های دورتر، خودهمبستگی ضعیف‌تری نشان دهد. برای مثال، مهندسان دریافتند که یک پیش‌بینی‌کننده آب و هوای خودرگرسیو نسبت به پیش‌بینی‌های گذشته بیش از ۳۰ روز حساسیت کمتری دارد. بنابراین، آن‌ها مدل را اصلاح کردند تا فقط نتایج تأخیری ۳۰ روز گذشته را شامل شود. این امر منجر به نتایج دقیق‌تر با استفاده از منابع محاسباتی کمتری شد.

تفاوت بین خودرگرسیون و سایر انواع تکنیک‌های تحلیل رگرسیونی چیست؟

علاوه بر خودرگرسیون، چندین تکنیک رگرسیونی برای تجزیه و تحلیل متغیرها و وابستگی‌های متقابل آن‌ها معرفی شده است. بخش‌های زیر تفاوت‌ها را شرح می‌دهند.

مقایسه رگرسیون خطی با خودرگرسیون

هر دو روش رگرسیون فرض می‌کنند که متغیرهای گذشته یک رابطه خطی با مقادیر آینده دارند. رگرسیون خطی یک نتیجه را بر اساس چندین متغیر مستقل در همان بازه زمانی پیش‌بینی می‌کند. در همین حال، خودرگرسیون فقط از یک نوع متغیر استفاده می‌کند اما آن را در چندین نقطه گسترش می‌دهد تا نتیجه آینده را پیش‌بینی کند. برای مثال، از رگرسیون خطی برای پیش‌بینی زمان رفت و آمد خود بر اساس آب و هوا، حجم ترافیک و سرعت پیاده‌روی استفاده می‌کنید. متناوباً، یک مدل خودرگرسیون از زمان‌های رفت و آمد گذشته شما برای تخمین زمان رسیدن برای امروز استفاده می‌کند.

مقایسه رگرسیون چند جمله‌ای با خودرگرسیون

رگرسیون چند جمله‌ای یک روش آماری است که رابطه متغیرهای غیرخطی را ثبت می‌کند. برخی از متغیرها را نمی‌توان به صورت خطی با یک خط مستقیم نشان داد و برای انعکاس بهتر روابط آن‌ها به جملات چند جمله‌ای اضافی نیاز است. برای مثال، مهندسان از رگرسیون چند جمله‌ای برای تجزیه و تحلیل درآمد کارکنان بر اساس سطح تحصیلات آن‌ها استفاده می‌کنند. در همین حال، خودرگرسیون برای پیش‌بینی درآمد آینده یک کارمند بر اساس حقوق‌های قبلی او مناسب است.

مقایسه رگرسیون لجستیک با خودرگرسیون

رگرسیون لجستیک به یک مدل آماری اجازه می‌دهد تا احتمال وقوع یک رویداد خاص را به صورت احتمالی پیش‌بینی کند. این روش نتیجه پیش‌بینی را به صورت درصد به جای محدوده اعداد بیان می‌کند. برای مثال، تحلیلگران کسب‌وکار از یک مدل رگرسیون لجستیک برای پیش‌بینی احتمال ۸۵ درصدی افزایش هزینه تأمین در ماه بعد استفاده می‌کنند. در مقابل، مدل خودرگرسیون قیمت احتمالی موجودی را با توجه به پیش‌بینی تاریخی آن برای ماه‌های قبل پیش‌بینی می‌کند.

مقایسه رگرسیون پشته‌ای با خودرگرسیون

رگرسیون پشته‌ای نوعی رگرسیون خطی است که اجازه می‌دهد ضریب یک مدل محدود شود. دانشمندان داده می‌توانند یک عامل جریمه را تنظیم کنند و تأثیر ضریب در مدل‌سازی نتیجه را جبران کنند. ضریب پارامتر را می‌توان در یک مدل رگرسیون پشته‌ای تا نزدیک صفر کاهش داد. این امر زمانی مفید است که الگوریتم رگرسیونی مستعد بیش‌برازش باشد. بیش‌برازش وضعیتی است که در آن مدل می‌تواند با داده‌های آموزشی به خوبی تعمیم یابد اما با داده‌های دنیای واقعی ناآشنا نه. در همین حال، یک مدل خودرگرسیون مکانیسم جریمه ضریب ندارد.

مقایسه رگرسیون لاسویی با خودرگرسیون

رگرسیون لاسویی مشابه رگرسیون پشته‌ای است که می‌تواند ضریب متغیر را با یک عامل جریمه محدود کند. با این حال، رگرسیون لاسویی می‌تواند ضریب را تا صفر کاهش دهد. این امر به دانشمندان داده اجازه می‌دهد تا مدل‌های پیچیده را با نادیده گرفتن پارامترهای غیر بحرانی ساده کنند. در همین حال، مدل‌های خودرگرسیو پیش‌بینی‌های خود را با کاهش ضریب تنظیم نمی‌کنند.

شبکه گسترده (WAN) چیست؟
زیرو-ای‌تی‌ال (Zero-ETL) چیست؟

دیدگاهتان را بنویسید

سبد خرید
علاقه‌مندی‌ها
مشاهدات اخیر
دسته بندی ها