یادگیری تقویتی (RL) چیست؟
یادگیری تقویتی (RL) یک تکنیک یادگیری ماشین (ML) است که نرمافزار را برای تصمیمگیری به منظور دستیابی به نتایج مطلوب آموزش میدهد. این روش، فرآیند یادگیری آزمون و خطا را که انسانها برای دستیابی به اهداف خود استفاده میکنند، تقلید میکند. اقدامات نرمافزاری که در جهت هدف شما عمل میکنند، تقویت میشوند، در حالی که اقداماتی که از هدف منحرف میشوند، نادیده گرفته میشوند.الگوریتمهای RL از الگوی پاداش و تنبیه هنگام پردازش دادهها استفاده میکنند. آنها از بازخورد هر اقدام یاد میگیرند و بهترین مسیرهای پردازش را برای دستیابی به نتایج نهایی کشف میکنند. این الگوریتمها همچنین قادر به ارضای تاخیری هستند. بهترین استراتژی کلی ممکن است نیاز به فداکاریهای کوتاهمدت داشته باشد، بنابراین بهترین رویکردی که کشف میکنند ممکن است شامل برخی تنبیهها یا بازگشت به عقب در طول مسیر باشد. RL یک روش قدرتمند برای کمک به سیستمهای هوش مصنوعی (AI) برای دستیابی به نتایج مطلوب در محیطهای دیده نشده است.
مزایای یادگیری تقویتی چیست؟
مزایای زیادی برای استفاده از یادگیری تقویتی (RL) وجود دارد. با این حال، این سه مورد اغلب برجسته میشوند:
- برتری در محیطهای پیچیده:
- الگوریتمهای RL را میتوان در محیطهای پیچیده با قوانین و وابستگیهای زیاد استفاده کرد. در همان محیط، یک انسان ممکن است قادر به تعیین بهترین مسیر نباشد، حتی با دانش برتر از محیط. در عوض، الگوریتمهای RL بدون مدل، به سرعت با محیطهای دائماً در حال تغییر سازگار میشوند و استراتژیهای جدیدی برای بهینهسازی نتایج پیدا میکنند.
- نیاز به تعامل انسانی کمتر:
- در الگوریتمهای سنتی ML، انسانها باید جفتهای داده را برچسبگذاری کنند تا الگوریتم را هدایت کنند. وقتی از یک الگوریتم RL استفاده میکنید، این کار ضروری نیست. این الگوریتم به خودی خود یاد میگیرد. در عین حال، مکانیسمهایی را برای ادغام بازخورد انسانی ارائه میدهد و امکان سیستمهایی را فراهم میکند که با ترجیحات، تخصص و اصلاحات انسانی سازگار میشوند.
- بهینهسازی برای اهداف بلندمدت:
- RL ذاتاً بر حداکثرسازی پاداش بلندمدت تمرکز دارد، که آن را برای سناریوهایی که اقدامات پیامدهای طولانیمدت دارند، مناسب میکند. این روش بهویژه برای موقعیتهای دنیای واقعی که بازخورد برای هر مرحله بلافاصله در دسترس نیست، مناسب است، زیرا میتواند از پاداشهای تاخیری یاد بگیرد.
- به عنوان مثال، تصمیمات مربوط به مصرف یا ذخیره انرژی ممکن است پیامدهای بلندمدت داشته باشد. RL را میتوان برای بهینهسازی بهرهوری انرژی و هزینه بلندمدت استفاده کرد. با معماریهای مناسب، عاملهای RL میتوانند استراتژیهای آموخته شده خود را در وظایف مشابه اما نه یکسان تعمیم دهند.
موارد استفاده از یادگیری تقویتی چیست؟
یادگیری تقویتی (RL) را میتوان در طیف گستردهای از موارد استفاده در دنیای واقعی به کار برد. در اینجا چند نمونه ارائه میکنیم:
- شخصیسازی بازاریابی:
- در برنامههایی مانند سیستمهای توصیه، RL میتواند پیشنهادات را بر اساس تعاملات کاربران، برای هر فرد سفارشی کند. این امر منجر به تجربیات شخصیتر میشود. به عنوان مثال، یک برنامه ممکن است تبلیغات را بر اساس برخی اطلاعات جمعیتی به کاربر نمایش دهد. با هر تعامل تبلیغاتی، برنامه یاد میگیرد که کدام تبلیغات را به کاربر نمایش دهد تا فروش محصول را بهینه کند.
- چالشهای بهینهسازی:
- روشهای بهینهسازی سنتی، مسائل را با ارزیابی و مقایسه راهحلهای ممکن بر اساس معیارهای خاص حل میکنند. در مقابل، RL یادگیری از تعاملات را برای یافتن بهترین یا نزدیکترین راهحلها در طول زمان معرفی میکند.
- به عنوان مثال، یک سیستم بهینهسازی هزینه ابر از RL برای تنظیم نیازهای متغیر منابع و انتخاب انواع، مقادیر و پیکربندیهای نمونه بهینه استفاده میکند. این سیستم بر اساس عواملی مانند زیرساخت ابری فعلی و موجود، هزینهها و میزان استفاده، تصمیمگیری میکند.
- پیشبینیهای مالی:
- پویایی بازارهای مالی پیچیده است و دارای ویژگیهای آماری است که در طول زمان تغییر میکنند. الگوریتمهای RL میتوانند بازدههای بلندمدت را با در نظر گرفتن هزینههای تراکنش و سازگاری با تغییرات بازار بهینه کنند.
- به عنوان مثال، یک الگوریتم میتواند قوانین و الگوهای بازار سهام را قبل از آزمایش اقدامات و ثبت پاداشهای مرتبط مشاهده کند. این الگوریتم به طور پویا یک تابع ارزش ایجاد میکند و یک استراتژی برای حداکثر کردن سود توسعه میدهد.
یادگیری تقویتی چگونه کار میکند؟
فرآیند یادگیری الگوریتمهای یادگیری تقویتی (RL) شبیه یادگیری تقویتی حیوانات و انسانها در زمینه روانشناسی رفتاری است. به عنوان مثال، یک کودک ممکن است متوجه شود که وقتی به یک خواهر یا برادر کمک میکند یا تمیز میکند، مورد تحسین والدین قرار میگیرد، اما وقتی اسباببازیها را پرتاب میکند یا فریاد میزند، واکنشهای منفی دریافت میکند. به زودی، کودک یاد میگیرد که کدام ترکیب از فعالیتها منجر به پاداش نهایی میشود.
یک الگوریتم RL یک فرآیند یادگیری مشابه را تقلید میکند. این الگوریتم فعالیتهای مختلفی را امتحان میکند تا مقادیر منفی و مثبت مرتبط را برای دستیابی به نتیجه پاداش نهایی یاد بگیرد.
مفاهیم کلیدی:
در یادگیری تقویتی، چند مفهوم کلیدی وجود دارد که باید با آنها آشنا شوید:
- عامل (Agent): الگوریتم ML (یا سیستم خودکار) است.
- محیط (Environment): فضای مسئله تطبیقی با ویژگیهایی مانند متغیرها، مقادیر مرزی، قوانین و اقدامات معتبر است.
- اقدام (Action): گامی است که عامل RL برای پیمایش محیط برمیدارد.
- حالت (State): محیط در یک نقطه زمانی معین است.
- پاداش (Reward): مقدار مثبت، منفی یا صفر – به عبارت دیگر، پاداش یا تنبیه – برای انجام یک اقدام است.
- پاداش تجمعی (Cumulative Reward): مجموع همه پاداشها یا مقدار نهایی است.
اصول اولیه الگوریتم:
یادگیری تقویتی بر اساس فرآیند تصمیمگیری مارکوف، یک مدلسازی ریاضی از تصمیمگیری است که از گامهای زمانی گسسته استفاده میکند. در هر مرحله، عامل یک اقدام جدید انجام میدهد که منجر به یک حالت محیطی جدید میشود. به طور مشابه، حالت فعلی به دنبالهای از اقدامات قبلی نسبت داده میشود.
از طریق آزمون و خطا در حرکت در محیط، عامل مجموعهای از قوانین یا سیاستهای اگر-آنگاه را میسازد. سیاستها به آن کمک میکنند تا تصمیم بگیرد که کدام اقدام را برای پاداش تجمعی بهینه بعدی انجام دهد. عامل همچنین باید بین اکتشاف بیشتر محیط برای یادگیری پاداشهای حالت-اقدام جدید یا انتخاب اقدامات شناخته شده با پاداش بالا از یک حالت معین انتخاب کند. این امر به عنوان «مبادله اکتشاف-بهرهبرداری» شناخته میشود.
انواع الگوریتمهای یادگیری تقویتی چیست؟
الگوریتمهای مختلفی در یادگیری تقویتی (RL) استفاده میشوند – مانند یادگیری Q، روشهای گرادیان سیاست، روشهای مونت کارلو و یادگیری تفاوت زمانی. RL عمیق، کاربرد شبکههای عصبی عمیق در یادگیری تقویتی است. یک نمونه از الگوریتم RL عمیق، بهینهسازی سیاست منطقه اعتماد (TRPO) است.
همه این الگوریتمها را میتوان در دو دسته کلی گروهبندی کرد:
- RL مبتنی بر مدل:
- RL مبتنی بر مدل معمولاً زمانی استفاده میشود که محیطها به خوبی تعریف شده و ثابت هستند و آزمایش محیط دنیای واقعی دشوار است.
- عامل ابتدا یک نمایش داخلی (مدل) از محیط میسازد. از این فرآیند برای ساخت این مدل استفاده میکند:
- در محیط اقداماتی انجام میدهد و حالت جدید و مقدار پاداش را یادداشت میکند.
- انتقال اقدام-حالت را با مقدار پاداش مرتبط میکند.
- پس از تکمیل مدل، عامل دنبالههای اقدام را بر اساس احتمال پاداشهای تجمعی بهینه شبیهسازی میکند. سپس مقادیری را به خود دنبالههای اقدام اختصاص میدهد. بنابراین،
عامل استراتژیهای مختلفی را در محیط برای دستیابی به هدف نهایی مورد نظر توسعه میدهد.
-
مثال:
- رباتی را در نظر بگیرید که در حال یادگیری نحوه پیمایش یک ساختمان جدید برای رسیدن به یک اتاق خاص است. در ابتدا، ربات آزادانه به اکتشاف میپردازد و یک مدل داخلی (یا نقشه) از ساختمان میسازد. به عنوان مثال، ممکن است یاد بگیرد که پس از حرکت ۱۰ متر به جلو از ورودی اصلی، با یک آسانسور مواجه میشود. پس از ساخت نقشه، میتواند مجموعهای از کوتاهترین مسیرهای بین مکانهای مختلفی که اغلب در ساختمان بازدید میکند، بسازد.
-
RL بدون مدل:
- RL بدون مدل زمانی بهترین گزینه است که محیط بزرگ، پیچیده و به راحتی قابل توصیف نباشد. همچنین زمانی ایدهآل است که محیط ناشناخته و در حال تغییر باشد و آزمایش مبتنی بر محیط با معایب قابل توجهی همراه نباشد.
- عامل یک مدل داخلی از محیط و پویایی آن نمیسازد. در عوض، از رویکرد آزمون و خطا در محیط استفاده میکند. جفتهای حالت-اقدام و دنبالههای جفتهای حالت-اقدام را برای توسعه یک سیاست امتیازدهی و یادداشت میکند.
-
مثال:
- یک خودروی خودران را در نظر بگیرید که باید در ترافیک شهری حرکت کند. جادهها، الگوهای ترافیک، رفتار عابران پیاده و عوامل بیشمار دیگر میتوانند محیط را بسیار پویا و پیچیده کنند. تیمهای هوش مصنوعی خودرو را در مراحل اولیه در یک محیط شبیهسازی شده آموزش میدهند. خودرو بر اساس حالت فعلی خود اقداماتی را انجام میدهد و پاداش یا جریمه دریافت میکند.
- با گذشت زمان، با رانندگی میلیونها مایل در سناریوهای مجازی مختلف، خودرو یاد میگیرد که کدام اقدامات برای هر حالت بهترین هستند، بدون اینکه به طور صریح کل پویایی ترافیک را مدلسازی کند. هنگامی که در دنیای واقعی معرفی میشود، خودرو از سیاست آموخته شده استفاده میکند، اما به اصلاح آن با دادههای جدید ادامه میدهد.
تفاوت بین یادگیری ماشین تقویتی، نظارت شده و نظارت نشده چیست؟
در حالی که یادگیری نظارت شده، یادگیری نظارت نشده و یادگیری تقویتی (RL) همگی الگوریتمهای ML در زمینه هوش مصنوعی هستند، تفاوتهایی بین این سه وجود دارد.
-
یادگیری تقویتی در مقابل یادگیری نظارت شده:
- در یادگیری نظارت شده، شما هم ورودی و هم خروجی مرتبط مورد انتظار را تعریف میکنید. به عنوان مثال، میتوانید مجموعهای از تصاویر برچسبگذاری شده سگ یا گربه را ارائه دهید و سپس انتظار میرود که الگوریتم یک تصویر حیوان جدید را به عنوان سگ یا گربه شناسایی کند.
- الگوریتمهای یادگیری نظارت شده الگوها و روابط بین جفتهای ورودی و خروجی را یاد میگیرند. سپس، بر اساس دادههای ورودی جدید، نتایج را پیشبینی میکنند. این روش نیاز به یک ناظر، معمولاً یک انسان، دارد تا هر رکورد داده را در یک مجموعه داده آموزشی با یک خروجی برچسبگذاری کند.
- در مقابل، RL یک هدف نهایی به خوبی تعریف شده در قالب یک نتیجه مطلوب دارد، اما هیچ ناظری برای برچسبگذاری دادههای مرتبط از قبل وجود ندارد. در طول آموزش، به جای تلاش برای نگاشت ورودیها با خروجیهای شناخته شده، ورودیها را با نتایج احتمالی نگاشت میکند. با پاداش دادن به رفتارهای مطلوب، به بهترین نتایج وزن میدهید.
-
یادگیری تقویتی در مقابل یادگیری نظارت نشده:
- الگوریتمهای یادگیری نظارت نشده در طول فرآیند آموزش ورودیها را بدون خروجیهای مشخص دریافت میکنند. آنها الگوها و روابط پنهان را در دادهها با استفاده از ابزارهای آماری پیدا میکنند. به عنوان مثال، میتوانید مجموعهای از اسناد را ارائه دهید و الگوریتم ممکن است آنها را بر اساس کلمات موجود در متن به دستههایی که شناسایی میکند، گروهبندی کند. شما هیچ نتیجه خاصی دریافت نمیکنید. آنها در یک محدوده قرار میگیرند.
- در مقابل، RL یک هدف نهایی از پیش تعیین شده دارد. در حالی که یک رویکرد اکتشافی را در پیش میگیرد، اکتشافات به طور مداوم تأیید و بهبود مییابند تا احتمال دستیابی به هدف نهایی افزایش یابد. این روش میتواند به خود بیاموزد که به نتایج بسیار خاصی برسد.
چالشهای یادگیری تقویتی چیست؟
در حالی که برنامههای کاربردی یادگیری تقویتی (RL) به طور بالقوه میتوانند جهان را تغییر دهند، استقرار این الگوریتمها ممکن است آسان نباشد.
-
عملی بودن:
- آزمایش با سیستمهای پاداش و تنبیه دنیای واقعی ممکن است عملی نباشد. به عنوان مثال، آزمایش یک پهپاد در دنیای واقعی بدون آزمایش ابتدا در یک شبیهساز، منجر به تعداد قابل توجهی هواپیمای شکسته میشود. محیطهای دنیای واقعی اغلب، به طور قابل توجهی و با هشدار محدود تغییر میکنند. این امر میتواند اثربخشی الگوریتم را در عمل دشوارتر کند.
-
قابلیت تفسیر:
- مانند هر زمینه علمی، علم داده نیز به تحقیقات و یافتههای قطعی برای ایجاد استانداردها و رویهها نگاه میکند. دانشمندان داده ترجیح میدهند بدانند که چگونه یک نتیجه خاص برای اثباتپذیری و تکرارپذیری به دست آمده است.
- با الگوریتمهای پیچیده RL، دلایل انجام یک دنباله خاص از مراحل ممکن است دشوار باشد. کدام اقدامات در یک دنباله، اقداماتی بودند که منجر به نتیجه نهایی مطلوب شدند؟ استنباط این امر میتواند دشوار باشد، که باعث ایجاد چالشهای پیادهسازی میشود.
-