یادگیری تقویتی (Reinforcement Learning) چیست؟

یادگیری تقویتی (Reinforcement Learning) چیست؟

یادگیری تقویتی (RL) چیست؟

یادگیری تقویتی (RL) یک تکنیک یادگیری ماشین (ML) است که نرم‌افزار را برای تصمیم‌گیری به منظور دستیابی به نتایج مطلوب آموزش می‌دهد. این روش، فرآیند یادگیری آزمون و خطا را که انسان‌ها برای دستیابی به اهداف خود استفاده می‌کنند، تقلید می‌کند. اقدامات نرم‌افزاری که در جهت هدف شما عمل می‌کنند، تقویت می‌شوند، در حالی که اقداماتی که از هدف منحرف می‌شوند، نادیده گرفته می‌شوند.الگوریتم‌های RL از الگوی پاداش و تنبیه هنگام پردازش داده‌ها استفاده می‌کنند. آن‌ها از بازخورد هر اقدام یاد می‌گیرند و بهترین مسیرهای پردازش را برای دستیابی به نتایج نهایی کشف می‌کنند. این الگوریتم‌ها همچنین قادر به ارضای تاخیری هستند. بهترین استراتژی کلی ممکن است نیاز به فداکاری‌های کوتاه‌مدت داشته باشد، بنابراین بهترین رویکردی که کشف می‌کنند ممکن است شامل برخی تنبیه‌ها یا بازگشت به عقب در طول مسیر باشد. RL یک روش قدرتمند برای کمک به سیستم‌های هوش مصنوعی (AI) برای دستیابی به نتایج مطلوب در محیط‌های دیده نشده است.

مزایای یادگیری تقویتی چیست؟

مزایای زیادی برای استفاده از یادگیری تقویتی (RL) وجود دارد. با این حال، این سه مورد اغلب برجسته می‌شوند:

  • برتری در محیط‌های پیچیده:
    • الگوریتم‌های RL را می‌توان در محیط‌های پیچیده با قوانین و وابستگی‌های زیاد استفاده کرد. در همان محیط، یک انسان ممکن است قادر به تعیین بهترین مسیر نباشد، حتی با دانش برتر از محیط. در عوض، الگوریتم‌های RL بدون مدل، به سرعت با محیط‌های دائماً در حال تغییر سازگار می‌شوند و استراتژی‌های جدیدی برای بهینه‌سازی نتایج پیدا می‌کنند.
  • نیاز به تعامل انسانی کمتر:
    • در الگوریتم‌های سنتی ML، انسان‌ها باید جفت‌های داده را برچسب‌گذاری کنند تا الگوریتم را هدایت کنند. وقتی از یک الگوریتم RL استفاده می‌کنید، این کار ضروری نیست. این الگوریتم به خودی خود یاد می‌گیرد. در عین حال، مکانیسم‌هایی را برای ادغام بازخورد انسانی ارائه می‌دهد و امکان سیستم‌هایی را فراهم می‌کند که با ترجیحات، تخصص و اصلاحات انسانی سازگار می‌شوند.
  • بهینه‌سازی برای اهداف بلندمدت:
    • RL ذاتاً بر حداکثرسازی پاداش بلندمدت تمرکز دارد، که آن را برای سناریوهایی که اقدامات پیامدهای طولانی‌مدت دارند، مناسب می‌کند. این روش به‌ویژه برای موقعیت‌های دنیای واقعی که بازخورد برای هر مرحله بلافاصله در دسترس نیست، مناسب است، زیرا می‌تواند از پاداش‌های تاخیری یاد بگیرد.
    • به عنوان مثال، تصمیمات مربوط به مصرف یا ذخیره انرژی ممکن است پیامدهای بلندمدت داشته باشد. RL را می‌توان برای بهینه‌سازی بهره‌وری انرژی و هزینه بلندمدت استفاده کرد. با معماری‌های مناسب، عامل‌های RL می‌توانند استراتژی‌های آموخته شده خود را در وظایف مشابه اما نه یکسان تعمیم دهند.

موارد استفاده از یادگیری تقویتی چیست؟

یادگیری تقویتی (RL) را می‌توان در طیف گسترده‌ای از موارد استفاده در دنیای واقعی به کار برد. در اینجا چند نمونه ارائه می‌کنیم:

  • شخصی‌سازی بازاریابی:
    • در برنامه‌هایی مانند سیستم‌های توصیه، RL می‌تواند پیشنهادات را بر اساس تعاملات کاربران، برای هر فرد سفارشی کند. این امر منجر به تجربیات شخصی‌تر می‌شود. به عنوان مثال، یک برنامه ممکن است تبلیغات را بر اساس برخی اطلاعات جمعیتی به کاربر نمایش دهد. با هر تعامل تبلیغاتی، برنامه یاد می‌گیرد که کدام تبلیغات را به کاربر نمایش دهد تا فروش محصول را بهینه کند.
  • چالش‌های بهینه‌سازی:
    • روش‌های بهینه‌سازی سنتی، مسائل را با ارزیابی و مقایسه راه‌حل‌های ممکن بر اساس معیارهای خاص حل می‌کنند. در مقابل، RL یادگیری از تعاملات را برای یافتن بهترین یا نزدیک‌ترین راه‌حل‌ها در طول زمان معرفی می‌کند.
    • به عنوان مثال، یک سیستم بهینه‌سازی هزینه ابر از RL برای تنظیم نیازهای متغیر منابع و انتخاب انواع، مقادیر و پیکربندی‌های نمونه بهینه استفاده می‌کند. این سیستم بر اساس عواملی مانند زیرساخت ابری فعلی و موجود، هزینه‌ها و میزان استفاده، تصمیم‌گیری می‌کند.
  • پیش‌بینی‌های مالی:
    • پویایی بازارهای مالی پیچیده است و دارای ویژگی‌های آماری است که در طول زمان تغییر می‌کنند. الگوریتم‌های RL می‌توانند بازده‌های بلندمدت را با در نظر گرفتن هزینه‌های تراکنش و سازگاری با تغییرات بازار بهینه کنند.
    • به عنوان مثال، یک الگوریتم می‌تواند قوانین و الگوهای بازار سهام را قبل از آزمایش اقدامات و ثبت پاداش‌های مرتبط مشاهده کند. این الگوریتم به طور پویا یک تابع ارزش ایجاد می‌کند و یک استراتژی برای حداکثر کردن سود توسعه می‌دهد.

یادگیری تقویتی چگونه کار می‌کند؟

فرآیند یادگیری الگوریتم‌های یادگیری تقویتی (RL) شبیه یادگیری تقویتی حیوانات و انسان‌ها در زمینه روانشناسی رفتاری است. به عنوان مثال، یک کودک ممکن است متوجه شود که وقتی به یک خواهر یا برادر کمک می‌کند یا تمیز می‌کند، مورد تحسین والدین قرار می‌گیرد، اما وقتی اسباب‌بازی‌ها را پرتاب می‌کند یا فریاد می‌زند، واکنش‌های منفی دریافت می‌کند. به زودی، کودک یاد می‌گیرد که کدام ترکیب از فعالیت‌ها منجر به پاداش نهایی می‌شود.

یک الگوریتم RL یک فرآیند یادگیری مشابه را تقلید می‌کند. این الگوریتم فعالیت‌های مختلفی را امتحان می‌کند تا مقادیر منفی و مثبت مرتبط را برای دستیابی به نتیجه پاداش نهایی یاد بگیرد.

مفاهیم کلیدی:

در یادگیری تقویتی، چند مفهوم کلیدی وجود دارد که باید با آن‌ها آشنا شوید:

  • عامل (Agent): الگوریتم ML (یا سیستم خودکار) است.
  • محیط (Environment): فضای مسئله تطبیقی با ویژگی‌هایی مانند متغیرها، مقادیر مرزی، قوانین و اقدامات معتبر است.
  • اقدام (Action): گامی است که عامل RL برای پیمایش محیط برمی‌دارد.
  • حالت (State): محیط در یک نقطه زمانی معین است.
  • پاداش (Reward): مقدار مثبت، منفی یا صفر – به عبارت دیگر، پاداش یا تنبیه – برای انجام یک اقدام است.
  • پاداش تجمعی (Cumulative Reward): مجموع همه پاداش‌ها یا مقدار نهایی است.

اصول اولیه الگوریتم:

یادگیری تقویتی بر اساس فرآیند تصمیم‌گیری مارکوف، یک مدل‌سازی ریاضی از تصمیم‌گیری است که از گام‌های زمانی گسسته استفاده می‌کند. در هر مرحله، عامل یک اقدام جدید انجام می‌دهد که منجر به یک حالت محیطی جدید می‌شود. به طور مشابه، حالت فعلی به دنباله‌ای از اقدامات قبلی نسبت داده می‌شود.

از طریق آزمون و خطا در حرکت در محیط، عامل مجموعه‌ای از قوانین یا سیاست‌های اگر-آنگاه را می‌سازد. سیاست‌ها به آن کمک می‌کنند تا تصمیم بگیرد که کدام اقدام را برای پاداش تجمعی بهینه بعدی انجام دهد. عامل همچنین باید بین اکتشاف بیشتر محیط برای یادگیری پاداش‌های حالت-اقدام جدید یا انتخاب اقدامات شناخته شده با پاداش بالا از یک حالت معین انتخاب کند. این امر به عنوان «مبادله اکتشاف-بهره‌برداری» شناخته می‌شود.

انواع الگوریتم‌های یادگیری تقویتی چیست؟

الگوریتم‌های مختلفی در یادگیری تقویتی (RL) استفاده می‌شوند – مانند یادگیری Q، روش‌های گرادیان سیاست، روش‌های مونت کارلو و یادگیری تفاوت زمانی. RL عمیق، کاربرد شبکه‌های عصبی عمیق در یادگیری تقویتی است. یک نمونه از الگوریتم RL عمیق، بهینه‌سازی سیاست منطقه اعتماد (TRPO) است.

همه این الگوریتم‌ها را می‌توان در دو دسته کلی گروه‌بندی کرد:

  • RL مبتنی بر مدل:
    • RL مبتنی بر مدل معمولاً زمانی استفاده می‌شود که محیط‌ها به خوبی تعریف شده و ثابت هستند و آزمایش محیط دنیای واقعی دشوار است.
    • عامل ابتدا یک نمایش داخلی (مدل) از محیط می‌سازد. از این فرآیند برای ساخت این مدل استفاده می‌کند:
      • در محیط اقداماتی انجام می‌دهد و حالت جدید و مقدار پاداش را یادداشت می‌کند.
      • انتقال اقدام-حالت را با مقدار پاداش مرتبط می‌کند.
    • پس از تکمیل مدل، عامل دنباله‌های اقدام را بر اساس احتمال پاداش‌های تجمعی بهینه شبیه‌سازی می‌کند. سپس مقادیری را به خود دنباله‌های اقدام اختصاص می‌دهد. بنابراین،

      عامل استراتژی‌های مختلفی را در محیط برای دستیابی به هدف نهایی مورد نظر توسعه می‌دهد.

      • مثال:

        • رباتی را در نظر بگیرید که در حال یادگیری نحوه پیمایش یک ساختمان جدید برای رسیدن به یک اتاق خاص است. در ابتدا، ربات آزادانه به اکتشاف می‌پردازد و یک مدل داخلی (یا نقشه) از ساختمان می‌سازد. به عنوان مثال، ممکن است یاد بگیرد که پس از حرکت ۱۰ متر به جلو از ورودی اصلی، با یک آسانسور مواجه می‌شود. پس از ساخت نقشه، می‌تواند مجموعه‌ای از کوتاه‌ترین مسیرهای بین مکان‌های مختلفی که اغلب در ساختمان بازدید می‌کند، بسازد.
      • RL بدون مدل:

        • RL بدون مدل زمانی بهترین گزینه است که محیط بزرگ، پیچیده و به راحتی قابل توصیف نباشد. همچنین زمانی ایده‌آل است که محیط ناشناخته و در حال تغییر باشد و آزمایش مبتنی بر محیط با معایب قابل توجهی همراه نباشد.
        • عامل یک مدل داخلی از محیط و پویایی آن نمی‌سازد. در عوض، از رویکرد آزمون و خطا در محیط استفاده می‌کند. جفت‌های حالت-اقدام و دنباله‌های جفت‌های حالت-اقدام را برای توسعه یک سیاست امتیازدهی و یادداشت می‌کند.
      • مثال:

        • یک خودروی خودران را در نظر بگیرید که باید در ترافیک شهری حرکت کند. جاده‌ها، الگوهای ترافیک، رفتار عابران پیاده و عوامل بی‌شمار دیگر می‌توانند محیط را بسیار پویا و پیچیده کنند. تیم‌های هوش مصنوعی خودرو را در مراحل اولیه در یک محیط شبیه‌سازی شده آموزش می‌دهند. خودرو بر اساس حالت فعلی خود اقداماتی را انجام می‌دهد و پاداش یا جریمه دریافت می‌کند.
        • با گذشت زمان، با رانندگی میلیون‌ها مایل در سناریوهای مجازی مختلف، خودرو یاد می‌گیرد که کدام اقدامات برای هر حالت بهترین هستند، بدون اینکه به طور صریح کل پویایی ترافیک را مدل‌سازی کند. هنگامی که در دنیای واقعی معرفی می‌شود، خودرو از سیاست آموخته شده استفاده می‌کند، اما به اصلاح آن با داده‌های جدید ادامه می‌دهد.

      تفاوت بین یادگیری ماشین تقویتی، نظارت شده و نظارت نشده چیست؟

      در حالی که یادگیری نظارت شده، یادگیری نظارت نشده و یادگیری تقویتی (RL) همگی الگوریتم‌های ML در زمینه هوش مصنوعی هستند، تفاوت‌هایی بین این سه وجود دارد.

      • یادگیری تقویتی در مقابل یادگیری نظارت شده:

        • در یادگیری نظارت شده، شما هم ورودی و هم خروجی مرتبط مورد انتظار را تعریف می‌کنید. به عنوان مثال، می‌توانید مجموعه‌ای از تصاویر برچسب‌گذاری شده سگ یا گربه را ارائه دهید و سپس انتظار می‌رود که الگوریتم یک تصویر حیوان جدید را به عنوان سگ یا گربه شناسایی کند.
        • الگوریتم‌های یادگیری نظارت شده الگوها و روابط بین جفت‌های ورودی و خروجی را یاد می‌گیرند. سپس، بر اساس داده‌های ورودی جدید، نتایج را پیش‌بینی می‌کنند. این روش نیاز به یک ناظر، معمولاً یک انسان، دارد تا هر رکورد داده را در یک مجموعه داده آموزشی با یک خروجی برچسب‌گذاری کند.
        • در مقابل، RL یک هدف نهایی به خوبی تعریف شده در قالب یک نتیجه مطلوب دارد، اما هیچ ناظری برای برچسب‌گذاری داده‌های مرتبط از قبل وجود ندارد. در طول آموزش، به جای تلاش برای نگاشت ورودی‌ها با خروجی‌های شناخته شده، ورودی‌ها را با نتایج احتمالی نگاشت می‌کند. با پاداش دادن به رفتارهای مطلوب، به بهترین نتایج وزن می‌دهید.
      • یادگیری تقویتی در مقابل یادگیری نظارت نشده:

        • الگوریتم‌های یادگیری نظارت نشده در طول فرآیند آموزش ورودی‌ها را بدون خروجی‌های مشخص دریافت می‌کنند. آن‌ها الگوها و روابط پنهان را در داده‌ها با استفاده از ابزارهای آماری پیدا می‌کنند. به عنوان مثال، می‌توانید مجموعه‌ای از اسناد را ارائه دهید و الگوریتم ممکن است آن‌ها را بر اساس کلمات موجود در متن به دسته‌هایی که شناسایی می‌کند، گروه‌بندی کند. شما هیچ نتیجه خاصی دریافت نمی‌کنید. آن‌ها در یک محدوده قرار می‌گیرند.
        • در مقابل، RL یک هدف نهایی از پیش تعیین شده دارد. در حالی که یک رویکرد اکتشافی را در پیش می‌گیرد، اکتشافات به طور مداوم تأیید و بهبود می‌یابند تا احتمال دستیابی به هدف نهایی افزایش یابد. این روش می‌تواند به خود بیاموزد که به نتایج بسیار خاصی برسد.

      چالش‌های یادگیری تقویتی چیست؟

      در حالی که برنامه‌های کاربردی یادگیری تقویتی (RL) به طور بالقوه می‌توانند جهان را تغییر دهند، استقرار این الگوریتم‌ها ممکن است آسان نباشد.

      • عملی بودن:

        • آزمایش با سیستم‌های پاداش و تنبیه دنیای واقعی ممکن است عملی نباشد. به عنوان مثال، آزمایش یک پهپاد در دنیای واقعی بدون آزمایش ابتدا در یک شبیه‌ساز، منجر به تعداد قابل توجهی هواپیمای شکسته می‌شود. محیط‌های دنیای واقعی اغلب، به طور قابل توجهی و با هشدار محدود تغییر می‌کنند. این امر می‌تواند اثربخشی الگوریتم را در عمل دشوارتر کند.
      • قابلیت تفسیر:

        • مانند هر زمینه علمی، علم داده نیز به تحقیقات و یافته‌های قطعی برای ایجاد استانداردها و رویه‌ها نگاه می‌کند. دانشمندان داده ترجیح می‌دهند بدانند که چگونه یک نتیجه خاص برای اثبات‌پذیری و تکرارپذیری به دست آمده است.
        • با الگوریتم‌های پیچیده RL، دلایل انجام یک دنباله خاص از مراحل ممکن است دشوار باشد. کدام اقدامات در یک دنباله، اقداماتی بودند که منجر به نتیجه نهایی مطلوب شدند؟ استنباط این امر می‌تواند دشوار باشد، که باعث ایجاد چالش‌های پیاده‌سازی می‌شود.
شبیه‌سازی مونت کارلو (Monte Carlo Simulation) چیست؟
تحلیل احساسات (Sentiment Analysis) چیست؟

دیدگاهتان را بنویسید

سبد خرید
علاقه‌مندی‌ها
مشاهدات اخیر
دسته بندی ها