یادگیری تقویتی از بازخورد انسانی (RLHF) یک تکنیک یادگیری ماشین (ML) است که از بازخورد انسانی برای بهینهسازی مدلهای یادگیری ماشین برای یادگیری خودکار با کیفیت بهتر استفاده میکند. تکنیکهای یادگیری تقویتی (RL) نرمافزارها را در زمینه بهترین تصمیمگیریها آموزش میدهند و نتایج دقیقتری را ارائه میدهند. یادگیری تقویتی، بازخورد را در تابع پاداش گنجانده و به مدل یادگیری ماشین این امکان را میدهد که وظایف را بهگونهای انجام دهد که با اهداف، خواستهها و نیازهای انسانی هماهنگتر باشد. RLHF در تمام برنامههای هوش مصنوعی مولد از جمله مدلهای زبانی بزرگ (LLM) مورداستفاده قرار میگیرد.
اهمیت RLHF
کاربرد هوش مصنوعی (AI) بسیار گسترده است و شامل خودروهای خودران، پردازش زبان طبیعی (NLP)، پیشبینیهای بازار سهام و خدمات شخصیسازی خردهفروشی میشود. هدف نهایی AI تقلید از پاسخها، رفتارها و تصمیمگیریهای انسانی است. مدل ML باید ورودیهای انسانی را بهعنوان دادههای آموزشی کدگذاری کند تا AI در انجام وظایف پیچیده، بیشتر شبیه انسانها عمل کند.
RLHF یک روش خاص است که در آموزش سیستمهای AI برای نمایش بهتر ویژگیهای انسانی به کار میرود و در کنار سایر تکنیکها مانند یادگیری نظارت شده و غیر نظارت شده استفاده میشود. در ابتدا، پاسخهای مدل با پاسخهای انسانی مقایسه میشوند. سپس یک نفر کیفیت پاسخهای مختلف ماشین را ارزیابی کرده و نمرهای به پاسخهایی که بیشتر شبیه انسان به نظر میرسند، میدهد. این نمره میتواند بر اساس ویژگیهای ذاتی انسانی مانند صمیمیت، زمینه مناسب و حالت روحی تعیین شود.
RLHF در درک زبان طبیعی بسیار کاربردی است، اما در سایر برنامههای هوش مصنوعی تولیدی نیز کاربرد دارد.
بهبود عملکرد AI
RLHF دقت مدل یادگیری ماشین را افزایش میدهد. مدلها میتوانند بر اساس دادههای انسانی پیشساخته آموزش ببینند، اما بازخورد انسانی اضافی به طور قابلتوجهی عملکرد مدل را در مقایسه با وضعیت اولیهاش بهبود میبخشد.
برای مثال، زمانی که متنی از یک زبان به زبان دیگر ترجمه میشود، ممکن است یک مدل متنی تولید کند که از نظر فنی صحیح باشد، اما برای خواننده غیرطبیعی به نظر برسد. یک مترجم حرفهای میتواند ابتدا ترجمه را انجام داده و سپس ترجمه تولید شده توسط ماشین را با آن مقایسه کند و در نهایت مجموعهای از ترجمههای تولید شده توسط ماشین را برای کیفیت نمرهگذاری کند. افزودن آموزشهای بیشتر به مدل باعث میشود که مدل ترجمه های طبیعی تری تولید کند.
معرفی پارامترهای آموزشی پیچیده
در مواردی، ممکن است آموزش دقیق مدل در زمینه پارامترها دشوار باشد. بهعنوان مثال، چگونه میتوان حالت یک قطعه موسیقی را تعریف کرد؟ ممکن است پارامترهای فنی مانند کلید و تمپو وجود داشته باشد که حالت خاصی را نشان میدهند، اما روح یک قطعه موسیقی بیشتر مفهومی ذهنی است. در عوض، میتوان از راهنمایی انسانی استفاده کرد که در آن آهنگسازان قطعات احساسی خلق می کنند و سپس میتوان قطعات تولید شده توسط ماشین را بر اساس سطح احساسی آنها برچسبگذاری کرد. به این شکل، ماشین این پارامترها را بسیار سریعتر یاد میگیرد.
افزایش رضایت کاربر
اگرچه یک مدل یادگیری ماشین میتواند دقیق باشد، اما ممکن است به نظر انسانی نرسد؛ بنابراین، برای هدایت مدل به بهترین پاسخ، RL موردنیاز است.
برای مثال، اگر از یک چتبات بپرسید که وضعیت آبوهوا چگونه است، ممکن است چنین پاسخ دهد: “در حال حاضر دما ۳۰ درجه سلسیوس با ابر و با رطوبت بالا است” یا ممکن است بگوید: “در حال حاضر دما حدود ۳۰ درجه است. هوا ابری و مرطوب است، بنابراین ممکن است هوا گرفتهتر به نظر برسد! ” اگرچه هر دو پاسخ یک مطلب را بیان میکنند، اما پاسخ دوم طبیعیتر به نظر میرسد.
زمانی که کاربران انسانی به پاسخ های مدل نمره می دهند، میتوان از RLHF برای جمع بندی بازخورد انسانی و بهبود مدل بهمنظور خدمت بهتر به افراد استفاده کرد.
طرز کار RLHF
RLHF چهار مرحله برای آماده شدن مدل دارد. در اینجا، از مثال یک مدل زبانی – یک چتبات پایگاه اطلاعات یک شرکت – استفاده میشود که از RLHF برای کیفیت بهتر استفاده میکند.
در اینجا فقط نمایی کلی از فرایند یادگیری در ارائه شده است. پیچیدگی ریاضی قابلتوجهی در آموزش مدل برای RLHF وجود دارد. بااینحال، فرایندهای پیچیده بهخوبی در RLHF تعریف شده و معمولاً دارای الگوریتمهای ازپیشساخته شدهای هستند که تنها به ورودیهای منحصربهفرد شما نیاز دارند.
جمعآوری داده
قبل از انجام وظایف یادگیری ماشین با مدل زبانی، مجموعهای از درخواستها و پاسخهای تولید شده توسط انسان برای دادههای آموزشی ایجاد میشود. این مجموعه در مراحل بعدی فرایند آموزش مدل استفاده میشود.
درخواستها ممکن است شامل موارد زیر باشد:
• “بخش منابع انسانی در بوستون کجاست؟”
• “فرایند تأیید پستهای رسانههای اجتماعی چیست؟”
ه “گزارش Q1 چه نکتهای را در مورد فروش نسبت به گزارشهای فصلی قبلی نشان میدهد؟”
یک متخصص در شرکت به این سؤالات با پاسخهای دقیق و طبیعی پاسخ میدهد.
تنظیم دقیق مدل زبانی
میتوان از یک مدل پیش آموزش تجاری بهعنوان مدل پایه برای RLHF استفاده کرد. میتوان مدل را با استفاده از تکنیکهایی مانند تولید افزوده بازیابی (RAG) به پایگاه دانش داخلی شرکت بهدقت تنظیم کرد. هنگامی که مدل تنظیم دقیق شد، پاسخ آن به درخواستهای از پیش تعیین شده با پاسخهای انسانی جمعآوری شده در مرحله قبلی مقایسه میشود. تکنیکهای ریاضی میتوانند درجه شباهت بین این دو را محاسبه کنند.
برای نمونه، پاسخهای تولید شده توسط ماشین میتوانند نمرهای بین ۰ و ۱ دریافت کنند، که ۱ دقیقترین و ۰ کمدقتترین است. با این نمرات، مدل اکنون الگویی دارد که بهمنظور شکلدهی به پاسخهایی که به پاسخهای انسانی نزدیکتر هستند طراحی شده است. این سیاست مبنای تمام تصمیمگیریهای آینده مدل را نیز تشکیل میدهد.
ساخت یک مدل پاداش
اصل RLHF، آموزش یک مدل پاداش AI جداگانه بر اساس بازخورد انسانی و سپس استفاده از این مدل بهعنوان تابع پاداش است. با توجه به مجموعهای از پاسخهای متعدد از مدل که به یک درخواست مشابه پاسخ میدهند، افراد میتوانند ترجیحات خود را در مورد کیفیت هر پاسخ بیان کنند. از این ترجیحات و نظرات، برای ساخت مدل پاداش استفاده میشود و تخمین زده می شود که یک فرد به هر پاسخ چه نمرهای میدهد.
بهینهسازی مدل زبانی با مدل مبتنی بر پاداش
مدل زبانی سپس از مدل پاداش برای بهبود الگوی خود قبل از پاسخ به درخواستها استفاده میکند. با استفاده از مدل پاداش، مدل زبانی یک مجموعه پاسخ را ارزیابی کرده و سپس پاسخهایی را انتخاب میکند که احتمال بیشتری دارد بالاترین پاداش را به دست آورد. این بدان معناست که این مدل با ترجیحات انسانی مطابقت بیشتری دارد.
استفاده از RLHF در هوش مصنوعی
RLHF بهعنوان تکنیک استاندارد صنعتی شناخته میشود که اطمینان میدهد مدلهای LLM محتوایی تولید میکنند که واقعی، بیضرر و مفید است. بااینحال، ارتباط انسانی یک فرایند ذهنی و خلاقانه است و مفید بودن خروجیهای LLM بهشدت تحتتأثیر ارزشها و ترجیحات انسانی قرار دارد. آموزش مدلها کمی با هم تفاوت دارند و از پاسخدهندگان انسانی مختلفی استفاده میکند، بنابراین خروجیها حتی بین LLMهای رقابتی نیز متفاوت است. درجهای که هر مدل شامل ارزشهای انسانی میشود، کاملاً به سازنده آن بستگی دارد.
کاربردهای RLHF فراتر از LLMها، شامل سایر هوش مصنوعی نیز می شود، به عنوان مثال:
• RLHF میتواند در تولید تصاویر AI استفاده شود: مثلا، ارزیابی درجه واقعگرایی، موارد فنی یا حالت یک اثر هنری
• در تولید موسیقی، RLHF میتواند به ساخت موسیقی مطابق با حالتهای خاص و متن فعالیتها کمک کند.
• RLHF میتواند در یک دستیار صوتی به کار رود و صدای آن را بهگونهای هدایت کند که صمیمیتر، کنجکاوتر و قابلاعتمادتر به نظر برسد.