یادگیری تقویتی از بازخورد انسانی (RLHF)

یادگیری تقویتی از بازخورد انسانی (RLHF)

یادگیری تقویتی از بازخورد انسانی (RLHF) یک تکنیک یادگیری ماشین (ML) است که از بازخورد انسانی برای بهینه‌سازی مدل‌های یادگیری ماشین برای یادگیری خودکار با کیفیت بهتر استفاده می‌کند. تکنیک‌های یادگیری تقویتی (RL) نرم‌افزارها را در زمینه بهترین تصمیم‌گیری‌ها آموزش می‌دهند و نتایج دقیق‌تری را ارائه می‌دهند. یادگیری تقویتی، بازخورد را در تابع پاداش گنجانده و به مدل یادگیری ماشین این امکان را می‌دهد که وظایف را به‌گونه‌ای انجام دهد که با اهداف، خواسته‌ها و نیازهای انسانی هماهنگ‌تر باشد. RLHF در تمام برنامه‌های هوش مصنوعی مولد از جمله مدل‌های زبانی بزرگ (LLM) مورداستفاده قرار می‌گیرد.

اهمیت RLHF
کاربرد هوش مصنوعی (AI) بسیار گسترده است و شامل خودروهای خودران، پردازش زبان طبیعی (NLP)، پیش‌بینی‌های بازار سهام و خدمات شخصی‌سازی خرده‌فروشی می‌شود. هدف نهایی AI تقلید از پاسخ‌ها، رفتارها و تصمیم‌گیری‌های انسانی است. مدل ML باید ورودی‌های انسانی را به‌عنوان داده‌های آموزشی کدگذاری کند تا AI در انجام وظایف پیچیده، بیشتر شبیه انسان‌ها عمل کند.
RLHF یک روش خاص است که در آموزش سیستم‌های AI برای نمایش بهتر ویژگی‌های انسانی به کار می‌رود و در کنار سایر تکنیک‌ها مانند یادگیری نظارت شده و غیر نظارت شده استفاده می‌شود. در ابتدا، پاسخ‌های مدل با پاسخ‌های انسانی مقایسه می‌شوند. سپس یک نفر کیفیت پاسخ‌های مختلف ماشین را ارزیابی کرده و نمره‌ای به پاسخ‌هایی که بیشتر شبیه انسان به نظر می‌رسند، می‌دهد. این نمره می‌تواند بر اساس ویژگی‌های ذاتی انسانی مانند صمیمیت، زمینه مناسب و حالت روحی تعیین شود.

RLHF در درک زبان طبیعی بسیار کاربردی است، اما در سایر برنامه‌های هوش مصنوعی تولیدی نیز کاربرد دارد.

بهبود عملکرد AI
RLHF دقت مدل یادگیری ماشین را افزایش می‌دهد. مدل‌ها می‌توانند بر اساس داده‌های انسانی پیش‌ساخته آموزش ببینند، اما بازخورد انسانی اضافی به طور قابل‌توجهی عملکرد مدل را در مقایسه با وضعیت اولیه‌اش بهبود می‌بخشد.

برای مثال، زمانی که متنی از یک زبان به زبان دیگر ترجمه می‌شود، ممکن است یک مدل متنی تولید کند که از نظر فنی صحیح باشد، اما برای خواننده غیرطبیعی به نظر برسد. یک مترجم حرفه‌ای می‌تواند ابتدا ترجمه را انجام داده و سپس ترجمه تولید شده توسط ماشین را با آن مقایسه کند و در نهایت مجموعه‌ای از ترجمه‌های تولید شده توسط ماشین را برای کیفیت نمره‌گذاری کند. افزودن آموزش‌های بیشتر به مدل باعث می‌شود که مدل ترجمه های طبیعی تری تولید کند.

معرفی پارامترهای آموزشی پیچیده
در مواردی، ممکن است آموزش دقیق مدل در زمینه پارامترها دشوار باشد. به‌عنوان مثال، چگونه می‌توان حالت یک قطعه موسیقی را تعریف کرد؟ ممکن است پارامترهای فنی مانند کلید و تمپو وجود داشته باشد که حالت خاصی را نشان می‌دهند، اما روح یک قطعه موسیقی بیشتر مفهومی ذهنی است. در عوض، می‌توان از راهنمایی انسانی استفاده کرد که در آن آهنگ‌سازان قطعات احساسی خلق می کنند و سپس می‌توان قطعات تولید شده توسط ماشین را بر اساس سطح احساسی آن‌ها برچسب‌گذاری کرد. به این شکل، ماشین این پارامترها را بسیار سریع‌تر یاد می‌گیرد.

افزایش رضایت کاربر
اگرچه یک مدل یادگیری ماشین می‌تواند دقیق باشد، اما ممکن است به نظر انسانی نرسد؛ بنابراین، برای هدایت مدل به بهترین پاسخ، RL موردنیاز است.

برای مثال، اگر از یک چت‌بات بپرسید که وضعیت آب‌وهوا چگونه است، ممکن است چنین پاسخ دهد: “در حال حاضر دما ۳۰ درجه سلسیوس با ابر و با رطوبت بالا است” یا ممکن است بگوید: “در حال حاضر دما حدود ۳۰ درجه است. هوا ابری و مرطوب است، بنابراین ممکن است هوا گرفته‌تر به نظر برسد! ” اگرچه هر دو پاسخ یک مطلب را بیان می‌کنند، اما پاسخ دوم طبیعی‌تر به نظر می‌رسد.
زمانی که کاربران انسانی به پاسخ‌ های مدل نمره می دهند،  می‌توان از RLHF برای جمع بندی بازخورد انسانی و بهبود مدل به‌منظور خدمت بهتر به افراد استفاده کرد.

طرز کار RLHF 
RLHF چهار مرحله برای آماده شدن مدل دارد. در اینجا، از مثال یک مدل زبانی – یک چت‌بات پایگاه اطلاعات یک شرکت – استفاده می‌شود که از RLHF برای کیفیت بهتر استفاده می‌کند.
در اینجا فقط نمایی کلی از فرایند یادگیری در ارائه شده است. پیچیدگی ریاضی قابل‌توجهی در آموزش مدل برای RLHF وجود دارد. بااین‌حال، فرایندهای پیچیده به‌خوبی در RLHF تعریف شده و معمولاً دارای الگوریتم‌های ازپیش‌ساخته شده‌ای هستند که تنها به ورودی‌های منحصربه‌فرد شما نیاز دارند.

جمع‌آوری داده
قبل از انجام وظایف یادگیری ماشین با مدل زبانی، مجموعه‌ای از درخواست‌ها و پاسخ‌های تولید شده توسط انسان برای داده‌های آموزشی ایجاد می‌شود. این مجموعه در مراحل بعدی فرایند آموزش مدل استفاده می‌شود.

درخواست‌ها ممکن است شامل موارد زیر باشد:
• “بخش منابع انسانی در بوستون کجاست؟”
• “فرایند تأیید پست‌های رسانه‌های اجتماعی چیست؟”
ه “گزارش Q1 چه نکته‌ای را در مورد فروش نسبت به گزارش‌های فصلی قبلی نشان می‌دهد؟”
یک متخصص در شرکت به این سؤالات با پاسخ‌های دقیق و طبیعی پاسخ می‌دهد.

تنظیم دقیق مدل زبانی
می‌توان از یک مدل پیش آموزش تجاری به‌عنوان مدل پایه برای RLHF استفاده کرد. می‌توان مدل را با استفاده از تکنیک‌هایی مانند تولید افزوده بازیابی (RAG) به پایگاه دانش داخلی شرکت به‌دقت تنظیم کرد. هنگامی که مدل تنظیم دقیق شد، پاسخ آن به درخواست‌های از پیش تعیین شده با پاسخ‌های انسانی جمع‌آوری شده در مرحله قبلی مقایسه می‌شود. تکنیک‌های ریاضی می‌توانند درجه شباهت بین این دو را محاسبه کنند.

برای نمونه، پاسخ‌های تولید شده توسط ماشین می‌توانند نمره‌ای بین ۰ و ۱ دریافت کنند، که ۱ دقیق‌ترین و ۰ کم‌دقت‌ترین است. با این نمرات، مدل اکنون الگویی دارد که به‌منظور شکل‌دهی به پاسخ‌هایی که به پاسخ‌های انسانی نزدیک‌تر هستند طراحی شده است. این سیاست مبنای تمام تصمیم‌گیری‌های آینده مدل را نیز تشکیل می‌دهد.

ساخت یک مدل پاداش 
اصل RLHF، آموزش یک مدل پاداش AI جداگانه بر اساس بازخورد انسانی و سپس استفاده از این مدل به‌عنوان تابع پاداش است. با توجه به مجموعه‌ای از پاسخ‌های متعدد از مدل که به یک درخواست مشابه پاسخ می‌دهند، افراد می‌توانند ترجیحات خود را در مورد کیفیت هر پاسخ بیان کنند. از این ترجیحات و نظرات، برای ساخت مدل پاداش استفاده میشود و تخمین زده می شود که یک فرد به هر پاسخ چه نمره‌ای می‌دهد.

بهینه‌سازی مدل زبانی با مدل مبتنی بر پاداش
مدل زبانی سپس از مدل پاداش برای بهبود الگوی خود قبل از پاسخ به درخواست‌ها استفاده می‌کند. با استفاده از مدل پاداش، مدل زبانی یک مجموعه پاسخ‌ را ارزیابی کرده و سپس پاسخ‌هایی را انتخاب می‌کند که احتمال بیشتری دارد بالاترین پاداش را به دست آورد. این بدان معناست که این مدل با ترجیحات انسانی مطابقت بیشتری دارد.

استفاده از RLHF در هوش مصنوعی
RLHF به‌عنوان تکنیک استاندارد صنعتی شناخته می‌شود که اطمینان می‌دهد مدل‌های LLM محتوایی تولید می‌کنند که واقعی، بی‌ضرر و مفید است. بااین‌حال، ارتباط انسانی یک فرایند ذهنی و خلاقانه است و مفید بودن خروجی‌های LLM به‌شدت تحت‌تأثیر ارزش‌ها و ترجیحات انسانی قرار دارد. آموزش مدل‌ها کمی با هم تفاوت دارند و از پاسخ‌دهندگان انسانی مختلفی استفاده می‌کند، بنابراین خروجی‌ها حتی بین LLMهای رقابتی نیز متفاوت است. درجه‌ای که هر مدل شامل ارزش‌های انسانی می‌شود، کاملاً به سازنده آن بستگی دارد.

کاربردهای RLHF فراتر از LLMها، شامل سایر هوش مصنوعی نیز می شود، به عنوان مثال:

• RLHF می‌تواند در تولید تصاویر AI استفاده شود: مثلا، ارزیابی درجه واقع‌گرایی، موارد فنی یا حالت یک اثر هنری
• در تولید موسیقی، RLHF می‌تواند به ساخت موسیقی مطابق با حالت‌های خاص و متن فعالیت‌ها کمک کند.
• RLHF می‌تواند در یک دستیار صوتی به کار رود و صدای آن را به‌گونه‌ای هدایت کند که صمیمی‌تر، کنجکاوتر و قابل‌اعتمادتر به نظر برسد.

یادگیری انتقالی (Transfer Learning) چیست؟
جریان زنده داده‌ها (Real-Time Data Streaming) یعنی چه؟

دیدگاهتان را بنویسید

سبد خرید
علاقه‌مندی‌ها
مشاهدات اخیر
دسته بندی ها