یادگیری انتقالی (TL) یک تکنیک در یادگیری ماشین (ML) است که در آن مدلی که قبلاً آموزش دیده است، برای انجام یک وظیفه جدید تنظیم میشود. آموزش یک مدل جدید در یادگیری ماشین فرایندی زمانبر و پرهزینه است که نیاز به حجم زیاد داده، قدرت محاسباتی و چندین تکرار قبل از آمادهسازی برای تولید دارد. سازمانها میتوانند در عوض از یادگیری انتقال برای بازآموزی مدلهای موجود در وظایف دادههای جدید استفاده کنند. به عنوان مثال، اگر یک مدل یادگیری ماشین بتواند تصاویر سگها را شناسایی کند، میتواند با استفاده از یک مجموعه تصویر کوچکتر که تفاوتهای ویژگی بین سگها و گربهها را نشان میدهد، برای شناسایی گربهها آموزش ببیند.
مزایای یادگیری انتقالی
یادگیری انتقالی مزایای زیادی را برای محققان برنامههای یادگیری ماشین فراهم میآورد:
کارایی بهتر
آموزش مدلهای یادگیری ماشین با جمع بندی اطلاعات و شناسایی الگوها زمانبر است. آنها همچنین نیاز به یک مجموعه داده کلان دارند و از نظر محاسباتی پرهزینه هستند. در یادگیری انتقالی، یک مدل پیش آموزشدیده، اطلاعات بنیادی از وظایف، ویژگیها، وزنها و توابع را حفظ میکند تا سریعتر با وظایف جدید سازگار شود. میتوان از یک مجموعه داده بسیار کوچکتر و منابع کمتر استفاده کرد و در عین حال نتایج بهتری به دست آورد.
دسترسپذیری بیشتر
ساخت شبکههای عصبی عمیق نیازمند حجم زیادی از دادهها، منابع، قدرت محاسباتی و زمان است. یادگیری انتقالی این موانع را برای ایجاد مدلها از بین میبرد و به سازمانها اجازه میدهد تا یادگیری ماشین را برای موارد استفاده سفارشی به کار بگیرند. مدلهای موجود را میتوان با هزینهای ناچیز به نیازهای خود تطبیق داد. مثلا با استفاده از یک مدل شناسایی تصویر پیش آموزشدیده، مدلهایی برای تحلیل تصاویر پزشکی، نظارت بر محیطزیست یا شناسایی چهره با حداقل تنظیمات ایجاد میشوند.
عملکرد بهتر
مدلهایی که از طریق یادگیری انتقالی توسعه یافتهاند، معمولاً در محیطهای متنوع و چالشی مقاوم ترند و بهتر میتوانند با تغییرات و نویز در دنیای واقعی کنار بیایند، زیرا در آموزش اولیه خود با طیف وسیعی از شرایط آشنا شدهاند. این مدلها نتایج بهتری ارائه میدهند و در شرایط غیرقابلپیشبینی منعطفتر هستند.
استراتژیهای مختلف TL
استراتژیای که برای تسهیل یادگیری انتقالی استفاده میشود، به دامنه مدل، وظیفه و دردسترسبودن دادههای آموزشی بستگی دارد.
یادگیری انتقالی ترنسداکتیو (Transductive)
یادگیری انتقالی ترنسداکتیو شامل انتقال اطلاعات از یک دامنه خاص به یک دامنه هدف مرتبط اما متفاوت با تمرکز اصلی روی دامنه هدف است. این روش بهویژه زمانی که دادههای برچسبگذاری شده کمی از دامنه هدف وجود داشته باشد، فایده دارد.
یادگیری انتقالی ترنسداکتیو از مدل میخواهد تا با استفاده از دانش بهدستآمده قبلی پیشبینیهایی بر روی دادههای هدف انجام دهد. از آنجا که دادههای هدف از نظر ریاضی مشابه دادههای منبع هستند، مدل الگوها را پیدا کرده و سریعتر عمل میکند. مثلا میتوان به تطبیق یک مدل تحلیل احساسات که در مورد نظرات محصولات آموزش دیده است، برای تحلیل نظرات فیلمها فکر کرد. دامنه منبع (نظرات محصولات) و دامنه هدف (نظرات فیلمها) در زمینه و جزئیات متفاوت هستند؛ اما شباهتهایی در ساختار و استفاده از زبان دارند. مدل بهسرعت یاد میگیرد که درک خود از احساسات را از دامنه محصول به دامنه فیلم منتقل کند.
یادگیری انتقالی استقرایی (Inductive Transfer Learning)
یادگیری انتقالی استقرایی زمانی است که دامنههای منبع و هدف یکسان هستند، اما وظایف مدل باید متفاوت باشد. مدل پیشآموزشدیده با دادههای منبع آشناست و برای عملکردهای جدید سریعتر آموزش میبیند. مثالی از یادگیری انتقالی استقرایی در پردازش زبان طبیعی (NLP) است. مدلها بر روی یک مجموعه بزرگ از متون پیشآموزش میبینند و سپس با استفاده از یادگیری انتقالی استقرایی برای عملکردهای خاص مانند تحلیل احساسات تنظیم میشوند. به همین ترتیب، مدلهای بینایی کامپیوتری مانند VGG روی مجموعه دادههای بزرگ تصاویر پیشآموزش میبینند و سپس برای توسعه شناسایی اشیا تنظیم میشوند.
یادگیری انتقالی بدون نظارت
یادگیری انتقالی بدون نظارت از استراتژیای مشابه TL استقرایی برای توسعه قابلیتهای جدید استفاده میکند. با این حال، از این نوع TL زمانی استفاده میشود که فقط دادههای بدون برچسب در هر دو دامنه منبع و هدف وجود داشته باشند. مدل، ویژگیهای مشترک دادههای بدون برچسب را یاد میگیرد تا تعمیم دقیق تر شود. اگر به دست آوردن دادههای منبع برچسبگذاری شده دشوار یا پرهزینه باشد، این روش مفید است.
مثلا میتوان وظیفه شناسایی انواع موتورسیکلتها در تصاویر ترافیک را تصور کرد. در ابتدا، مدل در مورد یک مجموعه بزرگ از تصاویر وسایل نقلیه بدون برچسب آموزش میبیند و شباهتها و ویژگیهای متمایز بین انواع وسایل نقلیه مثل خودروها، اتوبوسها و موتورسیکلتها را جداگانه تعیین میکند. سپس با یک مجموعه کوچک و خاص از تصاویر موتورسیکلت آشنا می شود. عملکرد مدل در ای شرایط پیشرفت زیادی می کند.
مراحل یادگیری انتقالی
سه مرحله اصلی در هنگام تنظیم یک مدل یادگیری ماشین برای یک وظیفه جدید وجود دارد.
- انتخاب یک مدل از پیشآموزشدیده
اولین مرحله انتخاب یک مدل از پیشآموزشدیده با دانش یا مهارتهای قبلی برای یک وظیفه مرتبط است. یک زمینه مفید برای انتخاب مدل مناسب، تعیین وظیفه منبع هر مدل است. اگر شما وظایف اصلی که مدل انجام داده است را درک کنید، میتوانید مدلی پیدا کنید که به یک وظیفه جدید راحت تر منتقل شود. - پیکربندی مدلهای از پیشآموزشدیده
پس از انتخاب مدل منبع، آن را پیکربندی می کنیم تا اطلاعات را به مدل مرتبط منتقل کند. دو روش اصلی برای انجام این کار وجود دارد: - فریز کردن لایههای از پیشآموزشدیده
لایهها بلوکهای سازنده شبکههای عصبی هستند. هر لایه شامل مجموعهای از نورونها است و تغییرات خاصی روی دادههای ورودی انجام میدهد. وزنها پارامترهایی هستند که شبکه برای تصمیمگیری استفاده میکند. از آنجا که مدل از دادهها یاد میگیرد، وزنها در مقادیر تصادفی تنظیم میشوند و در طی فرایند آموزش بهروزرسانی میشوند.
با فریز کردن وزنهای لایههای پیشآموزشدیده، اطلاعات بهدستآمده حفظ میشوند. - حذف لایه آخر
در مواردی می توان آخرین لایههای مدل پیشآموزشدیده را نیز حذف کرد. در بیشتر ساختارهای یادگیری ماشین، آخرین لایهها مخصوص وظیفه هستند. حذف این لایههای نهایی کمک میکند تا مدل برای نیازهای جدید مجددا پیکربندی شود. - معرفی لایههای جدید
معرفی لایههای جدید بر روی مدل پیشآموزشدیده آن را با ماهیت تخصصی وظیفه جدید سازگار می کند. لایههای جدید مدل را با عملکردهای نیاز جدید تطبیق میدهند. - آموزش مدل برای دامنه هدف
مدل روی دادههای وظیفه هدف آموزش میبیند تا خروجی استاندارد آن با وظیفه جدید هماهنگ شود. مدل پیشآموزشدیده احتمالاً خروجیهای متفاوتی نسبت به آنچه که مدنظر است تولید میکند. پس از نظارت و ارزیابی عملکرد مدل در آموزش، میتوان هایپرپارامترها یا ساختار پایه شبکه عصبی را برای بهبود بیشتر خروجی تنظیم کرد. بر خلاف وزنها، هایپرپارامترها از دادهها یاد نمیگیرند. آنها از پیش تنظیم شده و نقش مهمی در تعیین کارایی و اثربخشی فرایند آموزش دارند. مثلا، شما میتوانید پارامترهای منظمسازی یا نرخهای یادگیری مدل را برای بهبود توانایی آن در ارتباط با وظیفه هدف تنظیم کنید.
استراتژیهای یادگیری انتقالی در هوش مصنوعی مولد
استراتژیهای TL برای استفاده از هوش مصنوعی مولد در صنایع مختلف بسیار کارآمد هستند. سازمانها میتوانند مدلهای پایه موجود را بدون نیاز به آموزش مدلهای جدید روی میلیاردها پارامتر دادهای در مقیاس بزرگ سفارشی کنند. در ادامه به برخی از استراتژیهای یادگیری انتقالی که در هوش مصنوعی مولد استفاده میشوند، اشاره شده است:
- آموزش متخاصم دامنه (Adversarial Domain Training)
آموزش متخاصم دامنه شامل آموزش یک مدل پایه برای تولید دادههایی است که از دادههای واقعی در دامنه هدف غیرقابلتشخیص باشند. این تکنیک، مثل شبکههای متخاصم مولد، معمولاً از یک شبکه تفکیککننده استفاده میکند تا بین دادههای واقعی و دادههای تولید شده تمایز قائل شود. تولیدکننده یاد میگیرد که دادههای واقعیتری تولید کند.
به عنوان نمونه، در تولید تصویر، مدلی که در زمینه عکسها آموزشدیده است، ممکن است برای تولید آثار هنری تنظیم شود. تفکیککننده اطمینان حاصل می کند که آثار هنری تولید شده از نظر سبک با دامنه هدف سازگار باشند. - یادگیری معلم-دانشآموز
یادگیری معلم-دانشآموز شامل یک مدل “معلم” بزرگتر و پیچیدهتر است که یک مدل “دانشآموز” کوچکتر و سادهتر را آموزش میدهد. مدل دانشآموز یاد میگیرد که رفتار مدل معلم را تقلید کند و بهاینترتیب اطلاعات منتقل میشود که مورد مفیدی برای استقرار مدلهای بزرگ مولد در محیطهای دارای محدودیت منابع است.
به عنوان مثال، یک مدل زبان بزرگ (LLM) میتواند به عنوان معلم برای یک مدل کوچکتر عمل کند و قابلیتهای تولید زبان خود را منتقل کند و به مدل کوچکتر اجازه میدهد تا متنی باکیفیت بالا با هزینه محاسباتی کمتر تولید کند. - جداسازی ویژگیها
جداسازی ویژگیها در مدلهای مولد شامل جدا کردن جنبههای مختلف داده، مانند محتوا و سبک، به نمایشهای مجزا است. این به مدل اجازه میدهد تا این جنبهها را به طور مستقل در فرایند یادگیری انتقالی دستکاری کند.
برای نمونه، در یک وظیفه تولید چهره، یک مدل ممکن است یاد بگیرد که ویژگیهای صورت را از سبک هنری جدا کند تا پرترههایی در سبکهای هنری مختلف، با حفظ شباهت سوژه، تولید شوند. - یادگیری انتقالی چندرسانهای
TL چندرسانهای شامل انتقال اطلاعات بین رسانههای مختلف مانند متن و تصویر است. مدلهای مولد میتوانند نمایشهایی را یاد بگیرند که در این رسانهها کاربردی باشد. مدلی که در زمینه توصیفهای متنی و تصاویر مربوط آموزش دیده است ممکن است یاد بگیرد که تصاویر مرتبطی را از توصیفهای متنی جدید تولید کرده و بهاینترتیب درک خود را از متن به تصویر منتقل کند. - یادگیری بدون نمونه و با نمونه کم
در یادگیری بدون نمونه و با نمونه کم، مدلهای مولد آموزش میبینند تا وظایف یا دادههایی را تولید کنند که در طول آموزش به تعداد کم یا هیچ نمونهای از آنها برخورد نکردهاند. مثلا یک مدل مولد ممکن است برای ایجاد تصاویر حیوانات آموزش ببیند. با استفاده از یادگیری با نمونه کم، میتوان تصاویری از یک حیوان نادر را با درک و ترکیب ویژگیهای سایر حیوانات تولید کرد.