یادگیری انتقالی (Transfer Learning) چیست؟

یادگیری انتقالی (Transfer Learning) چیست؟


یادگیری انتقالی (TL) یک تکنیک در یادگیری ماشین (ML) است که در آن مدلی که قبلاً آموزش دیده است، برای انجام یک وظیفه جدید تنظیم می‌شود. آموزش یک مدل جدید در یادگیری ماشین فرایندی زمان‌بر و پرهزینه است که نیاز به حجم زیاد داده، قدرت محاسباتی و چندین تکرار قبل از آماده‌سازی برای تولید دارد. سازمان‌ها می‌توانند در عوض از یادگیری انتقال برای بازآموزی مدل‌های موجود در وظایف داده‌های جدید استفاده ‌کنند. به عنوان مثال، اگر یک مدل یادگیری ماشین بتواند تصاویر سگ‌ها را شناسایی کند، می‌تواند با استفاده از یک مجموعه تصویر کوچک‌تر که تفاوت‌های ویژگی بین سگ‌ها و گربه‌ها را نشان می‌دهد، برای شناسایی گربه‌ها آموزش ببیند.

مزایای یادگیری انتقالی
یادگیری انتقالی مزایای زیادی را برای محققان برنامه‌های یادگیری ماشین فراهم می‌آورد:

کارایی بهتر
آموزش مدل‌های یادگیری ماشین با جمع بندی اطلاعات و شناسایی الگوها زمان‌بر است. آن‌ها همچنین نیاز به یک مجموعه داده کلان دارند و از نظر محاسباتی پرهزینه هستند. در یادگیری انتقالی، یک مدل پیش آموزش‌دیده، اطلاعات بنیادی از وظایف، ویژگی‌ها، وزن‌ها و توابع را حفظ می‌کند تا سریع‌تر با وظایف جدید سازگار شود. می‌توان از یک مجموعه داده بسیار کوچک‌تر و منابع کمتر استفاده کرد و در عین حال نتایج بهتری به دست آورد.

دسترس‌پذیری بیشتر
ساخت شبکه‌های عصبی عمیق نیازمند حجم زیادی از داده‌ها، منابع، قدرت محاسباتی و زمان است. یادگیری انتقالی این موانع را برای ایجاد مدل‌ها از بین می‌برد و به سازمان‌ها اجازه می‌دهد تا یادگیری ماشین را برای موارد استفاده سفارشی به کار بگیرند. مدل‌های موجود را می‌توان با هزینه‌ای ناچیز به نیازهای خود تطبیق داد. مثلا با استفاده از یک مدل شناسایی تصویر پیش آموزش‌دیده، مدل‌هایی برای تحلیل تصاویر پزشکی، نظارت بر محیط‌زیست یا شناسایی چهره با حداقل تنظیمات ایجاد می‌شوند.

عملکرد بهتر
مدل‌هایی که از طریق یادگیری انتقالی توسعه یافته‌اند، معمولاً در محیط‌های متنوع و چالشی مقاوم ترند و بهتر می‌توانند با تغییرات و نویز در دنیای واقعی کنار بیایند، زیرا در آموزش اولیه خود با طیف وسیعی از شرایط آشنا شده‌اند. این مدل‌ها نتایج بهتری ارائه می‌دهند و در شرایط غیرقابل‌پیش‌بینی منعطف‌تر هستند.

استراتژی‌های مختلف TL
استراتژی‌ای که برای تسهیل یادگیری انتقالی استفاده می‌شود، به دامنه مدل، وظیفه و دردسترس‌بودن داده‌های آموزشی بستگی دارد.

یادگیری انتقالی ترنس‌داکتیو (Transductive)
یادگیری انتقالی ترنس‌داکتیو شامل انتقال اطلاعات از یک دامنه خاص به یک دامنه هدف مرتبط اما متفاوت با تمرکز اصلی روی دامنه هدف است. این روش به‌ویژه زمانی که داده‌های برچسب‌گذاری شده کمی از دامنه هدف وجود داشته باشد، فایده دارد.
یادگیری انتقالی ترنس‌داکتیو از مدل می‌خواهد تا با استفاده از دانش به‌دست‌آمده قبلی پیش‌بینی‌هایی بر روی داده‌های هدف انجام دهد. از آنجا که داده‌های هدف از نظر ریاضی مشابه داده‌های منبع هستند، مدل الگوها را پیدا کرده و سریع‌تر عمل می‌کند. مثلا می‌توان به تطبیق یک مدل تحلیل احساسات که در مورد نظرات محصولات آموزش دیده است، برای تحلیل نظرات فیلم‌ها فکر کرد. دامنه منبع (نظرات محصولات) و دامنه هدف (نظرات فیلم‌ها) در زمینه و جزئیات متفاوت هستند؛ اما شباهت‌هایی در ساختار و استفاده از زبان دارند. مدل به‌سرعت یاد می‌گیرد که درک خود از احساسات را از دامنه محصول به دامنه فیلم منتقل کند.

یادگیری انتقالی استقرایی (Inductive Transfer Learning)
یادگیری انتقالی استقرایی زمانی است که دامنه‌های منبع و هدف یکسان هستند، اما وظایف مدل باید متفاوت باشد. مدل پیش‌آموزش‌دیده با داده‌های منبع آشناست و برای عملکردهای جدید سریع‌تر آموزش می‌بیند. مثالی از یادگیری انتقالی استقرایی در پردازش زبان طبیعی (NLP) است. مدل‌ها بر روی یک مجموعه بزرگ از متون پیش‌آموزش می‌بینند و سپس با استفاده از یادگیری انتقالی استقرایی برای عملکردهای خاص مانند تحلیل احساسات تنظیم می‌شوند. به همین ترتیب، مدل‌های بینایی کامپیوتری مانند VGG روی مجموعه داده‌های بزرگ تصاویر پیش‌آموزش می‌بینند و سپس برای توسعه شناسایی اشیا تنظیم می‌شوند.

یادگیری انتقالی بدون نظارت
یادگیری انتقالی بدون نظارت از استراتژی‌ای مشابه TL استقرایی برای توسعه قابلیت‌های جدید استفاده می‌کند. با این حال، از این نوع TL زمانی استفاده می‌شود که فقط داده‌های بدون برچسب در هر دو دامنه منبع و هدف وجود داشته باشند. مدل، ویژگی‌های مشترک داده‌های بدون برچسب را یاد می‌گیرد تا تعمیم دقیق تر شود. اگر به دست آوردن داده‌های منبع برچسب‌گذاری شده دشوار یا پرهزینه باشد، این روش مفید است.

مثلا می‌توان وظیفه شناسایی انواع موتورسیکلت‌ها در تصاویر ترافیک را تصور کرد. در ابتدا، مدل در مورد یک مجموعه بزرگ از تصاویر وسایل نقلیه بدون برچسب آموزش می‌بیند و شباهت‌ها و ویژگی‌های متمایز بین انواع وسایل نقلیه مثل خودروها، اتوبوس‌ها و موتورسیکلت‌ها را جداگانه تعیین می‌کند. سپس با یک مجموعه کوچک و خاص از تصاویر موتورسیکلت آشنا می شود. عملکرد مدل در ای شرایط پیشرفت زیادی می کند.

مراحل یادگیری انتقالی
سه مرحله اصلی در هنگام تنظیم یک مدل یادگیری ماشین برای یک وظیفه جدید وجود دارد.

  • انتخاب یک مدل از پیش‌آموزش‌دیده
    اولین مرحله انتخاب یک مدل از پیش‌آموزش‌دیده با دانش یا مهارت‌های قبلی برای یک وظیفه مرتبط است. یک زمینه مفید برای انتخاب مدل مناسب، تعیین وظیفه منبع هر مدل است. اگر شما وظایف اصلی که مدل انجام داده است را درک کنید، می‌توانید مدلی پیدا کنید که به یک وظیفه جدید راحت تر منتقل شود.
  • پیکربندی مدل‌های از پیش‌آموزش‌دیده
    پس از انتخاب مدل منبع، آن را پیکربندی می کنیم تا اطلاعات را به مدل مرتبط منتقل کند. دو روش اصلی برای انجام این کار وجود دارد:
  • فریز کردن لایه‌های از پیش‌آموزش‌دیده
    لایه‌ها بلوک‌های سازنده شبکه‌های عصبی هستند. هر لایه شامل مجموعه‌ای از نورون‌ها است و تغییرات خاصی روی داده‌های ورودی انجام می‌دهد. وزن‌ها پارامترهایی هستند که شبکه برای تصمیم‌گیری استفاده می‌کند. از آنجا که مدل از داده‌ها یاد می‌گیرد، وزن‌ها در مقادیر تصادفی تنظیم می‌شوند و در طی فرایند آموزش به‌روزرسانی می‌شوند.
    با فریز کردن وزن‌های لایه‌های پیش‌آموزش‌دیده، اطلاعات به‌دست‌آمده حفظ می‌شوند.
  • حذف لایه آخر
    در مواردی می توان آخرین لایه‌های مدل پیش‌آموزش‌دیده را نیز حذف کرد. در بیشتر ساختارهای یادگیری ماشین، آخرین لایه‌ها مخصوص وظیفه هستند. حذف این لایه‌های نهایی کمک می‌کند تا مدل برای نیازهای جدید مجددا پیکربندی شود.
  • معرفی لایه‌های جدید
    معرفی لایه‌های جدید بر روی مدل پیش‌آموزش‌دیده آن را با ماهیت تخصصی وظیفه جدید سازگار می کند. لایه‌های جدید مدل را با عملکردهای نیاز جدید تطبیق می‌دهند.
  • آموزش مدل برای دامنه هدف
    مدل روی داده‌های وظیفه هدف آموزش می‌بیند تا خروجی استاندارد آن با وظیفه جدید هماهنگ شود. مدل پیش‌آموزش‌دیده احتمالاً خروجی‌های متفاوتی نسبت به آنچه که مدنظر است تولید می‌کند. پس از نظارت و ارزیابی عملکرد مدل در آموزش، می‌توان هایپرپارامترها یا ساختار پایه شبکه عصبی را برای بهبود بیشتر خروجی تنظیم کرد. بر خلاف وزن‌ها، هایپرپارامترها از داده‌ها یاد نمی‌گیرند. آن‌ها از پیش تنظیم شده و نقش مهمی در تعیین کارایی و اثربخشی فرایند آموزش دارند. مثلا، شما می‌توانید پارامترهای منظم‌سازی یا نرخ‌های یادگیری مدل را برای بهبود توانایی آن در ارتباط با وظیفه هدف تنظیم کنید.

استراتژی‌های یادگیری انتقالی در هوش مصنوعی مولد 
استراتژی‌های TL برای استفاده از هوش مصنوعی مولد در صنایع مختلف بسیار کارآمد هستند. سازمان‌ها می‌توانند مدل‌های پایه موجود را بدون نیاز به آموزش مدل‌های جدید روی میلیاردها پارامتر داده‌ای در مقیاس بزرگ سفارشی کنند. در ادامه به برخی از استراتژی‌های یادگیری انتقالی که در هوش مصنوعی مولد استفاده می‌شوند، اشاره شده است:

  • آموزش متخاصم دامنه (Adversarial Domain Training)
    آموزش متخاصم دامنه شامل آموزش یک مدل پایه برای تولید داده‌هایی است که از داده‌های واقعی در دامنه هدف غیرقابل‌تشخیص باشند. این تکنیک، مثل شبکه‌های متخاصم مولد، معمولاً از یک شبکه تفکیک‌کننده استفاده می‌کند تا بین داده‌های واقعی و داده‌های تولید شده تمایز قائل شود. تولیدکننده یاد می‌گیرد که داده‌های واقعی‌تری تولید کند.
    به عنوان نمونه، در تولید تصویر، مدلی که در زمینه عکس‌ها آموزش‌دیده است، ممکن است برای تولید آثار هنری تنظیم شود. تفکیک‌کننده اطمینان حاصل می کند که آثار هنری تولید شده از نظر سبک با دامنه هدف سازگار باشند.
  • یادگیری معلم-دانش‌آموز
    یادگیری معلم-دانش‌آموز شامل یک مدل “معلم” بزرگ‌تر و پیچیده‌تر است که یک مدل “دانش‌آموز” کوچک‌تر و ساده‌تر را آموزش می‌دهد. مدل دانش‌آموز یاد می‌گیرد که رفتار مدل معلم را تقلید کند و به‌این‌ترتیب اطلاعات منتقل می‌شود که مورد مفیدی برای استقرار مدل‌های بزرگ مولد در محیط‌های دارای محدودیت منابع است.
    به عنوان مثال، یک مدل زبان بزرگ (LLM) می‌تواند به عنوان معلم برای یک مدل کوچک‌تر عمل کند و قابلیت‌های تولید زبان خود را منتقل کند و به مدل کوچک‌تر اجازه می‌دهد تا متنی باکیفیت بالا با هزینه محاسباتی کمتر تولید کند.
  • جداسازی ویژگی‌ها
    جداسازی ویژگی‌ها در مدل‌های مولد شامل جدا کردن جنبه‌های مختلف داده، مانند محتوا و سبک، به نمایش‌های مجزا است. این به مدل اجازه می‌دهد تا این جنبه‌ها را به طور مستقل در فرایند یادگیری انتقالی دست‌کاری کند.
    برای نمونه، در یک وظیفه تولید چهره، یک مدل ممکن است یاد بگیرد که ویژگی‌های صورت را از سبک هنری جدا کند تا پرتره‌هایی در سبک‌های هنری مختلف، با حفظ شباهت سوژه، تولید شوند.
  • یادگیری انتقالی چندرسانه‌ای
    TL چندرسانه‌ای شامل انتقال اطلاعات بین رسانه‌های مختلف مانند متن و تصویر است. مدل‌های مولد می‌توانند نمایش‌هایی را یاد بگیرند که در این رسانه‌ها کاربردی باشد. مدلی که در زمینه توصیف‌های متنی و تصاویر مربوط آموزش دیده است ممکن است یاد بگیرد که تصاویر مرتبطی را از توصیف‌های متنی جدید تولید کرده و به‌این‌ترتیب درک خود را از متن به تصویر منتقل کند.
  • یادگیری بدون نمونه و با نمونه کم
    در یادگیری بدون نمونه و با نمونه کم، مدل‌های مولد آموزش می‌بینند تا وظایف یا داده‌هایی را تولید کنند که در طول آموزش به تعداد کم یا هیچ نمونه‌ای از آن‌ها برخورد نکرده‌اند. مثلا یک مدل مولد ممکن است برای ایجاد تصاویر حیوانات آموزش ببیند. با استفاده از یادگیری با نمونه کم، می‌توان تصاویری از یک حیوان نادر را با درک و ترکیب ویژگی‌های سایر حیوانات تولید کرد.
جستجوی شناختی (Cognitive Search) چیست؟
یادگیری تقویتی از بازخورد انسانی (RLHF)

دیدگاهتان را بنویسید

سبد خرید
علاقه‌مندی‌ها
مشاهدات اخیر
دسته بندی ها