تنظیم ابرپارامتر چیست؟
هنگام آموزش مدلهای یادگیری ماشین، هر مجموعه داده و مدل به مجموعهای متفاوت از ابرپارامترها نیاز دارد که نوعی متغیر هستند. تنها راه تعیین این ابرپارامترها از طریق آزمایشهای متعدد است، جایی که مجموعهای از ابرپارامترها را انتخاب کرده و آنها را از طریق مدل خود اجرا میکنید. به این فرآیند، تنظیم ابرپارامتر گفته میشود. در واقع، شما مدل خود را به صورت متوالی با مجموعههای مختلف ابرپارامتر آموزش میدهید. این فرآیند میتواند دستی یا با انتخاب یکی از چندین روش خودکار تنظیم ابرپارامتر انجام شود.هر روشی که استفاده میکنید، باید نتایج آزمایشهای خود را پیگیری کنید. شما باید نوعی تحلیل آماری، مانند تابع زیان، را اعمال کنید تا مشخص کنید کدام مجموعه از ابرپارامترها بهترین نتیجه را میدهد. تنظیم ابرپارامتر فرآیندی مهم و از نظر محاسباتی سنگین است.
ابرپارامترها چه هستند؟
ابرپارامترها متغیرهای پیکربندی خارجی هستند که دانشمندان داده برای مدیریت آموزش مدلهای یادگیری ماشین استفاده میکنند. ابرپارامترها که گاهی اوقات ابرپارامترهای مدل نامیده میشوند، قبل از آموزش مدل به صورت دستی تنظیم میشوند. آنها با پارامترها که پارامترهای داخلی هستند و به طور خودکار در طول فرآیند یادگیری استخراج میشوند و توسط دانشمندان داده تنظیم نمیشوند، متفاوت هستند.نمونههایی از ابرپارامترها شامل تعداد گرهها و لایهها در یک شبکه عصبی و تعداد شاخهها در یک درخت تصمیم است. ابرپارامترها ویژگیهای کلیدی مانند معماری مدل، نرخ یادگیری و پیچیدگی مدل را تعیین میکنند.
چگونه ابرپارامترها را شناسایی میکنید؟
انتخاب مجموعه مناسبی از ابرپارامترها از نظر عملکرد و دقت مدل مهم است. متأسفانه، هیچ قانون مشخصی در مورد اینکه کدام ابرپارامترها بهترین عملکرد را دارند یا مقادیر بهینه یا پیشفرض آنها وجود ندارد. شما باید آزمایش کنید تا مجموعه ابرپارامتر بهینه را پیدا کنید. این فعالیت به عنوان تنظیم ابرپارامتر یا بهینهسازی ابرپارامتر شناخته میشود.
چرا تنظیم ابرپارامتر مهم است؟
ابرپارامترها مستقیماً ساختار، عملکرد و کارایی مدل را کنترل میکنند. تنظیم ابرپارامتر به دانشمندان داده اجازه میدهد عملکرد مدل را برای نتایج بهینه تنظیم کنند. این فرآیند بخش اساسی یادگیری ماشین است و انتخاب مقادیر مناسب ابرپارامتر برای موفقیت بسیار مهم است.به عنوان مثال، فرض کنید از نرخ یادگیری مدل به عنوان یک ابرپارامتر استفاده میکنید. اگر مقدار خیلی زیاد باشد، مدل ممکن است خیلی سریع با نتایج زیربهینه همگرا شود. در حالی که اگر نرخ خیلی پایین باشد، آموزش زمان زیادی طول میکشد و نتایج ممکن است همگرا نشوند. انتخاب خوب و متعادل ابرپارامترها منجر به مدلهای دقیق و عملکرد عالی مدل میشود.
تنظیم ابرپارامتر چگونه کار میکند؟
همانطور که قبلاً گفته شد، تنظیم ابرپارامتر میتواند دستی یا خودکار باشد. در حالی که تنظیم دستی کند و خستهکننده است، یک مزیت آن این است که شما بهتر درک میکنید که وزنهای ابرپارامتر چگونه بر مدل تأثیر میگذارند. اما در بیشتر موارد، شما معمولاً از یکی از الگوریتمهای یادگیری ابرپارامتر شناخته شده استفاده میکنید.فرآیند تنظیم ابرپارامتر تکراری است و شما ترکیبات مختلفی از پارامترها و مقادیر را امتحان میکنید. شما معمولاً با تعریف یک متغیر هدف مانند دقت به عنوان معیار اصلی شروع میکنید و قصد دارید این متغیر را به حداکثر یا حداقل برسانید. استفاده از تکنیکهای اعتبارسنجی متقابل ایده خوبی است، بنابراین مدل شما بر روی یک بخش واحد از دادههای شما متمرکز نمیشود.
تکنیکهای تنظیم ابرپارامتر چه هستند؟
الگوریتمهای تنظیم ابرپارامتر متعددی وجود دارد، اگرچه رایجترین انواع آن بهینهسازی بیزی، جستجوی شبکهای و جستجوی تصادفی هستند.
بهینهسازی بیزی
بهینهسازی بیزی تکنیکی مبتنی بر قضیه بیز است که احتمال وقوع یک رویداد مرتبط با دانش فعلی را توصیف میکند. هنگامی که این به بهینهسازی ابرپارامتر اعمال میشود، الگوریتم یک مدل احتمالی از مجموعهای از ابرپارامترها میسازد که یک معیار خاص را بهینه میکند. از تحلیل رگرسیون برای انتخاب تکراری بهترین مجموعه ابرپارامترها استفاده میکند.
جستجوی شبکهای
با جستجوی شبکهای، لیستی از ابرپارامترها و یک معیار عملکرد را مشخص میکنید و الگوریتم تمام ترکیبات ممکن را برای تعیین بهترین برازش بررسی میکند. جستجوی شبکهای خوب کار میکند، اما نسبتاً خستهکننده و از نظر محاسباتی سنگین است، به ویژه با تعداد زیادی ابرپارامتر.
جستجوی تصادفی
اگرچه بر اساس اصول مشابه جستجوی شبکهای است، جستجوی تصادفی گروههای ابرپارامتر را به صورت تصادفی در هر تکرار انتخاب میکند. زمانی که تعداد نسبتاً کمی از ابرپارامترها عمدتاً نتیجه مدل را تعیین میکنند، خوب کار میکند.
نمونههایی از ابرپارامترها چه هستند؟
در حالی که برخی از ابرپارامترها رایج هستند، در عمل خواهید دید که الگوریتمها از مجموعههای خاصی از ابرپارامترها استفاده میکنند. به عنوان مثال، میتوانید مطالعه کنید که چگونه آمازون SageMaker از ابرپارامترهای طبقهبندی تصویر و چگونه SageMaker از ابرپارامترهای الگوریتم XGBoost استفاده میکند.
در اینجا چند نمونه از ابرپارامترهای رایج آورده شده است:
- نرخ یادگیری: نرخی است که الگوریتم تخمینها را بهروزرسانی میکند.
- کاهش نرخ یادگیری: کاهش تدریجی نرخ یادگیری در طول زمان برای سرعت بخشیدن به یادگیری است.
- مومنتوم: جهت گام بعدی نسبت به گام قبلی است.
- گرههای شبکه عصبی: به تعداد گرهها در هر لایه پنهان اشاره دارد.
- لایههای شبکه عصبی: به تعداد لایههای پنهان در یک شبکه عصبی اشاره دارد.
- اندازه مینیبچ: اندازه دستهای از دادههای آموزشی است.
- دورهها (Epochs): تعداد دفعاتی است که کل مجموعه داده آموزشی در طول آموزش به شبکه نشان داده میشود.
- اتا (Eta): کوچک کردن اندازه گام برای جلوگیری از برازش بیش از حد است.