مدل پایه چیست؟
مدلهای پایه (Foundation Models یا به اختصار FMs) که بر روی مجموعهدادههای بسیار بزرگ آموزش دیدهاند، شبکههای عصبی یادگیری عمیق در مقیاس وسیع هستند که رویکرد دانشمندان داده به یادگیری ماشین (ML) را متحول کردهاند. به جای توسعه هوش مصنوعی (AI) از صفر، دانشمندان داده از یک مدل پایه بهعنوان نقطه شروع استفاده میکنند تا مدلهای یادگیری ماشینی را سریعتر و مقرونبهصرفهتر برای کاربردهای جدید توسعه دهند. اصطلاح «مدل پایه» توسط پژوهشگران برای توصیف مدلهای یادگیری ماشینی ابداع شد که بر اساس طیف گستردهای از دادههای عمومی و بدون برچسب آموزش دیدهاند و قادرند انواع گوناگونی از وظایف عمومی مانند درک زبان، تولید متن و تصویر و مکالمه به زبان طبیعی را انجام دهند.
ویژگی منحصربهفرد مدلهای پایه چیست؟
یکی از ویژگیهای متمایز مدلهای پایه، «سازگاری» آنهاست. این مدلها میتوانند با دقت بالا طیف وسیعی از وظایف متفاوت را بر اساس ورودیهای متنی (پرامپت) انجام دهند. برخی از این وظایف شامل پردازش زبان طبیعی (NLP)، پاسخ به پرسشها و طبقهبندی تصاویر است. اندازه و ماهیت عمومی مدلهای پایه، آنها را از مدلهای سنتی یادگیری ماشین که معمولاً برای وظایف خاصی مانند تحلیل احساسات متن، دستهبندی تصاویر یا پیشبینی روندها ساخته میشوند، متمایز میکند.
شما میتوانید از مدلهای پایه بهعنوان مدل مرجع برای توسعه برنامههای تخصصیتر استفاده کنید. این مدلها نتیجه بیش از یک دهه کار هستند که طی آن اندازه و پیچیدگیشان به شکل چشمگیری افزایش یافته است.
به عنوان مثال، BERT که یکی از نخستین مدلهای پایه دوسویه بود، در سال ۲۰۱۸ منتشر شد و با ۳۴۰ میلیون پارامتر و یک مجموعه داده آموزشی ۱۶ گیگابایتی آموزش دید. تنها پنج سال بعد، در سال ۲۰۲۳، OpenAI مدل GPT-4 را با ۱۷۰ تریلیون پارامتر و یک مجموعه داده آموزشی ۴۵ گیگابایتی آموزش داد. طبق اعلام OpenAI، توان محاسباتی مورد نیاز برای مدلسازی پایه از سال ۲۰۱۲ هر ۳.۴ ماه دو برابر شده است. مدلهای پایه امروزی مانند مدلهای زبانی بزرگ (LLM) از جمله Claude 2 و Llama 2، و مدل متن به تصویر Stable Diffusion از Stability AI، قادرند بدون نیاز به آموزش اضافی، مجموعهای از وظایف را در حوزههای مختلف انجام دهند؛ از جمله نوشتن پستهای وبلاگ، تولید تصویر، حل مسائل ریاضی، مکالمه، و پاسخگویی به پرسشها بر اساس یک سند.
چرا مدلسازی پایه اهمیت دارد؟
مدلهای پایه میتوانند چرخه عمر یادگیری ماشین را به شکل چشمگیری تغییر دهند. اگرچه در حال حاضر توسعه یک مدل پایه از صفر میلیونها دلار هزینه دارد، اما در بلندمدت ارزشمند هستند. استفاده از مدلهای پایه از پیش آموزشدیده برای توسعه برنامههای جدید یادگیری ماشین، سریعتر و ارزانتر از آموزش مدلهای منحصربهفرد از ابتدا است.
یکی از کاربردهای بالقوه، خودکارسازی وظایف و فرایندهاست، بهویژه آنهایی که نیاز به قابلیت استدلال دارند. چند نمونه از کاربردهای مدلهای پایه عبارتند از:
- پشتیبانی مشتری
- ترجمه زبان
- تولید محتوا
- کپیرایتینگ
- طبقهبندی تصاویر
- ایجاد و ویرایش تصاویر با وضوح بالا
- استخراج اسناد
- رباتیک
- بهداشت و درمان
- وسایل نقلیه خودران
مدلهای پایه چگونه کار میکنند؟
مدلهای پایه نوعی از هوش مصنوعی مولد (Generative AI) هستند. آنها بر اساس یک یا چند ورودی (پرامپت) خروجی تولید میکنند که میتواند به شکل دستورالعملهای زبان انسانی باشد. این مدلها بر پایه شبکههای عصبی پیچیدهای ساخته شدهاند که شامل شبکههای مولد رقابتی (GANs)، ترنسفورمرها و رمزگذارهای واریاسیونی هستند.
اگرچه هر نوع شبکه به شکل متفاوتی عمل میکند، اصول کلی کارکرد آنها مشابه است. به طور کلی، یک مدل پایه از الگوها و روابطی که آموخته است برای پیشبینی آیتم بعدی در یک توالی استفاده میکند. برای مثال، در تولید تصویر، مدل تصویر را تحلیل کرده و نسخهای واضحتر و با جزئیات بیشتر از آن ایجاد میکند. به همین ترتیب، در متن، مدل بر اساس کلمات قبلی و زمینه آنها، کلمه بعدی را پیشبینی کرده و با استفاده از توزیع احتمالاتی آن را انتخاب میکند.
مدلهای پایه از «یادگیری خودنظارتی» (Self-Supervised Learning) استفاده میکنند تا از دادههای ورودی برچسب ایجاد کنند. این بدان معناست که هیچکس مدل را با مجموعه دادههای برچسبدار آموزش نداده است. این ویژگی، مدلهای زبانی بزرگ را از معماریهای قبلی یادگیری ماشین که از یادگیری نظارتشده یا بدوننظارت استفاده میکردند، متمایز میکند.
مدلهای پایه چه تواناییهایی دارند؟
مدلهای پایه، با وجود اینکه از پیش آموزش دیدهاند، میتوانند در طول استنتاج از دادههای ورودی یا دستورات به یادگیری ادامه دهند. این بدان معناست که شما میتوانید از طریق دستورات با دقت تنظیم شده، خروجیهای جامعی تولید کنید. وظایفی که مدلهای پایه میتوانند انجام دهند شامل پردازش زبان، درک بصری، تولید کد و تعامل انسانمحور است.
پردازش زبان
این مدلها قابلیتهای قابل توجهی در پاسخ دادن به سؤالات به زبان طبیعی و حتی توانایی نوشتن فیلمنامهها یا مقالات کوتاه در پاسخ به دستورات دارند. آنها همچنین میتوانند زبانها را با استفاده از فناوریهای پردازش زبان طبیعی (NLP) ترجمه کنند.
درک بصری
مدلهای پایه در بینایی کامپیوتر، به ویژه در زمینه شناسایی تصاویر و اشیاء فیزیکی، برتری دارند. این قابلیتها ممکن است در کاربردهایی مانند رانندگی خودران و رباتیک مورد استفاده قرار گیرند. یکی دیگر از قابلیتها، تولید تصاویر از متن ورودی و همچنین ویرایش عکس و فیلم است.
تولید کد
مدلهای پایه میتوانند کد کامپیوتر را در زبانهای برنامهنویسی مختلف بر اساس ورودیهای زبان طبیعی تولید کنند. همچنین استفاده از مدلهای پایه برای ارزیابی و اشکالزدایی کد امکانپذیر است. درباره تولید کد با هوش مصنوعی بیشتر بدانید.
تعامل انسانمحور
مدلهای هوش مصنوعی مولد از ورودیهای انسانی برای یادگیری و بهبود پیشبینیها استفاده میکنند. یک کاربرد مهم و گاهی نادیده گرفته شده، توانایی این مدلها در پشتیبانی از تصمیمگیری انسانی است. کاربردهای بالقوه شامل تشخیصهای بالینی، سیستمهای پشتیبانی تصمیم و تجزیه و تحلیل است.یکی دیگر از قابلیتها، توسعه برنامههای کاربردی جدید هوش مصنوعی با تنظیم دقیق مدلهای پایه موجود است.
تبدیل گفتار به متن
از آنجایی که مدلهای پایه زبان را درک میکنند، میتوان از آنها برای وظایف تبدیل گفتار به متن مانند رونویسی و زیرنویسگذاری ویدیو به زبانهای مختلف استفاده کرد.
نمونههایی از مدلهای پایه کدامند؟
تعداد و اندازه مدلهای پایه موجود در بازار با سرعت زیادی رشد کرده است. در حال حاضر دهها مدل در دسترس است. در اینجا لیستی از مدلهای پایه برجسته منتشر شده از سال ۲۰۱۸ آورده شده است:
تعداد و اندازه مدلهای پایه موجود در بازار با سرعت زیادی افزایش یافته است و اکنون دهها مدل در دسترس هستند. در ادامه فهرستی از مدلهای شاخصی که از سال ۲۰۱۸ منتشر شدهاند، آمده است.
BERT
منتشرشده در سال ۲۰۱۸، Bidirectional Encoder Representations from Transformers (BERT) یکی از اولین مدلهای پایه بود. BERT یک مدل دوسویه است که با تحلیل کل یک دنباله، پیشبینی انجام میدهد. این مدل با استفاده از یک مجموعه متن ساده و ویکیپدیا و با ۳.۳ میلیارد توکن (کلمه) و ۳۴۰ میلیون پارامتر آموزش داده شد. BERT میتواند به پرسشها پاسخ دهد، جملات را پیشبینی کند و متون را ترجمه کند.
GPT
مدل Generative Pre-trained Transformer (GPT) توسط OpenAI در سال ۲۰۱۸ توسعه یافت. این مدل از یک دیکودر ترنسفورمر ۱۲ لایه با مکانیزم توجه به خود (Self-Attention) استفاده میکند و بر روی مجموعه داده BookCorpus، شامل بیش از ۱۱٬۰۰۰ رمان رایگان، آموزش داده شد. یکی از ویژگیهای قابل توجه GPT-1، توانایی یادگیری بدون نمونه (Zero-Shot Learning) است.
GPT-2 در سال ۲۰۱۹ منتشر شد. OpenAI آن را با ۱.۵ میلیارد پارامتر آموزش داد (در مقایسه با ۱۱۷ میلیون پارامتر در GPT-1). GPT-3 دارای یک شبکه عصبی ۹۶ لایه و ۱۷۵ میلیارد پارامتر است و با استفاده از مجموعه داده Common Crawl با ۵۰۰ میلیارد کلمه آموزش داده شد. چتبات محبوب ChatGPT بر اساس GPT-3.5 ساخته شده است. GPT-4، آخرین نسخه، در اواخر ۲۰۲۲ عرضه شد و توانست در آزمون Uniform Bar Examination امتیاز ۲۹۷ (۷۶٪) کسب کند.
Amazon Nova
Amazon Nova نسل جدیدی از مدلهای پایه پیشرفته (SOTA) است که هوش مرزی و عملکرد قیمت-کیفیت برتر را ارائه میدهد.
-
Amazon Nova Micro، Amazon Nova Lite و Amazon Nova Pro مدلهای درککننده هستند که ورودیهای متنی، تصویری و ویدیویی را دریافت کرده و خروجی متنی تولید میکنند. این مدلها طیفی گسترده از قابلیتها، دقت، سرعت و هزینه را پوشش میدهند.
-
Amazon Nova Canvas و Amazon Nova Reel مدلهای تولید محتوای خلاقانه هستند که ورودی متنی و تصویری را دریافت کرده و خروجی تصویر یا ویدیو تولید میکنند. این مدلها برای تولید تصاویر و ویدیوهای سفارشی با کیفیت بالا طراحی شدهاند.
AI21 Jurassic
در سال ۲۰۲۱، مدل Jurassic-1 منتشر شد. این مدل زبانی خودرگرسیو ۷۶ لایه با ۱۷۸ میلیارد پارامتر است که متن انسانیمانند تولید کرده و مسائل پیچیده را حل میکند. عملکرد آن با GPT-3 قابل مقایسه است.
در مارس ۲۰۲۳، AI21 Labs نسخه Jurassic-2 را منتشر کرد که قابلیتهای بهبود یافته در پیروی از دستورها و تواناییهای زبانی دارد.
Claude
-
Claude 3.5 Sonnet: پیشرفتهترین مدل Anthropic که تواناییهای استثنایی در طیف متنوعی از وظایف و ارزیابیها دارد و عملکرد بهتری نسبت به Claude 3 Opus ارائه میدهد.
-
Claude 3 Opus: مدلی بسیار هوشمند با عملکرد پایدار در وظایف پیچیده، توانمند در مدیریت پرامپتهای باز و سناریوهای پیشبینینشده با روانی و درک انسانی بالا.
-
Claude 3 Haiku: سریعترین و فشردهترین مدل Anthropic با پاسخدهی تقریباً فوری، مناسب برای ایجاد تجربههای تعاملی روان.
Cohere
Cohere دو مدل زبانی بزرگ دارد: یکی مدل تولید متن با قابلیتهایی مشابه GPT-3 و دیگری مدل بازنمایی برای درک زبان. با وجود اینکه Cohere تنها ۵۲ میلیارد پارامتر دارد، در بسیاری از زمینهها از GPT-3 بهتر عمل میکند.
Stable Diffusion
Stable Diffusion یک مدل متن به تصویر است که میتواند تصاویر واقعگرایانه با وضوح بالا تولید کند. این مدل در سال ۲۰۲۲ عرضه شد و از یک مدل انتشار (Diffusion) با فناوریهای نویزگذاری و حذف نویز برای یادگیری ساخت تصویر استفاده میکند. این مدل نسبت به فناوریهای مشابه مانند DALL-E 2 کوچکتر است و میتواند روی یک کارت گرافیک معمولی یا حتی گوشی هوشمند با پلتفرم Snapdragon Gen2 اجرا شود.
BLOOM
BLOOM یک مدل چندزبانه با معماری مشابه GPT-3 است که در سال ۲۰۲۲ با همکاری بیش از هزار دانشمند و تیم Hugging Face توسعه یافت. این مدل ۱۷۶ میلیارد پارامتر دارد و آموزش آن سه و نیم ماه طول کشید و از ۳۸۴ کارت گرافیک Nvidia A100 استفاده شد. BLOOM میتواند به ۴۶ زبان متن تولید کند و به ۱۳ زبان برنامهنویسی کد بنویسد.
Hugging Face
Hugging Face یک پلتفرم ارائهدهنده ابزارهای متنباز برای ساخت و استقرار مدلهای یادگیری ماشین است. این پلتفرم بهعنوان یک مرکز جامعهمحور عمل میکند و توسعهدهندگان میتوانند مدلها و مجموعهدادهها را به اشتراک گذاشته یا مرور کنند. عضویت فردی رایگان است، اما اشتراکهای پولی دسترسیهای بیشتری فراهم میکنند.
چالشهای مدلهای پایه چیست؟
مدلهای پایه میتوانند به طور منسجم به دستورات مربوط به موضوعاتی که به طور صریح روی آنها آموزش ندیدهاند پاسخ دهند. اما نقاط ضعفی نیز دارند. در اینجا برخی از چالشهای پیش روی مدلهای پایه آورده شده است:
- الزامات زیرساختی. ساخت یک مدل پایه از ابتدا پرهزینه است و به منابع عظیمی نیاز دارد و آموزش ممکن است ماهها طول بکشد.
- توسعه فرانتاند. برای کاربردهای عملی، توسعهدهندگان باید مدلهای پایه را در یک پشته نرمافزاری، از جمله ابزارهای مهندسی دستور، تنظیم دقیق و مهندسی خط لوله، ادغام کنند.
- فقدان درک. اگرچه آنها میتوانند پاسخهای گرامری و از نظر واقعی صحیح ارائه دهند، اما مدلهای پایه در درک زمینه یک دستور مشکل دارند و از نظر اجتماعی یا روانشناختی آگاه نیستند.
- پاسخهای غیرقابل اعتماد. پاسخ به سؤالات در مورد موضوعات خاص ممکن است غیرقابل اعتماد و گاهی نامناسب، سمی یا نادرست باشد.
- جانبداری. جانبداری یک احتمال قوی است زیرا مدلها میتوانند گفتار نفرتانگیز و اشارات نامناسب را از مجموعه دادههای آموزشی دریافت کنند. برای جلوگیری از این امر، توسعهدهندگان باید دادههای آموزشی را با دقت فیلتر کرده و هنجارهای خاصی را در مدلهای خود کدگذاری کنند.