مدل پایه چیست؟
مدلهای پایه (Foundation Models یا FMs)، شبکههای عصبی عمیق و بزرگ هستند که بر روی مجموعه دادههای عظیم آموزش داده شدهاند و روش دانشمندان داده در رویکرد به یادگیری ماشین (ML) را تغییر دادهاند. به جای توسعه هوش مصنوعی (AI) از ابتدا، دانشمندان داده از یک مدل پایه به عنوان نقطه شروع برای توسعه مدلهای یادگیری ماشین استفاده میکنند که برنامههای کاربردی جدید را سریعتر و مقرون به صرفهتر به کار میاندازند. اصطلاح “مدل پایه” توسط محققان برای توصیف مدلهای یادگیری ماشین ابداع شد که بر روی طیف گستردهای از دادههای کلی و بدون برچسب آموزش داده شدهاند و قادر به انجام طیف وسیعی از وظایف عمومی مانند درک زبان، تولید متن و تصویر و مکالمه به زبان طبیعی هستند.
چه چیزی در مورد مدلهای پایه منحصر به فرد است؟
یکی از ویژگیهای منحصر به فرد مدلهای پایه، قابلیت انطباق آنها است. این مدلها میتوانند طیف وسیعی از وظایف ناهمگن را با دقت بالایی بر اساس دستورات ورودی انجام دهند. برخی از این وظایف شامل پردازش زبان طبیعی (NLP)، پاسخگویی به سؤالات و طبقهبندی تصاویر است. اندازه و ماهیت چندمنظوره مدلهای پایه آنها را از مدلهای یادگیری ماشین سنتی متمایز میکند، که معمولاً وظایف خاصی مانند تجزیه و تحلیل متن برای تشخیص احساسات، طبقهبندی تصاویر و پیشبینی روندها را انجام میدهند.شما میتوانید از مدلهای پایه به عنوان مدلهای اساسی برای توسعه برنامههای کاربردی تخصصیتر استفاده کنید. این مدلها اوج بیش از یک دهه کار هستند که شاهد افزایش اندازه و پیچیدگی آنها بوده است.به عنوان مثال، BERT، یکی از اولین مدلهای پایه دوطرفه، در سال ۲۰۱۸ منتشر شد. این مدل با استفاده از ۳۴۰ میلیون پارامتر و یک مجموعه داده آموزشی ۱۶ گیگابایتی آموزش داده شد. در سال ۲۰۲۳، تنها پنج سال بعد، OpenAI مدل GPT-4 را با استفاده از ۱۷۰ تریلیون پارامتر و یک مجموعه داده آموزشی ۴۵ گیگابایتی آموزش داد. به گفته OpenAI، قدرت محاسباتی مورد نیاز برای مدلسازی پایه از سال ۲۰۱۲ هر ۳.۴ ماه دو برابر شده است. مدلهای پایه امروزی، مانند مدلهای زبانی بزرگ (LLM) Claude 2 و Llama 2، و مدل تبدیل متن به تصویر Stable Diffusion از Stability AI، میتوانند طیف وسیعی از وظایف را به صورت آماده و در حوزههای مختلف انجام دهند، مانند نوشتن پستهای وبلاگ، تولید تصاویر، حل مسائل ریاضی، شرکت در گفتگو و پاسخ دادن به سؤالات بر اساس یک سند.
چرا مدلسازی پایه مهم است؟
مدلهای پایه آمادهاند تا چرخه عمر یادگیری ماشین را به طور قابل توجهی تغییر دهند. اگرچه در حال حاضر توسعه یک مدل پایه از ابتدا میلیونها دلار هزینه دارد، اما در بلندمدت مفید هستند. استفاده از مدلهای پایه از پیش آموزش دیده برای توسعه برنامههای کاربردی جدید یادگیری ماشین، به جای آموزش مدلهای یادگیری ماشین منحصر به فرد از پایه، سریعتر و ارزانتر برای دانشمندان داده است.یکی از کاربردهای بالقوه، خودکارسازی وظایف و فرآیندها، به ویژه آنهایی است که به قابلیتهای استدلال نیاز دارند. در اینجا چند نمونه از کاربردهای مدلهای پایه آورده شده است:
- پشتیبانی مشتری
- ترجمه زبان
- تولید محتوا
- کپیرایتینگ
- طبقهبندی تصاویر
- ایجاد و ویرایش تصاویر با وضوح بالا
- استخراج اسناد
- رباتیک
- بهداشت و درمان
- وسایل نقلیه خودران
مدلهای پایه چگونه کار میکنند؟
مدلهای پایه نوعی هوش مصنوعی مولد (generative AI) هستند. آنها از یک یا چند ورودی (دستور) خروجی تولید میکنند که به شکل دستورالعملهای زبان انسانی است. این مدلها بر اساس شبکههای عصبی پیچیده از جمله شبکههای مولد تخاصمی (GANs)، ترانسفورمرها و رمزگذارهای واریانس ساخته شدهاند.اگرچه هر نوع شبکه به طور متفاوتی عمل میکند، اما اصول عملکرد آنها مشابه است. به طور کلی، یک مدل پایه از الگوها و روابط آموخته شده برای پیشبینی مورد بعدی در یک دنباله استفاده میکند. به عنوان مثال، در تولید تصویر، مدل تصویر را تجزیه و تحلیل میکند و یک نسخه واضحتر و دقیقتر از آن ایجاد میکند. به طور مشابه، در متن، مدل کلمه بعدی در یک رشته متن را بر اساس کلمات قبلی و زمینه آن پیشبینی میکند. سپس کلمه بعدی را با استفاده از تکنیکهای توزیع احتمال انتخاب میکند.مدلهای پایه از یادگیری خود-نظارتی برای ایجاد برچسب از دادههای ورودی استفاده میکنند. این بدان معناست که هیچکس مدل را با مجموعه دادههای آموزشی برچسبگذاری شده آموزش نداده است. این ویژگی مدلهای زبانی بزرگ را از معماریهای یادگیری ماشین قبلی که از یادگیری نظارتی یا بدون نظارت استفاده میکردند، متمایز میکند.
مدلهای پایه چه کارهایی میتوانند انجام دهند؟
مدلهای پایه، با وجود اینکه از پیش آموزش دیدهاند، میتوانند در طول استنتاج از دادههای ورودی یا دستورات به یادگیری ادامه دهند. این بدان معناست که شما میتوانید از طریق دستورات با دقت تنظیم شده، خروجیهای جامعی تولید کنید. وظایفی که مدلهای پایه میتوانند انجام دهند شامل پردازش زبان، درک بصری، تولید کد و تعامل انسانمحور است.
پردازش زبان
این مدلها قابلیتهای قابل توجهی در پاسخ دادن به سؤالات به زبان طبیعی و حتی توانایی نوشتن فیلمنامهها یا مقالات کوتاه در پاسخ به دستورات دارند. آنها همچنین میتوانند زبانها را با استفاده از فناوریهای پردازش زبان طبیعی (NLP) ترجمه کنند.
درک بصری
مدلهای پایه در بینایی کامپیوتر، به ویژه در زمینه شناسایی تصاویر و اشیاء فیزیکی، برتری دارند. این قابلیتها ممکن است در کاربردهایی مانند رانندگی خودران و رباتیک مورد استفاده قرار گیرند. یکی دیگر از قابلیتها، تولید تصاویر از متن ورودی و همچنین ویرایش عکس و فیلم است.
تولید کد
مدلهای پایه میتوانند کد کامپیوتر را در زبانهای برنامهنویسی مختلف بر اساس ورودیهای زبان طبیعی تولید کنند. همچنین استفاده از مدلهای پایه برای ارزیابی و اشکالزدایی کد امکانپذیر است. درباره تولید کد با هوش مصنوعی بیشتر بدانید.
تعامل انسانمحور
مدلهای هوش مصنوعی مولد از ورودیهای انسانی برای یادگیری و بهبود پیشبینیها استفاده میکنند. یک کاربرد مهم و گاهی نادیده گرفته شده، توانایی این مدلها در پشتیبانی از تصمیمگیری انسانی است. کاربردهای بالقوه شامل تشخیصهای بالینی، سیستمهای پشتیبانی تصمیم و تجزیه و تحلیل است.یکی دیگر از قابلیتها، توسعه برنامههای کاربردی جدید هوش مصنوعی با تنظیم دقیق مدلهای پایه موجود است.
تبدیل گفتار به متن
از آنجایی که مدلهای پایه زبان را درک میکنند، میتوان از آنها برای وظایف تبدیل گفتار به متن مانند رونویسی و زیرنویسگذاری ویدیو به زبانهای مختلف استفاده کرد.
نمونههایی از مدلهای پایه کدامند؟
تعداد و اندازه مدلهای پایه موجود در بازار با سرعت زیادی رشد کرده است. در حال حاضر دهها مدل در دسترس است. در اینجا لیستی از مدلهای پایه برجسته منتشر شده از سال ۲۰۱۸ آورده شده است:
- BERT مدل BERT (Bidirectional Encoder Representations from Transformers) که در سال ۲۰۱۸ منتشر شد، یکی از اولین مدلهای پایه بود. BERT یک مدل دوطرفه است که زمینه یک دنباله کامل را تجزیه و تحلیل میکند و سپس یک پیشبینی انجام میدهد. این مدل با استفاده از یک مجموعه متنی ساده و ویکیپدیا با ۳.۳ میلیارد توکن (کلمه) و ۳۴۰ میلیون پارامتر آموزش داده شد. BERT میتواند به سؤالات پاسخ دهد، جملات را پیشبینی کند و متون را ترجمه کند.
- GPT مدل GPT (Generative Pre-trained Transformer) توسط OpenAI در سال ۲۰۱۸ توسعه داده شد. این مدل از یک رمزگشای ترانسفورمر ۱۲ لایه با مکانیسم خود-توجه استفاده میکند و بر روی مجموعه داده BookCorpus، که شامل بیش از ۱۱۰۰۰ رمان رایگان است، آموزش داده شده است. یکی از ویژگیهای قابل توجه GPT-1، توانایی انجام یادگیری صفر-شات است. GPT-2 در سال ۲۰۱۹ منتشر شد. OpenAI آن را با استفاده از ۱.۵ میلیارد پارامتر (در مقایسه با ۱۱۷ میلیون پارامتر استفاده شده در GPT-1) آموزش داد. GPT-3 دارای یک شبکه عصبی ۹۶ لایه و ۱۷۵ میلیارد پارامتر است و با استفاده از مجموعه داده Common Crawl با ۵۰۰ میلیارد کلمه آموزش داده شده است. ربات گفتگو محبوب ChatGPT مبتنی بر GPT-3.5 است. و GPT-4، آخرین نسخه، در اواخر سال ۲۰۲۲ عرضه شد و با موفقیت آزمون وکالت یکنواخت را با نمره ۲۹۷ (۷۶%) گذراند.
- Amazon Nova Amazon Nova نسل جدیدی از مدلهای پایه پیشرفته (SOTA) است که هوش برتر و عملکرد قیمتی پیشرو در صنعت را ارائه میدهد. Amazon Nova Micro، Amazon Nova Lite و Amazon Nova Pro مدلهای درککنندهای هستند که ورودیهای متنی، تصویری و ویدیویی را میپذیرند و خروجی متنی تولید میکنند. آنها طیف گستردهای از قابلیتها، دقت، سرعت و نقاط عملکرد هزینه را ارائه میدهند. درباره مدلهای درککننده Amazon Nova بیشتر بدانید. Amazon Nova Canvas و Amazon Nova Reel مدلهای تولید محتوای خلاقانه هستند که ورودیهای متنی و تصویری را میپذیرند و خروجیهای تصویری یا ویدیویی تولید میکنند. آنها برای ارائه تصاویر و ویدیوهای با کیفیت بالا و قابل تنظیم برای تولید محتوای بصری طراحی شدهاند. درباره مدلهای تولید محتوای خلاقانه Amazon Nova بیشتر بدانید.
- AI21 Jurassic Jurassic-1 که در سال ۲۰۲۱ منتشر شد، یک مدل زبانی خود-رگرسیو ۷۶ لایه با ۱۷۸ میلیارد پارامتر است. Jurassic-1 متن شبیه به انسان تولید میکند و وظایف پیچیده را حل میکند. عملکرد آن با GPT-3 قابل مقایسه است. در مارس ۲۰۲۳، AI21 Labs مدل Jurassic-2 را منتشر کرد که قابلیتهای دنبال کردن دستورالعمل و زبان آن بهبود یافته است.
- Claude
- Claude 3.5 Sonnet هوشمندترین و پیشرفتهترین مدل Anthropic، Claude 3.5 Sonnet، قابلیتهای استثنایی را در طیف متنوعی از وظایف و ارزیابیها نشان میدهد و در عین حال از Claude 3 Opus نیز بهتر عمل میکند.
- Claude 3 Opus Opus یک مدل بسیار هوشمند با عملکرد قابل اعتماد در وظایف پیچیده است. این مدل میتواند دستورات باز و سناریوهای دیده نشده را با روانی قابل توجه و درک شبیه به انسان هدایت کند. از Opus برای خودکارسازی وظایف و تسریع تحقیق و توسعه در طیف متنوعی از موارد استفاده و صنایع استفاده کنید.
- Claude 3 Haiku Haiku سریعترین و کوچکترین مدل Anthropic برای پاسخگویی تقریباً فوری است. Haiku بهترین انتخاب برای ساخت تجربیات هوش مصنوعی یکپارچه است که تعاملات انسانی را تقلید میکنند. شرکتها میتوانند از Haiku برای تعدیل محتوا، بهینهسازی مدیریت موجودی، تولید ترجمههای سریع و دقیق، خلاصه کردن دادههای بدون ساختار و موارد دیگر استفاده کنند.
- Cohere Cohere دو مدل زبانی بزرگ (LLM) دارد: یکی مدل تولیدکننده با قابلیتهای مشابه GPT-3 و دیگری مدل نمایشی که برای درک زبانها طراحی شده است. در حالی که Cohere تنها ۵۲ میلیارد پارامتر دارد، در بسیاری از جنبهها از GPT-3 بهتر عمل میکند.
- Stable Diffusion Stable Diffusion یک مدل تبدیل متن به تصویر است که میتواند تصاویر با کیفیت بالا و با ظاهر واقعگرایانه تولید کند. این مدل در سال ۲۰۲۲ منتشر شد و دارای یک مدل انتشار است که از فناوریهای نویزدهی و حذف نویز برای یادگیری نحوه ایجاد تصاویر استفاده میکند. این مدل کوچکتر از فناوریهای انتشار رقیب مانند DALL-E 2 است، به این معنی که به زیرساخت محاسباتی گستردهای نیاز ندارد. Stable Diffusion روی یک کارت گرافیک معمولی یا حتی روی یک گوشی هوشمند با پلتفرم Snapdragon Gen2 اجرا میشود. درباره Stable Diffusion بیشتر بخوانید »
- BLOOM BLOOM یک مدل چند زبانه با معماری مشابه GPT-3 است. این مدل در سال ۲۰۲۲ به عنوان یک تلاش مشترک با مشارکت بیش از هزار دانشمند و تیم Hugging Space توسعه داده شد. این مدل دارای ۱۷۶ میلیارد پارامتر است و آموزش آن با استفاده از ۳۸۴ پردازنده گرافیکی Nvidia A100 به مدت سه و نیم ماه طول کشید. اگرچه ایست بازرسی BLOOM به ۳۳۰ گیگابایت فضای ذخیرهسازی نیاز دارد، اما روی یک رایانه شخصی مستقل با ۱۶ گیگابایت رم اجرا میشود. BLOOM میتواند متن را به ۴۶ زبان ایجاد کند و کد را به ۱۳ زبان برنامهنویسی بنویسد.
- Hugging Face Hugging Face یک پلتفرم است که ابزارهای متن باز را برای ساخت و استقرار مدلهای یادگیری ماشین ارائه میدهد. این پلتفرم به عنوان یک مرکز اجتماعی عمل میکند و توسعهدهندگان میتوانند مدلها و مجموعه دادهها را به اشتراک بگذارند و کشف کنند. عضویت برای افراد رایگان است، اگرچه اشتراکهای پولی سطوح دسترسی بالاتری را ارائه میدهند. شما دسترسی عمومی به نزدیک به ۲۰۰۰۰۰ مدل و ۳۰۰۰۰ مجموعه داده دارید.
چالشهای مدلهای پایه چیست؟
مدلهای پایه میتوانند به طور منسجم به دستورات مربوط به موضوعاتی که به طور صریح روی آنها آموزش ندیدهاند پاسخ دهند. اما نقاط ضعفی نیز دارند. در اینجا برخی از چالشهای پیش روی مدلهای پایه آورده شده است:
- الزامات زیرساختی. ساخت یک مدل پایه از ابتدا پرهزینه است و به منابع عظیمی نیاز دارد و آموزش ممکن است ماهها طول بکشد.
- توسعه فرانتاند. برای کاربردهای عملی، توسعهدهندگان باید مدلهای پایه را در یک پشته نرمافزاری، از جمله ابزارهای مهندسی دستور، تنظیم دقیق و مهندسی خط لوله، ادغام کنند.
- فقدان درک. اگرچه آنها میتوانند پاسخهای گرامری و از نظر واقعی صحیح ارائه دهند، اما مدلهای پایه در درک زمینه یک دستور مشکل دارند و از نظر اجتماعی یا روانشناختی آگاه نیستند.
- پاسخهای غیرقابل اعتماد. پاسخ به سؤالات در مورد موضوعات خاص ممکن است غیرقابل اعتماد و گاهی نامناسب، سمی یا نادرست باشد.
- جانبداری. جانبداری یک احتمال قوی است زیرا مدلها میتوانند گفتار نفرتانگیز و اشارات نامناسب را از مجموعه دادههای آموزشی دریافت کنند. برای جلوگیری از این امر، توسعهدهندگان باید دادههای آموزشی را با دقت فیلتر کرده و هنجارهای خاصی را در مدلهای خود کدگذاری کنند.