مدل پایه (Foundation Model) چیست؟

مدل پایه (Foundation Model) چیست؟

مدل پایه چیست؟

مدل‌های پایه (Foundation Models یا به اختصار FMs) که بر روی مجموعه‌داده‌های بسیار بزرگ آموزش دیده‌اند، شبکه‌های عصبی یادگیری عمیق در مقیاس وسیع هستند که رویکرد دانشمندان داده به یادگیری ماشین (ML) را متحول کرده‌اند. به جای توسعه هوش مصنوعی (AI) از صفر، دانشمندان داده از یک مدل پایه به‌عنوان نقطه شروع استفاده می‌کنند تا مدل‌های یادگیری ماشینی را سریع‌تر و مقرون‌به‌صرفه‌تر برای کاربردهای جدید توسعه دهند. اصطلاح «مدل پایه» توسط پژوهشگران برای توصیف مدل‌های یادگیری ماشینی ابداع شد که بر اساس طیف گسترده‌ای از داده‌های عمومی و بدون برچسب آموزش دیده‌اند و قادرند انواع گوناگونی از وظایف عمومی مانند درک زبان، تولید متن و تصویر و مکالمه به زبان طبیعی را انجام دهند.

ویژگی منحصربه‌فرد مدل‌های پایه چیست؟

یکی از ویژگی‌های متمایز مدل‌های پایه، «سازگاری» آن‌هاست. این مدل‌ها می‌توانند با دقت بالا طیف وسیعی از وظایف متفاوت را بر اساس ورودی‌های متنی (پرامپت) انجام دهند. برخی از این وظایف شامل پردازش زبان طبیعی (NLP)، پاسخ به پرسش‌ها و طبقه‌بندی تصاویر است. اندازه و ماهیت عمومی مدل‌های پایه، آن‌ها را از مدل‌های سنتی یادگیری ماشین که معمولاً برای وظایف خاصی مانند تحلیل احساسات متن، دسته‌بندی تصاویر یا پیش‌بینی روندها ساخته می‌شوند، متمایز می‌کند.

شما می‌توانید از مدل‌های پایه به‌عنوان مدل مرجع برای توسعه برنامه‌های تخصصی‌تر استفاده کنید. این مدل‌ها نتیجه بیش از یک دهه کار هستند که طی آن اندازه و پیچیدگی‌شان به شکل چشمگیری افزایش یافته است.

به عنوان مثال، BERT که یکی از نخستین مدل‌های پایه دوسویه بود، در سال ۲۰۱۸ منتشر شد و با ۳۴۰ میلیون پارامتر و یک مجموعه داده آموزشی ۱۶ گیگابایتی آموزش دید. تنها پنج سال بعد، در سال ۲۰۲۳، OpenAI مدل GPT-4 را با ۱۷۰ تریلیون پارامتر و یک مجموعه داده آموزشی ۴۵ گیگابایتی آموزش داد. طبق اعلام OpenAI، توان محاسباتی مورد نیاز برای مدل‌سازی پایه از سال ۲۰۱۲ هر ۳.۴ ماه دو برابر شده است. مدل‌های پایه امروزی مانند مدل‌های زبانی بزرگ (LLM) از جمله Claude 2 و Llama 2، و مدل متن به تصویر Stable Diffusion از Stability AI، قادرند بدون نیاز به آموزش اضافی، مجموعه‌ای از وظایف را در حوزه‌های مختلف انجام دهند؛ از جمله نوشتن پست‌های وبلاگ، تولید تصویر، حل مسائل ریاضی، مکالمه، و پاسخ‌گویی به پرسش‌ها بر اساس یک سند.

چرا مدل‌سازی پایه اهمیت دارد؟

مدل‌های پایه می‌توانند چرخه عمر یادگیری ماشین را به شکل چشمگیری تغییر دهند. اگرچه در حال حاضر توسعه یک مدل پایه از صفر میلیون‌ها دلار هزینه دارد، اما در بلندمدت ارزشمند هستند. استفاده از مدل‌های پایه از پیش آموزش‌دیده برای توسعه برنامه‌های جدید یادگیری ماشین، سریع‌تر و ارزان‌تر از آموزش مدل‌های منحصر‌به‌فرد از ابتدا است.

یکی از کاربردهای بالقوه، خودکارسازی وظایف و فرایندهاست، به‌ویژه آن‌هایی که نیاز به قابلیت استدلال دارند. چند نمونه از کاربردهای مدل‌های پایه عبارتند از:

  • پشتیبانی مشتری
  • ترجمه زبان
  • تولید محتوا
  • کپی‌رایتینگ
  • طبقه‌بندی تصاویر
  • ایجاد و ویرایش تصاویر با وضوح بالا
  • استخراج اسناد
  • رباتیک
  • بهداشت و درمان
  • وسایل نقلیه خودران

مدل‌های پایه چگونه کار می‌کنند؟

مدل‌های پایه نوعی از هوش مصنوعی مولد (Generative AI) هستند. آن‌ها بر اساس یک یا چند ورودی (پرامپت) خروجی تولید می‌کنند که می‌تواند به شکل دستورالعمل‌های زبان انسانی باشد. این مدل‌ها بر پایه شبکه‌های عصبی پیچیده‌ای ساخته شده‌اند که شامل شبکه‌های مولد رقابتی (GANs)، ترنسفورمرها و رمزگذارهای واریاسیونی هستند.

اگرچه هر نوع شبکه به شکل متفاوتی عمل می‌کند، اصول کلی کارکرد آن‌ها مشابه است. به طور کلی، یک مدل پایه از الگوها و روابطی که آموخته است برای پیش‌بینی آیتم بعدی در یک توالی استفاده می‌کند. برای مثال، در تولید تصویر، مدل تصویر را تحلیل کرده و نسخه‌ای واضح‌تر و با جزئیات بیشتر از آن ایجاد می‌کند. به همین ترتیب، در متن، مدل بر اساس کلمات قبلی و زمینه آن‌ها، کلمه بعدی را پیش‌بینی کرده و با استفاده از توزیع احتمالاتی آن را انتخاب می‌کند.

مدل‌های پایه از «یادگیری خودنظارتی» (Self-Supervised Learning) استفاده می‌کنند تا از داده‌های ورودی برچسب ایجاد کنند. این بدان معناست که هیچ‌کس مدل را با مجموعه داده‌های برچسب‌دار آموزش نداده است. این ویژگی، مدل‌های زبانی بزرگ را از معماری‌های قبلی یادگیری ماشین که از یادگیری نظارت‌شده یا بدون‌نظارت استفاده می‌کردند، متمایز می‌کند.

مدل‌های پایه چه توانایی‌هایی دارند؟

مدل‌های پایه، با وجود اینکه از پیش آموزش دیده‌اند، می‌توانند در طول استنتاج از داده‌های ورودی یا دستورات به یادگیری ادامه دهند. این بدان معناست که شما می‌توانید از طریق دستورات با دقت تنظیم شده، خروجی‌های جامعی تولید کنید. وظایفی که مدل‌های پایه می‌توانند انجام دهند شامل پردازش زبان، درک بصری، تولید کد و تعامل انسان‌محور است.

پردازش زبان

این مدل‌ها قابلیت‌های قابل توجهی در پاسخ دادن به سؤالات به زبان طبیعی و حتی توانایی نوشتن فیلمنامه‌ها یا مقالات کوتاه در پاسخ به دستورات دارند. آن‌ها همچنین می‌توانند زبان‌ها را با استفاده از فناوری‌های پردازش زبان طبیعی (NLP) ترجمه کنند.

درک بصری

مدل‌های پایه در بینایی کامپیوتر، به ویژه در زمینه شناسایی تصاویر و اشیاء فیزیکی، برتری دارند. این قابلیت‌ها ممکن است در کاربردهایی مانند رانندگی خودران و رباتیک مورد استفاده قرار گیرند. یکی دیگر از قابلیت‌ها، تولید تصاویر از متن ورودی و همچنین ویرایش عکس و فیلم است.

تولید کد

مدل‌های پایه می‌توانند کد کامپیوتر را در زبان‌های برنامه‌نویسی مختلف بر اساس ورودی‌های زبان طبیعی تولید کنند. همچنین استفاده از مدل‌های پایه برای ارزیابی و اشکال‌زدایی کد امکان‌پذیر است. درباره تولید کد با هوش مصنوعی بیشتر بدانید.

تعامل انسان‌محور

مدل‌های هوش مصنوعی مولد از ورودی‌های انسانی برای یادگیری و بهبود پیش‌بینی‌ها استفاده می‌کنند. یک کاربرد مهم و گاهی نادیده گرفته شده، توانایی این مدل‌ها در پشتیبانی از تصمیم‌گیری انسانی است. کاربردهای بالقوه شامل تشخیص‌های بالینی، سیستم‌های پشتیبانی تصمیم و تجزیه و تحلیل است.یکی دیگر از قابلیت‌ها، توسعه برنامه‌های کاربردی جدید هوش مصنوعی با تنظیم دقیق مدل‌های پایه موجود است.

تبدیل گفتار به متن

از آنجایی که مدل‌های پایه زبان را درک می‌کنند، می‌توان از آن‌ها برای وظایف تبدیل گفتار به متن مانند رونویسی و زیرنویس‌گذاری ویدیو به زبان‌های مختلف استفاده کرد.

نمونه‌هایی از مدل‌های پایه کدامند؟

تعداد و اندازه مدل‌های پایه موجود در بازار با سرعت زیادی رشد کرده است. در حال حاضر ده‌ها مدل در دسترس است. در اینجا لیستی از مدل‌های پایه برجسته منتشر شده از سال ۲۰۱۸ آورده شده است:

تعداد و اندازه مدل‌های پایه موجود در بازار با سرعت زیادی افزایش یافته است و اکنون ده‌ها مدل در دسترس هستند. در ادامه فهرستی از مدل‌های شاخصی که از سال ۲۰۱۸ منتشر شده‌اند، آمده است.

BERT
منتشرشده در سال ۲۰۱۸، Bidirectional Encoder Representations from Transformers (BERT) یکی از اولین مدل‌های پایه بود. BERT یک مدل دوسویه است که با تحلیل کل یک دنباله، پیش‌بینی انجام می‌دهد. این مدل با استفاده از یک مجموعه متن ساده و ویکی‌پدیا و با ۳.۳ میلیارد توکن (کلمه) و ۳۴۰ میلیون پارامتر آموزش داده شد. BERT می‌تواند به پرسش‌ها پاسخ دهد، جملات را پیش‌بینی کند و متون را ترجمه کند.

GPT
مدل Generative Pre-trained Transformer (GPT) توسط OpenAI در سال ۲۰۱۸ توسعه یافت. این مدل از یک دیکودر ترنسفورمر ۱۲ لایه با مکانیزم توجه به خود (Self-Attention) استفاده می‌کند و بر روی مجموعه داده BookCorpus، شامل بیش از ۱۱٬۰۰۰ رمان رایگان، آموزش داده شد. یکی از ویژگی‌های قابل توجه GPT-1، توانایی یادگیری بدون نمونه (Zero-Shot Learning) است.

GPT-2 در سال ۲۰۱۹ منتشر شد. OpenAI آن را با ۱.۵ میلیارد پارامتر آموزش داد (در مقایسه با ۱۱۷ میلیون پارامتر در GPT-1). GPT-3 دارای یک شبکه عصبی ۹۶ لایه و ۱۷۵ میلیارد پارامتر است و با استفاده از مجموعه داده Common Crawl با ۵۰۰ میلیارد کلمه آموزش داده شد. چت‌بات محبوب ChatGPT بر اساس GPT-3.5 ساخته شده است. GPT-4، آخرین نسخه، در اواخر ۲۰۲۲ عرضه شد و توانست در آزمون Uniform Bar Examination امتیاز ۲۹۷ (۷۶٪) کسب کند.

Amazon Nova
Amazon Nova نسل جدیدی از مدل‌های پایه پیشرفته (SOTA) است که هوش مرزی و عملکرد قیمت-کیفیت برتر را ارائه می‌دهد.

  • Amazon Nova Micro، Amazon Nova Lite و Amazon Nova Pro مدل‌های درک‌کننده هستند که ورودی‌های متنی، تصویری و ویدیویی را دریافت کرده و خروجی متنی تولید می‌کنند. این مدل‌ها طیفی گسترده از قابلیت‌ها، دقت، سرعت و هزینه را پوشش می‌دهند.

  • Amazon Nova Canvas و Amazon Nova Reel مدل‌های تولید محتوای خلاقانه هستند که ورودی متنی و تصویری را دریافت کرده و خروجی تصویر یا ویدیو تولید می‌کنند. این مدل‌ها برای تولید تصاویر و ویدیوهای سفارشی با کیفیت بالا طراحی شده‌اند.

AI21 Jurassic
در سال ۲۰۲۱، مدل Jurassic-1 منتشر شد. این مدل زبانی خودرگرسیو ۷۶ لایه با ۱۷۸ میلیارد پارامتر است که متن انسانی‌مانند تولید کرده و مسائل پیچیده را حل می‌کند. عملکرد آن با GPT-3 قابل مقایسه است.

در مارس ۲۰۲۳، AI21 Labs نسخه Jurassic-2 را منتشر کرد که قابلیت‌های بهبود یافته در پیروی از دستورها و توانایی‌های زبانی دارد.

Claude

  • Claude 3.5 Sonnet: پیشرفته‌ترین مدل Anthropic که توانایی‌های استثنایی در طیف متنوعی از وظایف و ارزیابی‌ها دارد و عملکرد بهتری نسبت به Claude 3 Opus ارائه می‌دهد.

  • Claude 3 Opus: مدلی بسیار هوشمند با عملکرد پایدار در وظایف پیچیده، توانمند در مدیریت پرامپت‌های باز و سناریوهای پیش‌بینی‌نشده با روانی و درک انسانی بالا.

  • Claude 3 Haiku: سریع‌ترین و فشرده‌ترین مدل Anthropic با پاسخ‌دهی تقریباً فوری، مناسب برای ایجاد تجربه‌های تعاملی روان.

Cohere
Cohere دو مدل زبانی بزرگ دارد: یکی مدل تولید متن با قابلیت‌هایی مشابه GPT-3 و دیگری مدل بازنمایی برای درک زبان. با وجود اینکه Cohere تنها ۵۲ میلیارد پارامتر دارد، در بسیاری از زمینه‌ها از GPT-3 بهتر عمل می‌کند.

Stable Diffusion
Stable Diffusion یک مدل متن به تصویر است که می‌تواند تصاویر واقع‌گرایانه با وضوح بالا تولید کند. این مدل در سال ۲۰۲۲ عرضه شد و از یک مدل انتشار (Diffusion) با فناوری‌های نویزگذاری و حذف نویز برای یادگیری ساخت تصویر استفاده می‌کند. این مدل نسبت به فناوری‌های مشابه مانند DALL-E 2 کوچک‌تر است و می‌تواند روی یک کارت گرافیک معمولی یا حتی گوشی هوشمند با پلتفرم Snapdragon Gen2 اجرا شود.

BLOOM
BLOOM یک مدل چندزبانه با معماری مشابه GPT-3 است که در سال ۲۰۲۲ با همکاری بیش از هزار دانشمند و تیم Hugging Face توسعه یافت. این مدل ۱۷۶ میلیارد پارامتر دارد و آموزش آن سه و نیم ماه طول کشید و از ۳۸۴ کارت گرافیک Nvidia A100 استفاده شد. BLOOM می‌تواند به ۴۶ زبان متن تولید کند و به ۱۳ زبان برنامه‌نویسی کد بنویسد.

Hugging Face
Hugging Face یک پلتفرم ارائه‌دهنده ابزارهای متن‌باز برای ساخت و استقرار مدل‌های یادگیری ماشین است. این پلتفرم به‌عنوان یک مرکز جامعه‌محور عمل می‌کند و توسعه‌دهندگان می‌توانند مدل‌ها و مجموعه‌داده‌ها را به اشتراک گذاشته یا مرور کنند. عضویت فردی رایگان است، اما اشتراک‌های پولی دسترسی‌های بیشتری فراهم می‌کنند.

چالش‌های مدل‌های پایه چیست؟

مدل‌های پایه می‌توانند به طور منسجم به دستورات مربوط به موضوعاتی که به طور صریح روی آن‌ها آموزش ندیده‌اند پاسخ دهند. اما نقاط ضعفی نیز دارند. در اینجا برخی از چالش‌های پیش روی مدل‌های پایه آورده شده است:

  • الزامات زیرساختی. ساخت یک مدل پایه از ابتدا پرهزینه است و به منابع عظیمی نیاز دارد و آموزش ممکن است ماه‌ها طول بکشد.
  • توسعه فرانت‌اند. برای کاربردهای عملی، توسعه‌دهندگان باید مدل‌های پایه را در یک پشته نرم‌افزاری، از جمله ابزارهای مهندسی دستور، تنظیم دقیق و مهندسی خط لوله، ادغام کنند.
  • فقدان درک. اگرچه آن‌ها می‌توانند پاسخ‌های گرامری و از نظر واقعی صحیح ارائه دهند، اما مدل‌های پایه در درک زمینه یک دستور مشکل دارند و از نظر اجتماعی یا روانشناختی آگاه نیستند.
  • پاسخ‌های غیرقابل اعتماد. پاسخ به سؤالات در مورد موضوعات خاص ممکن است غیرقابل اعتماد و گاهی نامناسب، سمی یا نادرست باشد.
  • جانبداری. جانبداری یک احتمال قوی است زیرا مدل‌ها می‌توانند گفتار نفرت‌انگیز و اشارات نامناسب را از مجموعه‌ داده‌های آموزشی دریافت کنند. برای جلوگیری از این امر، توسعه‌دهندگان باید داده‌های آموزشی را با دقت فیلتر کرده و هنجارهای خاصی را در مدل‌های خود کدگذاری کنند.
هوش مصنوعی مکالمه‌ای (Conversational AI) چیست؟
مدل‌های خودرگرسیو (Autoregressive Models) چه هستند؟

دیدگاهتان را بنویسید

سبد خرید
علاقه‌مندی‌ها
مشاهدات اخیر
دسته بندی ها