مدل پایه (Foundation Model) چیست؟

مدل پایه (Foundation Model) چیست؟

مدل پایه چیست؟

مدل‌های پایه (Foundation Models یا FMs)، شبکه‌های عصبی عمیق و بزرگ هستند که بر روی مجموعه‌ داده‌های عظیم آموزش داده شده‌اند و روش دانشمندان داده در رویکرد به یادگیری ماشین (ML) را تغییر داده‌اند. به جای توسعه هوش مصنوعی (AI) از ابتدا، دانشمندان داده از یک مدل پایه به عنوان نقطه شروع برای توسعه مدل‌های یادگیری ماشین استفاده می‌کنند که برنامه‌های کاربردی جدید را سریع‌تر و مقرون به صرفه‌تر به کار می‌اندازند. اصطلاح “مدل پایه” توسط محققان برای توصیف مدل‌های یادگیری ماشین ابداع شد که بر روی طیف گسترده‌ای از داده‌های کلی و بدون برچسب آموزش داده شده‌اند و قادر به انجام طیف وسیعی از وظایف عمومی مانند درک زبان، تولید متن و تصویر و مکالمه به زبان طبیعی هستند.

چه چیزی در مورد مدل‌های پایه منحصر به فرد است؟

یکی از ویژگی‌های منحصر به فرد مدل‌های پایه، قابلیت انطباق آن‌ها است. این مدل‌ها می‌توانند طیف وسیعی از وظایف ناهمگن را با دقت بالایی بر اساس دستورات ورودی انجام دهند. برخی از این وظایف شامل پردازش زبان طبیعی (NLP)، پاسخگویی به سؤالات و طبقه‌بندی تصاویر است. اندازه و ماهیت چندمنظوره مدل‌های پایه آن‌ها را از مدل‌های یادگیری ماشین سنتی متمایز می‌کند، که معمولاً وظایف خاصی مانند تجزیه و تحلیل متن برای تشخیص احساسات، طبقه‌بندی تصاویر و پیش‌بینی روندها را انجام می‌دهند.شما می‌توانید از مدل‌های پایه به عنوان مدل‌های اساسی برای توسعه برنامه‌های کاربردی تخصصی‌تر استفاده کنید. این مدل‌ها اوج بیش از یک دهه کار هستند که شاهد افزایش اندازه و پیچیدگی آن‌ها بوده است.به عنوان مثال، BERT، یکی از اولین مدل‌های پایه دوطرفه، در سال ۲۰۱۸ منتشر شد. این مدل با استفاده از ۳۴۰ میلیون پارامتر و یک مجموعه داده آموزشی ۱۶ گیگابایتی آموزش داده شد. در سال ۲۰۲۳، تنها پنج سال بعد، OpenAI مدل GPT-4 را با استفاده از ۱۷۰ تریلیون پارامتر و یک مجموعه داده آموزشی ۴۵ گیگابایتی آموزش داد. به گفته OpenAI، قدرت محاسباتی مورد نیاز برای مدل‌سازی پایه از سال ۲۰۱۲ هر ۳.۴ ماه دو برابر شده است. مدل‌های پایه امروزی، مانند مدل‌های زبانی بزرگ (LLM) Claude 2 و Llama 2، و مدل تبدیل متن به تصویر Stable Diffusion از Stability AI، می‌توانند طیف وسیعی از وظایف را به صورت آماده و در حوزه‌های مختلف انجام دهند، مانند نوشتن پست‌های وبلاگ، تولید تصاویر، حل مسائل ریاضی، شرکت در گفتگو و پاسخ دادن به سؤالات بر اساس یک سند.

چرا مدل‌سازی پایه مهم است؟

مدل‌های پایه آماده‌اند تا چرخه عمر یادگیری ماشین را به طور قابل توجهی تغییر دهند. اگرچه در حال حاضر توسعه یک مدل پایه از ابتدا میلیون‌ها دلار هزینه دارد، اما در بلندمدت مفید هستند. استفاده از مدل‌های پایه از پیش آموزش دیده برای توسعه برنامه‌های کاربردی جدید یادگیری ماشین، به جای آموزش مدل‌های یادگیری ماشین منحصر به فرد از پایه، سریع‌تر و ارزان‌تر برای دانشمندان داده است.یکی از کاربردهای بالقوه، خودکارسازی وظایف و فرآیندها، به ویژه آن‌هایی است که به قابلیت‌های استدلال نیاز دارند. در اینجا چند نمونه از کاربردهای مدل‌های پایه آورده شده است:

  • پشتیبانی مشتری
  • ترجمه زبان
  • تولید محتوا
  • کپی‌رایتینگ
  • طبقه‌بندی تصاویر
  • ایجاد و ویرایش تصاویر با وضوح بالا
  • استخراج اسناد
  • رباتیک
  • بهداشت و درمان
  • وسایل نقلیه خودران

مدل‌های پایه چگونه کار می‌کنند؟

مدل‌های پایه نوعی هوش مصنوعی مولد (generative AI) هستند. آن‌ها از یک یا چند ورودی (دستور) خروجی تولید می‌کنند که به شکل دستورالعمل‌های زبان انسانی است. این مدل‌ها بر اساس شبکه‌های عصبی پیچیده از جمله شبکه‌های مولد تخاصمی (GANs)، ترانسفورمرها و رمزگذارهای واریانس ساخته شده‌اند.اگرچه هر نوع شبکه به طور متفاوتی عمل می‌کند، اما اصول عملکرد آن‌ها مشابه است. به طور کلی، یک مدل پایه از الگوها و روابط آموخته شده برای پیش‌بینی مورد بعدی در یک دنباله استفاده می‌کند. به عنوان مثال، در تولید تصویر، مدل تصویر را تجزیه و تحلیل می‌کند و یک نسخه واضح‌تر و دقیق‌تر از آن ایجاد می‌کند. به طور مشابه، در متن، مدل کلمه بعدی در یک رشته متن را بر اساس کلمات قبلی و زمینه آن پیش‌بینی می‌کند. سپس کلمه بعدی را با استفاده از تکنیک‌های توزیع احتمال انتخاب می‌کند.مدل‌های پایه از یادگیری خود-نظارتی برای ایجاد برچسب از داده‌های ورودی استفاده می‌کنند. این بدان معناست که هیچ‌کس مدل را با مجموعه‌ داده‌های آموزشی برچسب‌گذاری شده آموزش نداده است. این ویژگی مدل‌های زبانی بزرگ را از معماری‌های یادگیری ماشین قبلی که از یادگیری نظارتی یا بدون نظارت استفاده می‌کردند، متمایز می‌کند.

مدل‌های پایه چه کارهایی می‌توانند انجام دهند؟

مدل‌های پایه، با وجود اینکه از پیش آموزش دیده‌اند، می‌توانند در طول استنتاج از داده‌های ورودی یا دستورات به یادگیری ادامه دهند. این بدان معناست که شما می‌توانید از طریق دستورات با دقت تنظیم شده، خروجی‌های جامعی تولید کنید. وظایفی که مدل‌های پایه می‌توانند انجام دهند شامل پردازش زبان، درک بصری، تولید کد و تعامل انسان‌محور است.

پردازش زبان

این مدل‌ها قابلیت‌های قابل توجهی در پاسخ دادن به سؤالات به زبان طبیعی و حتی توانایی نوشتن فیلمنامه‌ها یا مقالات کوتاه در پاسخ به دستورات دارند. آن‌ها همچنین می‌توانند زبان‌ها را با استفاده از فناوری‌های پردازش زبان طبیعی (NLP) ترجمه کنند.

درک بصری

مدل‌های پایه در بینایی کامپیوتر، به ویژه در زمینه شناسایی تصاویر و اشیاء فیزیکی، برتری دارند. این قابلیت‌ها ممکن است در کاربردهایی مانند رانندگی خودران و رباتیک مورد استفاده قرار گیرند. یکی دیگر از قابلیت‌ها، تولید تصاویر از متن ورودی و همچنین ویرایش عکس و فیلم است.

تولید کد

مدل‌های پایه می‌توانند کد کامپیوتر را در زبان‌های برنامه‌نویسی مختلف بر اساس ورودی‌های زبان طبیعی تولید کنند. همچنین استفاده از مدل‌های پایه برای ارزیابی و اشکال‌زدایی کد امکان‌پذیر است. درباره تولید کد با هوش مصنوعی بیشتر بدانید.

تعامل انسان‌محور

مدل‌های هوش مصنوعی مولد از ورودی‌های انسانی برای یادگیری و بهبود پیش‌بینی‌ها استفاده می‌کنند. یک کاربرد مهم و گاهی نادیده گرفته شده، توانایی این مدل‌ها در پشتیبانی از تصمیم‌گیری انسانی است. کاربردهای بالقوه شامل تشخیص‌های بالینی، سیستم‌های پشتیبانی تصمیم و تجزیه و تحلیل است.یکی دیگر از قابلیت‌ها، توسعه برنامه‌های کاربردی جدید هوش مصنوعی با تنظیم دقیق مدل‌های پایه موجود است.

تبدیل گفتار به متن

از آنجایی که مدل‌های پایه زبان را درک می‌کنند، می‌توان از آن‌ها برای وظایف تبدیل گفتار به متن مانند رونویسی و زیرنویس‌گذاری ویدیو به زبان‌های مختلف استفاده کرد.

نمونه‌هایی از مدل‌های پایه کدامند؟

تعداد و اندازه مدل‌های پایه موجود در بازار با سرعت زیادی رشد کرده است. در حال حاضر ده‌ها مدل در دسترس است. در اینجا لیستی از مدل‌های پایه برجسته منتشر شده از سال ۲۰۱۸ آورده شده است:

  • BERT مدل BERT (Bidirectional Encoder Representations from Transformers) که در سال ۲۰۱۸ منتشر شد، یکی از اولین مدل‌های پایه بود. BERT یک مدل دوطرفه است که زمینه یک دنباله کامل را تجزیه و تحلیل می‌کند و سپس یک پیش‌بینی انجام می‌دهد. این مدل با استفاده از یک مجموعه متنی ساده و ویکی‌پدیا با ۳.۳ میلیارد توکن (کلمه) و ۳۴۰ میلیون پارامتر آموزش داده شد. BERT می‌تواند به سؤالات پاسخ دهد، جملات را پیش‌بینی کند و متون را ترجمه کند.
  • GPT مدل GPT (Generative Pre-trained Transformer) توسط OpenAI در سال ۲۰۱۸ توسعه داده شد. این مدل از یک رمزگشای ترانسفورمر ۱۲ لایه با مکانیسم خود-توجه استفاده می‌کند و بر روی مجموعه داده BookCorpus، که شامل بیش از ۱۱۰۰۰ رمان رایگان است، آموزش داده شده است. یکی از ویژگی‌های قابل توجه GPT-1، توانایی انجام یادگیری صفر-شات است. GPT-2 در سال ۲۰۱۹ منتشر شد. OpenAI آن را با استفاده از ۱.۵ میلیارد پارامتر (در مقایسه با ۱۱۷ میلیون پارامتر استفاده شده در GPT-1) آموزش داد. GPT-3 دارای یک شبکه عصبی ۹۶ لایه و ۱۷۵ میلیارد پارامتر است و با استفاده از مجموعه داده Common Crawl با ۵۰۰ میلیارد کلمه آموزش داده شده است. ربات گفتگو محبوب ChatGPT مبتنی بر GPT-3.5 است. و GPT-4، آخرین نسخه، در اواخر سال ۲۰۲۲ عرضه شد و با موفقیت آزمون وکالت یکنواخت را با نمره ۲۹۷ (۷۶%) گذراند.
  • Amazon Nova Amazon Nova نسل جدیدی از مدل‌های پایه پیشرفته (SOTA) است که هوش برتر و عملکرد قیمتی پیشرو در صنعت را ارائه می‌دهد. Amazon Nova Micro، Amazon Nova Lite و Amazon Nova Pro مدل‌های درک‌کننده‌ای هستند که ورودی‌های متنی، تصویری و ویدیویی را می‌پذیرند و خروجی متنی تولید می‌کنند. آن‌ها طیف گسترده‌ای از قابلیت‌ها، دقت، سرعت و نقاط عملکرد هزینه را ارائه می‌دهند. درباره مدل‌های درک‌کننده Amazon Nova بیشتر بدانید. Amazon Nova Canvas و Amazon Nova Reel مدل‌های تولید محتوای خلاقانه هستند که ورودی‌های متنی و تصویری را می‌پذیرند و خروجی‌های تصویری یا ویدیویی تولید می‌کنند. آن‌ها برای ارائه تصاویر و ویدیوهای با کیفیت بالا و قابل تنظیم برای تولید محتوای بصری طراحی شده‌اند. درباره مدل‌های تولید محتوای خلاقانه Amazon Nova بیشتر بدانید.
  • AI21 Jurassic Jurassic-1 که در سال ۲۰۲۱ منتشر شد، یک مدل زبانی خود-رگرسیو ۷۶ لایه با ۱۷۸ میلیارد پارامتر است. Jurassic-1 متن شبیه به انسان تولید می‌کند و وظایف پیچیده را حل می‌کند. عملکرد آن با GPT-3 قابل مقایسه است. در مارس ۲۰۲۳، AI21 Labs مدل Jurassic-2 را منتشر کرد که قابلیت‌های دنبال کردن دستورالعمل و زبان آن بهبود یافته است.
  • Claude
    • Claude 3.5 Sonnet هوشمندترین و پیشرفته‌ترین مدل Anthropic، Claude 3.5 Sonnet، قابلیت‌های استثنایی را در طیف متنوعی از وظایف و ارزیابی‌ها نشان می‌دهد و در عین حال از Claude 3 Opus نیز بهتر عمل می‌کند.
    • Claude 3 Opus Opus یک مدل بسیار هوشمند با عملکرد قابل اعتماد در وظایف پیچیده است. این مدل می‌تواند دستورات باز و سناریوهای دیده نشده را با روانی قابل توجه و درک شبیه به انسان هدایت کند. از Opus برای خودکارسازی وظایف و تسریع تحقیق و توسعه در طیف متنوعی از موارد استفاده و صنایع استفاده کنید.
    • Claude 3 Haiku Haiku سریع‌ترین و کوچک‌ترین مدل Anthropic برای پاسخگویی تقریباً فوری است. Haiku بهترین انتخاب برای ساخت تجربیات هوش مصنوعی یکپارچه است که تعاملات انسانی را تقلید می‌کنند. شرکت‌ها می‌توانند از Haiku برای تعدیل محتوا، بهینه‌سازی مدیریت موجودی، تولید ترجمه‌های سریع و دقیق، خلاصه کردن داده‌های بدون ساختار و موارد دیگر استفاده کنند.
  • Cohere Cohere دو مدل زبانی بزرگ (LLM) دارد: یکی مدل تولیدکننده با قابلیت‌های مشابه GPT-3 و دیگری مدل نمایشی که برای درک زبان‌ها طراحی شده است. در حالی که Cohere تنها ۵۲ میلیارد پارامتر دارد، در بسیاری از جنبه‌ها از GPT-3 بهتر عمل می‌کند.
  • Stable Diffusion Stable Diffusion یک مدل تبدیل متن به تصویر است که می‌تواند تصاویر با کیفیت بالا و با ظاهر واقع‌گرایانه تولید کند. این مدل در سال ۲۰۲۲ منتشر شد و دارای یک مدل انتشار است که از فناوری‌های نویزدهی و حذف نویز برای یادگیری نحوه ایجاد تصاویر استفاده می‌کند. این مدل کوچکتر از فناوری‌های انتشار رقیب مانند DALL-E 2 است، به این معنی که به زیرساخت محاسباتی گسترده‌ای نیاز ندارد. Stable Diffusion روی یک کارت گرافیک معمولی یا حتی روی یک گوشی هوشمند با پلتفرم Snapdragon Gen2 اجرا می‌شود. درباره Stable Diffusion بیشتر بخوانید »
  • BLOOM BLOOM یک مدل چند زبانه با معماری مشابه GPT-3 است. این مدل در سال ۲۰۲۲ به عنوان یک تلاش مشترک با مشارکت بیش از هزار دانشمند و تیم Hugging Space توسعه داده شد. این مدل دارای ۱۷۶ میلیارد پارامتر است و آموزش آن با استفاده از ۳۸۴ پردازنده گرافیکی Nvidia A100 به مدت سه و نیم ماه طول کشید. اگرچه ایست بازرسی BLOOM به ۳۳۰ گیگابایت فضای ذخیره‌سازی نیاز دارد، اما روی یک رایانه شخصی مستقل با ۱۶ گیگابایت رم اجرا می‌شود. BLOOM می‌تواند متن را به ۴۶ زبان ایجاد کند و کد را به ۱۳ زبان برنامه‌نویسی بنویسد.
  • Hugging Face Hugging Face یک پلتفرم است که ابزارهای متن باز را برای ساخت و استقرار مدل‌های یادگیری ماشین ارائه می‌دهد. این پلتفرم به عنوان یک مرکز اجتماعی عمل می‌کند و توسعه‌دهندگان می‌توانند مدل‌ها و مجموعه‌ داده‌ها را به اشتراک بگذارند و کشف کنند. عضویت برای افراد رایگان است، اگرچه اشتراک‌های پولی سطوح دسترسی بالاتری را ارائه می‌دهند. شما دسترسی عمومی به نزدیک به ۲۰۰۰۰۰ مدل و ۳۰۰۰۰ مجموعه داده دارید.

چالش‌های مدل‌های پایه چیست؟

مدل‌های پایه می‌توانند به طور منسجم به دستورات مربوط به موضوعاتی که به طور صریح روی آن‌ها آموزش ندیده‌اند پاسخ دهند. اما نقاط ضعفی نیز دارند. در اینجا برخی از چالش‌های پیش روی مدل‌های پایه آورده شده است:

  • الزامات زیرساختی. ساخت یک مدل پایه از ابتدا پرهزینه است و به منابع عظیمی نیاز دارد و آموزش ممکن است ماه‌ها طول بکشد.
  • توسعه فرانت‌اند. برای کاربردهای عملی، توسعه‌دهندگان باید مدل‌های پایه را در یک پشته نرم‌افزاری، از جمله ابزارهای مهندسی دستور، تنظیم دقیق و مهندسی خط لوله، ادغام کنند.
  • فقدان درک. اگرچه آن‌ها می‌توانند پاسخ‌های گرامری و از نظر واقعی صحیح ارائه دهند، اما مدل‌های پایه در درک زمینه یک دستور مشکل دارند و از نظر اجتماعی یا روانشناختی آگاه نیستند.
  • پاسخ‌های غیرقابل اعتماد. پاسخ به سؤالات در مورد موضوعات خاص ممکن است غیرقابل اعتماد و گاهی نامناسب، سمی یا نادرست باشد.
  • جانبداری. جانبداری یک احتمال قوی است زیرا مدل‌ها می‌توانند گفتار نفرت‌انگیز و اشارات نامناسب را از مجموعه‌ داده‌های آموزشی دریافت کنند. برای جلوگیری از این امر، توسعه‌دهندگان باید داده‌های آموزشی را با دقت فیلتر کرده و هنجارهای خاصی را در مدل‌های خود کدگذاری کنند.
هوش مصنوعی مکالمه‌ای (Conversational AI) چیست؟
مدل‌های خودرگرسیو (Autoregressive Models) چه هستند؟

دیدگاهتان را بنویسید

سبد خرید
علاقه‌مندی‌ها
مشاهدات اخیر
دسته بندی ها