ترانسفورمرها (Transformers) چیستند؟

ترانسفورمرها (Transformers) چیستند؟

ترانسفورمرها در هوش مصنوعی چه هستند؟

ترانسفورمرها نوعی معماری شبکه عصبی هستند که یک دنباله ورودی را به یک دنباله خروجی تبدیل یا تغییر می‌دهند. آن‌ها این کار را با یادگیری زمینه و ردیابی روابط بین اجزای دنباله انجام می‌دهند. برای مثال، دنباله ورودی زیر را در نظر بگیرید: «رنگ آسمان چیست؟» مدل ترانسفورمر از یک نمایش ریاضی داخلی استفاده می‌کند که ارتباط و رابطه بین کلمات رنگ، آسمان و آبی را شناسایی می‌کند. این مدل از آن دانش برای تولید خروجی «آسمان آبی است» استفاده می‌کند.سازمان‌ها از مدل‌های ترانسفورمر برای انواع تبدیل‌های دنباله‌ای، از تشخیص گفتار گرفته تا ترجمه ماشینی و تجزیه و تحلیل توالی پروتئین، استفاده می‌کنند.

چرا ترانسفورمرها مهم هستند؟

مدل‌های اولیه یادگیری عمیق که به طور گسترده بر وظایف پردازش زبان طبیعی (NLP) متمرکز بودند، هدفشان این بود که رایانه‌ها زبان طبیعی انسان را درک کرده و به آن پاسخ دهند. آن‌ها کلمه بعدی در یک دنباله را بر اساس کلمه قبلی حدس می‌زدند.

برای درک بهتر، ویژگی تکمیل خودکار در تلفن هوشمند خود را در نظر بگیرید. این ویژگی بر اساس فراوانی جفت کلماتی که تایپ می‌کنید، پیشنهاداتی ارائه می‌دهد. برای مثال، اگر اغلب تایپ کنید «من خوب هستم»، تلفن شما پس از تایپ «هستم»، کلمه «خوب» را پیشنهاد می‌دهد.

مدل‌های اولیه یادگیری ماشین (ML) فناوری مشابهی را در مقیاس وسیع‌تری به کار می‌بردند. آن‌ها فراوانی رابطه بین جفت کلمات یا گروه‌های کلمات مختلف را در مجموعه داده‌های آموزشی خود نگاشت می‌کردند و سعی می‌کردند کلمه بعدی را حدس بزنند. با این حال، فناوری اولیه نمی‌توانست زمینه را فراتر از طول ورودی معینی حفظ کند. برای مثال، یک مدل ML اولیه نمی‌توانست یک پاراگراف معنادار تولید کند زیرا نمی‌توانست زمینه بین جمله اول و آخر یک پاراگراف را حفظ کند. برای تولید خروجی‌هایی مانند «من اهل ایتالیا هستم. اسب‌سواری را دوست دارم. من ایتالیایی صحبت می‌کنم.»، مدل باید ارتباط بین ایتالیا و ایتالیایی را به خاطر بسپارد، کاری که شبکه‌های عصبی اولیه قادر به انجام آن نبودند.

مدل‌های ترانسفورمر با قادر ساختن مدل‌ها به مدیریت چنین وابستگی‌های دوربرد در متن، به طور اساسی فناوری‌های NLP را تغییر دادند. در زیر مزایای بیشتری از ترانسفورمرها آورده شده است.

فعال‌سازی مدل‌های بزرگ‌مقیاس

ترانسفورمرها دنباله‌های طولانی را به طور کامل با محاسبات موازی پردازش می‌کنند، که به طور قابل توجهی زمان آموزش و پردازش را کاهش می‌دهد. این امر امکان آموزش مدل‌های زبانی بسیار بزرگ (LLM) مانند GPT و BERT را فراهم کرده است که می‌توانند نمایش‌های پیچیده زبانی را یاد بگیرند. آن‌ها میلیاردها پارامتر دارند که طیف وسیعی از زبان و دانش انسانی را ثبت می‌کنند و تحقیقات را به سمت سیستم‌های هوش مصنوعی کلی‌تر سوق می‌دهند.

فعال‌سازی سفارشی‌سازی سریع‌تر

با مدل‌های ترانسفورمر، می‌توانید از تکنیک‌هایی مانند یادگیری انتقالی و تولید افزوده با بازیابی (RAG) استفاده کنید. این تکنیک‌ها امکان سفارشی‌سازی مدل‌های موجود برای کاربردهای خاص سازمان‌های صنعتی را فراهم می‌کنند. مدل‌ها می‌توانند بر روی مجموعه‌داده‌های بزرگ پیش‌آموزش داده شوند و سپس بر روی مجموعه‌داده‌های کوچکتر و خاص وظیفه، تنظیم دقیق شوند. این رویکرد استفاده از مدل‌های پیچیده را دموکراتیک کرده و محدودیت‌های منابع در آموزش مدل‌های بزرگ از ابتدا را از بین برده است. مدل‌ها می‌توانند در چندین دامنه و وظیفه برای موارد استفاده مختلف عملکرد خوبی داشته باشند.

تسهیل سیستم‌های هوش مصنوعی چندوجهی

با ترانسفورمرها، می‌توانید از هوش مصنوعی برای وظایفی استفاده کنید که مجموعه‌داده‌های پیچیده را ترکیب می‌کنند. برای مثال، مدل‌هایی مانند DALL-E نشان می‌دهند که ترانسفورمرها می‌توانند از توضیحات متنی تصاویر تولید کنند و قابلیت‌های NLP و بینایی کامپیوتر را با هم ترکیب کنند. با ترانسفورمرها، می‌توانید برنامه‌های هوش مصنوعی ایجاد کنید که انواع مختلف اطلاعات را ادغام کرده و درک و خلاقیت انسان را نزدیک‌تر تقلید کنند.

درباره بینایی کامپیوتر بخوانید

تحقیقات هوش مصنوعی و نوآوری صنعتی

ترانسفورمرها نسل جدیدی از فناوری‌های هوش مصنوعی و تحقیقات هوش مصنوعی را ایجاد کرده‌اند و مرزهای آنچه در ML ممکن است را جابجا کرده‌اند. موفقیت آن‌ها الهام‌بخش معماری‌ها و کاربردهای جدیدی بوده است که مشکلات نوآورانه را حل می‌کنند. آن‌ها ماشین‌ها را قادر ساخته‌اند تا زبان انسان را درک و تولید کنند، که منجر به برنامه‌هایی شده است که تجربه مشتری را بهبود می‌بخشد و فرصت‌های تجاری جدیدی ایجاد می‌کند.

موارد استفاده از ترانسفورمرها چیست؟

شما می‌توانید مدل‌های ترانسفورمر بزرگ را بر روی هر داده ترتیبی مانند زبان‌های انسانی، قطعات موسیقی، زبان‌های برنامه‌نویسی و موارد دیگر آموزش دهید. در زیر چند نمونه از موارد استفاده آورده شده است.

پردازش زبان طبیعی

ترانسفورمرها ماشین‌ها را قادر می‌سازند تا زبان انسان را به گونه‌ای درک، تفسیر و تولید کنند که دقیق‌تر از همیشه باشد. آن‌ها می‌توانند اسناد بزرگ را خلاصه کرده و متن منسجم و مرتبط با زمینه را برای انواع موارد استفاده تولید کنند. دستیارهای مجازی مانند الکسا از فناوری ترانسفورمر برای درک و پاسخ به دستورات صوتی استفاده می‌کنند.

ترجمه ماشینی

برنامه‌های ترجمه از ترانسفورمرها برای ارائه ترجمه‌های دقیق و بی‌درنگ بین زبان‌ها استفاده می‌کنند. ترانسفورمرها در مقایسه با فناوری‌های قبلی، روان بودن و دقت ترجمه‌ها را به طور قابل توجهی بهبود بخشیده‌اند.

درباره ترجمه ماشینی بخوانید

تجزیه و تحلیل توالی DNA

با در نظر گرفتن قطعات DNA به عنوان یک دنباله مشابه زبان، ترانسفورمرها می‌توانند اثرات جهش‌های ژنتیکی را پیش‌بینی کنند، الگوهای ژنتیکی را درک کنند و به شناسایی مناطقی از DNA که مسئول برخی بیماری‌ها هستند کمک کنند. این قابلیت برای پزشکی شخصی‌سازی‌شده، جایی که درک ساختار ژنتیکی فرد می‌تواند منجر به درمان‌های مؤثرتر شود، بسیار مهم است.

تجزیه و تحلیل ساختار پروتئین

مدل‌های ترانسفورمر می‌توانند داده‌های ترتیبی را پردازش کنند، که آن‌ها را برای مدل‌سازی زنجیره‌های طولانی اسیدهای آمینه که به ساختارهای پیچیده پروتئینی تا می‌شوند، بسیار مناسب می‌سازد. درک ساختارهای پروتئینی برای کشف دارو و درک فرآیندهای بیولوژیکی حیاتی است. همچنین می‌توانید از ترانسفورمرها در برنامه‌هایی استفاده کنید که ساختار سه‌بعدی پروتئین‌ها را بر اساس توالی اسید آمینه آن‌ها پیش‌بینی می‌کنند.

ترانسفورمرها چگونه کار می‌کنند؟

شبکه‌های عصبی از اوایل دهه ۲۰۰۰ روش پیشرو در وظایف مختلف هوش مصنوعی مانند تشخیص تصویر و NLP بوده‌اند. آن‌ها از لایه‌هایی از گره‌های محاسباتی یا نورون‌های به هم پیوسته تشکیل شده‌اند که مغز انسان را تقلید می‌کنند و برای حل مشکلات پیچیده با هم کار می‌کنند.

شبکه‌های عصبی سنتی که با دنباله‌های داده سروکار دارند، اغلب از الگوی معماری رمزگذار/رمزگشا استفاده می‌کنند. رمزگذار کل دنباله داده ورودی، مانند یک جمله انگلیسی، را می‌خواند و پردازش می‌کند و آن را به یک نمایش ریاضی فشرده تبدیل می‌کند. این نمایش یک خلاصه است که جوهر ورودی را ثبت می‌کند. سپس، رمزگشا این خلاصه را می‌گیرد و گام به گام دنباله خروجی را تولید می‌کند، که می‌تواند همان جمله ترجمه شده به فرانسوی باشد.

این فرآیند به صورت متوالی انجام می‌شود، به این معنی که باید هر کلمه یا بخشی از داده را یکی پس از دیگری پردازش کند. این فرآیند کند است و ممکن است برخی از جزئیات دقیق را در مسافت‌های طولانی از دست بدهد.

مکانیسم خود-توجهی

مدل‌های ترانسفورمر این فرآیند را با گنجاندن چیزی به نام مکانیسم خود-توجهی تغییر می‌دهند. این مکانیسم به جای پردازش داده‌ها به ترتیب، مدل را قادر می‌سازد تا به طور همزمان به بخش‌های مختلف دنباله نگاه کند و تعیین کند کدام بخش‌ها مهم‌ترین هستند.

تصور کنید در یک اتاق شلوغ هستید و سعی می‌کنید به صحبت‌های کسی گوش دهید. مغز شما به طور خودکار بر صدای او تمرکز می‌کند و صداهای کم اهمیت‌تر را نادیده می‌گیرد. خود-توجهی مدل را قادر می‌سازد تا کار مشابهی انجام دهد: این مکانیسم توجه بیشتری به بخش‌های مرتبط اطلاعات دارد و آن‌ها را برای پیش‌بینی‌های خروجی بهتر ترکیب می‌کند. این مکانیسم ترانسفورمرها را کارآمدتر می‌کند و آن‌ها را قادر می‌سازد تا بر روی مجموعه‌داده‌های بزرگ‌تری آموزش ببینند. همچنین مؤثرتر است، به ویژه هنگام کار با متن‌های طولانی که زمینه از دوردست ممکن است بر معنای آنچه در ادامه می‌آید تأثیر بگذارد.

اجزای معماری ترانسفورمر چیست؟

معماری شبکه عصبی ترانسفورمر دارای چندین لایه نرم‌افزاری است که برای تولید خروجی نهایی با هم کار می‌کنند. تصویر زیر اجزای معماری ترانسفورمر را نشان می‌دهد، همانطور که در بقیه این بخش توضیح داده شده است.

تبدیل‌های ورودی (Input embeddings)

این مرحله دنباله ورودی را به حوزه ریاضی که الگوریتم‌های نرم‌افزاری می‌فهمند تبدیل می‌کند. در ابتدا، دنباله ورودی به مجموعه‌ای از توکن‌ها یا اجزای دنباله جداگانه تقسیم می‌شود. برای مثال، اگر ورودی یک جمله باشد، توکن‌ها کلمات هستند. سپس تبدیل (embedding) دنباله توکن را به یک دنباله برداری ریاضی تبدیل می‌کند. بردارها اطلاعات معنایی و نحوی را به صورت اعداد حمل می‌کنند و ویژگی‌های آن‌ها در طول فرآیند آموزش یاد گرفته می‌شوند.

می‌توانید بردارها را به عنوان مجموعه‌ای از مختصات در یک فضای n-بعدی تصور کنید. به عنوان یک مثال ساده، یک نمودار دو بعدی را در نظر بگیرید که در آن x نشان دهنده مقدار الفبایی اولین حرف کلمه و y نشان دهنده دسته‌های آن‌ها است. کلمه «موز» مقدار (۲,۲) را دارد زیرا با حرف «ب» شروع می‌شود و در دسته «میوه» قرار دارد. کلمه «انبه» مقدار (۱۳,۲) را دارد زیرا با حرف «م» شروع می‌شود و همچنین در دسته «میوه» قرار دارد. به این ترتیب، بردار (x,y) به شبکه عصبی می‌گوید که کلمات «موز» و «انبه» در یک دسته قرار دارند.

اکنون یک فضای n-بعدی را با هزاران ویژگی در مورد دستور زبان، معنی و کاربرد هر کلمه در جملات که به مجموعه‌ای از اعداد نگاشت شده‌اند تصور کنید. نرم‌افزار می‌تواند از این اعداد برای محاسبه روابط بین کلمات به صورت ریاضی و درک مدل زبان انسان استفاده کند. تبدیل‌ها (Embeddings) راهی برای نمایش توکن‌های گسسته به عنوان بردارهای پیوسته فراهم می‌کنند که مدل می‌تواند آن‌ها را پردازش کرده و از آن‌ها یاد بگیرد.

رمزگذاری موقعیتی (Positional encoding)

رمزگذاری موقعیتی یک جزء حیاتی در معماری ترانسفورمر است زیرا خود مدل ذاتاً داده‌های ترتیبی را به ترتیب پردازش نمی‌کند. ترانسفورمر برای در نظر گرفتن ترتیب توکن‌ها در دنباله ورودی به راهی نیاز دارد. رمزگذاری موقعیتی اطلاعاتی را به تبدیل (embedding) هر توکن اضافه می‌کند تا موقعیت آن را در دنباله نشان دهد. این کار اغلب با استفاده از مجموعه‌ای از توابع انجام می‌شود که یک سیگنال موقعیتی منحصر به فرد تولید می‌کنند که به تبدیل (embedding) هر توکن اضافه می‌شود. با رمزگذاری موقعیتی، مدل می‌تواند ترتیب توکن‌ها را حفظ کرده و زمینه دنباله را درک کند.

بلوک ترانسفورمر (Transformer block)

یک مدل ترانسفورمر معمولی دارای چندین بلوک ترانسفورمر است که روی هم چیده شده‌اند. هر بلوک ترانسفورمر دارای دو جزء اصلی است: یک مکانیسم خود-توجهی چند-سره و یک شبکه عصبی پیشخور موقعیت‌محور. مکانیسم خود-توجهی مدل را قادر می‌سازد تا اهمیت توکن‌های مختلف را در داخل دنباله وزن‌دهی کند. این مکانیسم هنگام پیش‌بینی، بر روی بخش‌های مرتبط ورودی تمرکز می‌کند.

برای مثال، جملات «دروغ نگو» و «او دراز می‌کشد» را در نظر بگیرید. در هر دو جمله، معنای کلمه «دروغ» بدون نگاه کردن به کلمات مجاور آن قابل درک نیست. کلمات «نگو» و «دراز» برای درک معنای درست ضروری هستند. خود-توجهی امکان گروه‌بندی توکن‌های مرتبط برای زمینه را فراهم می‌کند.

لایه پیشخور دارای اجزای اضافی است که به مدل ترانسفورمر کمک می‌کند تا کارآمدتر آموزش ببیند و عمل کند. برای مثال، هر بلوک ترانسفورمر شامل موارد زیر است:

  • اتصالات در اطراف دو جزء اصلی که مانند میانبر عمل می‌کنند. آن‌ها جریان اطلاعات را از یک بخش شبکه به بخش دیگر، با پرش از برخی عملیات میانی، امکان‌پذیر می‌کنند.
  • نرمال‌سازی لایه که اعداد—به ویژه خروجی‌های لایه‌های مختلف در شبکه—را در یک محدوده معین نگه می‌دارد تا مدل به آرامی آموزش ببیند.
  • توابع تبدیل خطی به طوری که مدل مقادیر را برای انجام بهتر وظیفه‌ای که برای آن آموزش داده می‌شود—مانند خلاصه سند در مقابل ترجمه—تنظیم می‌کند.

بلوک‌های خطی و سافت‌مکس (Linear and softmax blocks)

در نهایت، مدل باید یک پیش‌بینی مشخص انجام دهد، مانند انتخاب کلمه بعدی در یک دنباله. اینجاست که بلوک خطی وارد عمل می‌شود. این یک لایه کاملاً متصل دیگر، همچنین به عنوان یک لایه متراکم شناخته می‌شود، قبل از مرحله نهایی قرار دارد. این لایه یک نگاشت خطی آموخته شده را از فضای برداری به دامنه ورودی اصلی انجام می‌دهد. این لایه حیاتی جایی است که بخش تصمیم‌گیری مدل، نمایش‌های داخلی پیچیده را گرفته و آن‌ها را به پیش‌بینی‌های خاصی تبدیل می‌کند که می‌توانید آن‌ها را تفسیر و استفاده کنید. خروجی این لایه مجموعه‌ای از امتیازات (اغلب لاجیت نامیده می‌شود) برای هر توکن ممکن است.

تابع سافت‌مکس مرحله نهایی است که امتیازات لاجیت را می‌گیرد و آن‌ها را به یک توزیع احتمال نرمال‌سازی می‌کند. هر عنصر خروجی سافت‌مکس نشان دهنده میزان اطمینان مدل به یک کلاس یا توکن خاص است.

تفاوت ترانسفورمرها با سایر معماری‌های شبکه عصبی چیست؟

شبکه‌های عصبی بازگشتی (RNN) و شبکه‌های عصبی کانولوشنال (CNN) سایر شبکه‌های عصبی هستند که اغلب در وظایف یادگیری ماشین و یادگیری عمیق استفاده می‌شوند. در زیر روابط آن‌ها با ترانسفورمرها بررسی می‌شود.

ترانسفورمرها در مقابل RNNها

مدل‌های ترانسفورمر و RNNها هر دو معماری‌هایی هستند که برای پردازش داده‌های ترتیبی استفاده می‌شوند.

RNNها دنباله‌های داده را عنصر به عنصر در تکرارهای چرخه‌ای پردازش می‌کنند. این فرآیند با دریافت اولین عنصر دنباله توسط لایه ورودی شروع می‌شود. سپس اطلاعات به یک لایه پنهان منتقل می‌شود که ورودی را پردازش کرده و خروجی را به مرحله زمانی بعدی منتقل می‌کند. این خروجی، همراه با عنصر بعدی دنباله، دوباره به لایه پنهان تغذیه می‌شود. این چرخه برای هر عنصر در دنباله تکرار می‌شود، و RNN یک بردار حالت پنهان را حفظ می‌کند که در هر مرحله زمانی به روز می‌شود. این فرآیند به طور مؤثر RNN را قادر می‌سازد تا اطلاعات ورودی‌های قبلی را به خاطر بسپارد.

در مقابل، ترانسفورمرها کل دنباله‌ها را به طور همزمان پردازش می‌کنند. این موازی‌سازی زمان آموزش بسیار سریع‌تر و توانایی مدیریت دنباله‌های بسیار طولانی‌تر از RNNها را امکان‌پذیر می‌سازد. مکانیسم خود-توجهی در ترانسفورمرها همچنین مدل را قادر می‌سازد تا کل دنباله داده را به طور همزمان در نظر بگیرد. این امر نیاز به بازگشت یا بردارهای پنهان را از بین می‌برد. در عوض، رمزگذاری موقعیتی اطلاعات مربوط به موقعیت هر عنصر در دنباله را حفظ می‌کند.

ترانسفورمرها تا حد زیادی در بسیاری از کاربردها، به ویژه در وظایف NLP، جایگزین RNNها شده‌اند، زیرا می‌توانند وابستگی‌های دوربرد را به طور مؤثرتری مدیریت کنند. آن‌ها همچنین مقیاس‌پذیری و کارایی بیشتری نسبت به RNNها دارند. RNNها هنوز در زمینه‌های خاصی مفید هستند، به ویژه در جایی که اندازه مدل و کارایی محاسباتی از گرفتن تعاملات دوربرد مهم‌تر است.

ترانسفورمرها در مقابل CNNها

CNNها برای داده‌های شبکه‌مانند، مانند تصاویر، طراحی شده‌اند، جایی که سلسله مراتب فضایی و محلیت کلیدی هستند. آن‌ها از لایه‌های کانولوشنال برای اعمال فیلترها بر روی یک ورودی استفاده می‌کنند و الگوهای محلی را از طریق این نماهای

فیلتر شده ثبت می‌کنند. برای مثال، در پردازش تصویر، لایه‌های اولیه ممکن است لبه‌ها یا بافت‌ها را تشخیص دهند، و لایه‌های عمیق‌تر ساختارهای پیچیده‌تری مانند اشکال یا اشیاء را تشخیص می‌دهند.

ترانسفورمرها در درجه اول برای مدیریت داده‌های ترتیبی طراحی شده بودند و نمی‌توانستند تصاویر را پردازش کنند. مدل‌های ترانسفورمر بینایی اکنون با تبدیل تصاویر به یک قالب ترتیبی، آن‌ها را پردازش می‌کنند. با این حال، CNNها همچنان یک انتخاب بسیار مؤثر و کارآمد برای بسیاری از کاربردهای عملی بینایی کامپیوتر باقی می‌مانند.

انواع مختلف مدل‌های ترانسفورمر چیست؟

ترانسفورمرها به یک خانواده متنوع از معماری‌ها تکامل یافته‌اند. در زیر برخی از انواع مدل‌های ترانسفورمر آورده شده است.

ترانسفورمرهای دوطرفه (Bidirectional transformers)

بازنمایی‌های رمزگذار دوطرفه از ترانسفورمرها (BERT) معماری پایه را تغییر می‌دهند تا کلمات را در رابطه با تمام کلمات دیگر در یک جمله به جای انفرادی پردازش کنند. از نظر فنی، این مدل از مکانیزمی به نام مدل زبان پوشانده شده دوطرفه (MLM) استفاده می‌کند. در طول پیش‌آموزش، BERT به طور تصادفی درصد معینی از توکن‌های ورودی را می‌پوشاند و این توکن‌های پوشانده شده را بر اساس زمینه آن‌ها پیش‌بینی می‌کند. جنبه دوطرفه از این واقعیت ناشی می‌شود که BERT دنباله‌های توکن از چپ به راست و از راست به چپ را در هر دو لایه برای درک بیشتر در نظر می‌گیرد.

ترانسفورمرهای پیش‌آموزش‌شده مولد (Generative pretrained transformers)

مدل‌های GPT از رمزگشاهای ترانسفورمر انباشته‌شده استفاده می‌کنند که بر روی یک پیکره بزرگ متنی با استفاده از اهداف مدل‌سازی زبان پیش‌آموزش داده شده‌اند. آن‌ها خود-رگرسیو هستند، به این معنی که مقدار بعدی در یک دنباله را بر اساس تمام مقادیر قبلی رگرس یا پیش‌بینی می‌کنند. مدل‌های GPT با استفاده از بیش از ۱۷۵ میلیارد پارامتر می‌توانند دنباله‌های متنی را تولید کنند که برای سبک و لحن تنظیم شده‌اند. مدل‌های GPT تحقیقات در هوش مصنوعی را به سمت دستیابی به هوش مصنوعی عمومی سوق داده‌اند. این بدان معناست که سازمان‌ها می‌توانند به سطوح جدیدی از بهره‌وری دست یابند در حالی که برنامه‌ها و تجربیات مشتری خود را از نو اختراع می‌کنند.

ترانسفورمرهای دوطرفه و خود-رگرسیو (Bidirectional and autoregressive transformers)

یک ترانسفورمر دوطرفه و خود-رگرسیو (BART) نوعی مدل ترانسفورمر است که خواص دوطرفه و خود-رگرسیو را ترکیب می‌کند. این مدل مانند ترکیبی از رمزگذار دوطرفه BERT و رمزگشای خود-رگرسیو GPT است. این مدل کل دنباله ورودی را به طور همزمان می‌خواند و مانند BERT دوطرفه است. با این حال، دنباله خروجی را یک توکن در یک زمان، مشروط به توکن‌های تولید شده قبلی و ورودی ارائه شده توسط رمزگذار، تولید می‌کند.

ترانسفورمرها برای وظایف چندوجهی (Transformers for multimodal tasks)

مدل‌های ترانسفورمر چندوجهی مانند ViLBERT و VisualBERT برای مدیریت انواع مختلف داده‌های ورودی، معمولاً متن و تصاویر، طراحی شده‌اند. آن‌ها معماری ترانسفورمر را با استفاده از شبکه‌های دو جریانی که ورودی‌های بصری و متنی را به طور جداگانه پردازش می‌کنند قبل از ادغام اطلاعات، گسترش می‌دهند. این طراحی مدل را قادر می‌سازد تا نمایش‌های بین‌وجهی را یاد بگیرد. برای مثال، ViLBERT از لایه‌های ترانسفورمر با توجه مشترک استفاده می‌کند تا جریان‌های جداگانه بتوانند با هم تعامل داشته باشند. این امر برای موقعیت‌هایی که درک رابطه بین متن و تصاویر کلیدی است، مانند وظایف پاسخ به پرسش‌های بصری، بسیار مهم است.

ترانسفورمرهای بینایی (Vision transformers)

ترانسفورمرهای بینایی (ViT) معماری ترانسفورمر را برای وظایف طبقه‌بندی تصویر تغییر کاربری می‌دهند. آن‌ها به جای پردازش یک تصویر به عنوان یک شبکه از پیکسل‌ها، داده‌های تصویر را به عنوان یک دنباله از تکه‌های با اندازه ثابت، مشابه نحوه برخورد با کلمات در یک جمله، در نظر می‌گیرند. هر تکه مسطح می‌شود، به صورت خطی تبدیل می‌شود و سپس به صورت متوالی توسط رمزگذار استاندارد ترانسفورمر پردازش می‌شود. تبدیل‌های موقعیتی برای حفظ اطلاعات فضایی اضافه می‌شوند. این استفاده از خود-توجهی سراسری مدل را قادر می‌سازد تا روابط بین هر جفت تکه را، صرف نظر از موقعیت آن‌ها، ثبت کند.

امبدینگ (Embedding) چیست؟
بات (Bot) چیست؟

دیدگاهتان را بنویسید

سبد خرید
علاقه‌مندی‌ها
مشاهدات اخیر
دسته بندی ها