ترانسفورمرها در هوش مصنوعی چه هستند؟
ترانسفورمرها نوعی معماری شبکه عصبی هستند که یک دنباله ورودی را به یک دنباله خروجی تبدیل یا تغییر میدهند. آنها این کار را با یادگیری زمینه و ردیابی روابط بین اجزای دنباله انجام میدهند. برای مثال، دنباله ورودی زیر را در نظر بگیرید: «رنگ آسمان چیست؟» مدل ترانسفورمر از یک نمایش ریاضی داخلی استفاده میکند که ارتباط و رابطه بین کلمات رنگ، آسمان و آبی را شناسایی میکند. این مدل از آن دانش برای تولید خروجی «آسمان آبی است» استفاده میکند.سازمانها از مدلهای ترانسفورمر برای انواع تبدیلهای دنبالهای، از تشخیص گفتار گرفته تا ترجمه ماشینی و تجزیه و تحلیل توالی پروتئین، استفاده میکنند.
چرا ترانسفورمرها مهم هستند؟
مدلهای اولیه یادگیری عمیق که به طور گسترده بر وظایف پردازش زبان طبیعی (NLP) متمرکز بودند، هدفشان این بود که رایانهها زبان طبیعی انسان را درک کرده و به آن پاسخ دهند. آنها کلمه بعدی در یک دنباله را بر اساس کلمه قبلی حدس میزدند.
برای درک بهتر، ویژگی تکمیل خودکار در تلفن هوشمند خود را در نظر بگیرید. این ویژگی بر اساس فراوانی جفت کلماتی که تایپ میکنید، پیشنهاداتی ارائه میدهد. برای مثال، اگر اغلب تایپ کنید «من خوب هستم»، تلفن شما پس از تایپ «هستم»، کلمه «خوب» را پیشنهاد میدهد.
مدلهای اولیه یادگیری ماشین (ML) فناوری مشابهی را در مقیاس وسیعتری به کار میبردند. آنها فراوانی رابطه بین جفت کلمات یا گروههای کلمات مختلف را در مجموعه دادههای آموزشی خود نگاشت میکردند و سعی میکردند کلمه بعدی را حدس بزنند. با این حال، فناوری اولیه نمیتوانست زمینه را فراتر از طول ورودی معینی حفظ کند. برای مثال، یک مدل ML اولیه نمیتوانست یک پاراگراف معنادار تولید کند زیرا نمیتوانست زمینه بین جمله اول و آخر یک پاراگراف را حفظ کند. برای تولید خروجیهایی مانند «من اهل ایتالیا هستم. اسبسواری را دوست دارم. من ایتالیایی صحبت میکنم.»، مدل باید ارتباط بین ایتالیا و ایتالیایی را به خاطر بسپارد، کاری که شبکههای عصبی اولیه قادر به انجام آن نبودند.
مدلهای ترانسفورمر با قادر ساختن مدلها به مدیریت چنین وابستگیهای دوربرد در متن، به طور اساسی فناوریهای NLP را تغییر دادند. در زیر مزایای بیشتری از ترانسفورمرها آورده شده است.
فعالسازی مدلهای بزرگمقیاس
ترانسفورمرها دنبالههای طولانی را به طور کامل با محاسبات موازی پردازش میکنند، که به طور قابل توجهی زمان آموزش و پردازش را کاهش میدهد. این امر امکان آموزش مدلهای زبانی بسیار بزرگ (LLM) مانند GPT و BERT را فراهم کرده است که میتوانند نمایشهای پیچیده زبانی را یاد بگیرند. آنها میلیاردها پارامتر دارند که طیف وسیعی از زبان و دانش انسانی را ثبت میکنند و تحقیقات را به سمت سیستمهای هوش مصنوعی کلیتر سوق میدهند.
فعالسازی سفارشیسازی سریعتر
با مدلهای ترانسفورمر، میتوانید از تکنیکهایی مانند یادگیری انتقالی و تولید افزوده با بازیابی (RAG) استفاده کنید. این تکنیکها امکان سفارشیسازی مدلهای موجود برای کاربردهای خاص سازمانهای صنعتی را فراهم میکنند. مدلها میتوانند بر روی مجموعهدادههای بزرگ پیشآموزش داده شوند و سپس بر روی مجموعهدادههای کوچکتر و خاص وظیفه، تنظیم دقیق شوند. این رویکرد استفاده از مدلهای پیچیده را دموکراتیک کرده و محدودیتهای منابع در آموزش مدلهای بزرگ از ابتدا را از بین برده است. مدلها میتوانند در چندین دامنه و وظیفه برای موارد استفاده مختلف عملکرد خوبی داشته باشند.
تسهیل سیستمهای هوش مصنوعی چندوجهی
با ترانسفورمرها، میتوانید از هوش مصنوعی برای وظایفی استفاده کنید که مجموعهدادههای پیچیده را ترکیب میکنند. برای مثال، مدلهایی مانند DALL-E نشان میدهند که ترانسفورمرها میتوانند از توضیحات متنی تصاویر تولید کنند و قابلیتهای NLP و بینایی کامپیوتر را با هم ترکیب کنند. با ترانسفورمرها، میتوانید برنامههای هوش مصنوعی ایجاد کنید که انواع مختلف اطلاعات را ادغام کرده و درک و خلاقیت انسان را نزدیکتر تقلید کنند.
درباره بینایی کامپیوتر بخوانید
تحقیقات هوش مصنوعی و نوآوری صنعتی
ترانسفورمرها نسل جدیدی از فناوریهای هوش مصنوعی و تحقیقات هوش مصنوعی را ایجاد کردهاند و مرزهای آنچه در ML ممکن است را جابجا کردهاند. موفقیت آنها الهامبخش معماریها و کاربردهای جدیدی بوده است که مشکلات نوآورانه را حل میکنند. آنها ماشینها را قادر ساختهاند تا زبان انسان را درک و تولید کنند، که منجر به برنامههایی شده است که تجربه مشتری را بهبود میبخشد و فرصتهای تجاری جدیدی ایجاد میکند.
موارد استفاده از ترانسفورمرها چیست؟
شما میتوانید مدلهای ترانسفورمر بزرگ را بر روی هر داده ترتیبی مانند زبانهای انسانی، قطعات موسیقی، زبانهای برنامهنویسی و موارد دیگر آموزش دهید. در زیر چند نمونه از موارد استفاده آورده شده است.
پردازش زبان طبیعی
ترانسفورمرها ماشینها را قادر میسازند تا زبان انسان را به گونهای درک، تفسیر و تولید کنند که دقیقتر از همیشه باشد. آنها میتوانند اسناد بزرگ را خلاصه کرده و متن منسجم و مرتبط با زمینه را برای انواع موارد استفاده تولید کنند. دستیارهای مجازی مانند الکسا از فناوری ترانسفورمر برای درک و پاسخ به دستورات صوتی استفاده میکنند.
ترجمه ماشینی
برنامههای ترجمه از ترانسفورمرها برای ارائه ترجمههای دقیق و بیدرنگ بین زبانها استفاده میکنند. ترانسفورمرها در مقایسه با فناوریهای قبلی، روان بودن و دقت ترجمهها را به طور قابل توجهی بهبود بخشیدهاند.
درباره ترجمه ماشینی بخوانید
تجزیه و تحلیل توالی DNA
با در نظر گرفتن قطعات DNA به عنوان یک دنباله مشابه زبان، ترانسفورمرها میتوانند اثرات جهشهای ژنتیکی را پیشبینی کنند، الگوهای ژنتیکی را درک کنند و به شناسایی مناطقی از DNA که مسئول برخی بیماریها هستند کمک کنند. این قابلیت برای پزشکی شخصیسازیشده، جایی که درک ساختار ژنتیکی فرد میتواند منجر به درمانهای مؤثرتر شود، بسیار مهم است.
تجزیه و تحلیل ساختار پروتئین
مدلهای ترانسفورمر میتوانند دادههای ترتیبی را پردازش کنند، که آنها را برای مدلسازی زنجیرههای طولانی اسیدهای آمینه که به ساختارهای پیچیده پروتئینی تا میشوند، بسیار مناسب میسازد. درک ساختارهای پروتئینی برای کشف دارو و درک فرآیندهای بیولوژیکی حیاتی است. همچنین میتوانید از ترانسفورمرها در برنامههایی استفاده کنید که ساختار سهبعدی پروتئینها را بر اساس توالی اسید آمینه آنها پیشبینی میکنند.
ترانسفورمرها چگونه کار میکنند؟
شبکههای عصبی از اوایل دهه ۲۰۰۰ روش پیشرو در وظایف مختلف هوش مصنوعی مانند تشخیص تصویر و NLP بودهاند. آنها از لایههایی از گرههای محاسباتی یا نورونهای به هم پیوسته تشکیل شدهاند که مغز انسان را تقلید میکنند و برای حل مشکلات پیچیده با هم کار میکنند.
شبکههای عصبی سنتی که با دنبالههای داده سروکار دارند، اغلب از الگوی معماری رمزگذار/رمزگشا استفاده میکنند. رمزگذار کل دنباله داده ورودی، مانند یک جمله انگلیسی، را میخواند و پردازش میکند و آن را به یک نمایش ریاضی فشرده تبدیل میکند. این نمایش یک خلاصه است که جوهر ورودی را ثبت میکند. سپس، رمزگشا این خلاصه را میگیرد و گام به گام دنباله خروجی را تولید میکند، که میتواند همان جمله ترجمه شده به فرانسوی باشد.
این فرآیند به صورت متوالی انجام میشود، به این معنی که باید هر کلمه یا بخشی از داده را یکی پس از دیگری پردازش کند. این فرآیند کند است و ممکن است برخی از جزئیات دقیق را در مسافتهای طولانی از دست بدهد.
مکانیسم خود-توجهی
مدلهای ترانسفورمر این فرآیند را با گنجاندن چیزی به نام مکانیسم خود-توجهی تغییر میدهند. این مکانیسم به جای پردازش دادهها به ترتیب، مدل را قادر میسازد تا به طور همزمان به بخشهای مختلف دنباله نگاه کند و تعیین کند کدام بخشها مهمترین هستند.
تصور کنید در یک اتاق شلوغ هستید و سعی میکنید به صحبتهای کسی گوش دهید. مغز شما به طور خودکار بر صدای او تمرکز میکند و صداهای کم اهمیتتر را نادیده میگیرد. خود-توجهی مدل را قادر میسازد تا کار مشابهی انجام دهد: این مکانیسم توجه بیشتری به بخشهای مرتبط اطلاعات دارد و آنها را برای پیشبینیهای خروجی بهتر ترکیب میکند. این مکانیسم ترانسفورمرها را کارآمدتر میکند و آنها را قادر میسازد تا بر روی مجموعهدادههای بزرگتری آموزش ببینند. همچنین مؤثرتر است، به ویژه هنگام کار با متنهای طولانی که زمینه از دوردست ممکن است بر معنای آنچه در ادامه میآید تأثیر بگذارد.
اجزای معماری ترانسفورمر چیست؟
معماری شبکه عصبی ترانسفورمر دارای چندین لایه نرمافزاری است که برای تولید خروجی نهایی با هم کار میکنند. تصویر زیر اجزای معماری ترانسفورمر را نشان میدهد، همانطور که در بقیه این بخش توضیح داده شده است.
تبدیلهای ورودی (Input embeddings)
این مرحله دنباله ورودی را به حوزه ریاضی که الگوریتمهای نرمافزاری میفهمند تبدیل میکند. در ابتدا، دنباله ورودی به مجموعهای از توکنها یا اجزای دنباله جداگانه تقسیم میشود. برای مثال، اگر ورودی یک جمله باشد، توکنها کلمات هستند. سپس تبدیل (embedding) دنباله توکن را به یک دنباله برداری ریاضی تبدیل میکند. بردارها اطلاعات معنایی و نحوی را به صورت اعداد حمل میکنند و ویژگیهای آنها در طول فرآیند آموزش یاد گرفته میشوند.
میتوانید بردارها را به عنوان مجموعهای از مختصات در یک فضای n-بعدی تصور کنید. به عنوان یک مثال ساده، یک نمودار دو بعدی را در نظر بگیرید که در آن x نشان دهنده مقدار الفبایی اولین حرف کلمه و y نشان دهنده دستههای آنها است. کلمه «موز» مقدار (۲,۲) را دارد زیرا با حرف «ب» شروع میشود و در دسته «میوه» قرار دارد. کلمه «انبه» مقدار (۱۳,۲) را دارد زیرا با حرف «م» شروع میشود و همچنین در دسته «میوه» قرار دارد. به این ترتیب، بردار (x,y) به شبکه عصبی میگوید که کلمات «موز» و «انبه» در یک دسته قرار دارند.
اکنون یک فضای n-بعدی را با هزاران ویژگی در مورد دستور زبان، معنی و کاربرد هر کلمه در جملات که به مجموعهای از اعداد نگاشت شدهاند تصور کنید. نرمافزار میتواند از این اعداد برای محاسبه روابط بین کلمات به صورت ریاضی و درک مدل زبان انسان استفاده کند. تبدیلها (Embeddings) راهی برای نمایش توکنهای گسسته به عنوان بردارهای پیوسته فراهم میکنند که مدل میتواند آنها را پردازش کرده و از آنها یاد بگیرد.
رمزگذاری موقعیتی (Positional encoding)
رمزگذاری موقعیتی یک جزء حیاتی در معماری ترانسفورمر است زیرا خود مدل ذاتاً دادههای ترتیبی را به ترتیب پردازش نمیکند. ترانسفورمر برای در نظر گرفتن ترتیب توکنها در دنباله ورودی به راهی نیاز دارد. رمزگذاری موقعیتی اطلاعاتی را به تبدیل (embedding) هر توکن اضافه میکند تا موقعیت آن را در دنباله نشان دهد. این کار اغلب با استفاده از مجموعهای از توابع انجام میشود که یک سیگنال موقعیتی منحصر به فرد تولید میکنند که به تبدیل (embedding) هر توکن اضافه میشود. با رمزگذاری موقعیتی، مدل میتواند ترتیب توکنها را حفظ کرده و زمینه دنباله را درک کند.
بلوک ترانسفورمر (Transformer block)
یک مدل ترانسفورمر معمولی دارای چندین بلوک ترانسفورمر است که روی هم چیده شدهاند. هر بلوک ترانسفورمر دارای دو جزء اصلی است: یک مکانیسم خود-توجهی چند-سره و یک شبکه عصبی پیشخور موقعیتمحور. مکانیسم خود-توجهی مدل را قادر میسازد تا اهمیت توکنهای مختلف را در داخل دنباله وزندهی کند. این مکانیسم هنگام پیشبینی، بر روی بخشهای مرتبط ورودی تمرکز میکند.
برای مثال، جملات «دروغ نگو» و «او دراز میکشد» را در نظر بگیرید. در هر دو جمله، معنای کلمه «دروغ» بدون نگاه کردن به کلمات مجاور آن قابل درک نیست. کلمات «نگو» و «دراز» برای درک معنای درست ضروری هستند. خود-توجهی امکان گروهبندی توکنهای مرتبط برای زمینه را فراهم میکند.
لایه پیشخور دارای اجزای اضافی است که به مدل ترانسفورمر کمک میکند تا کارآمدتر آموزش ببیند و عمل کند. برای مثال، هر بلوک ترانسفورمر شامل موارد زیر است:
- اتصالات در اطراف دو جزء اصلی که مانند میانبر عمل میکنند. آنها جریان اطلاعات را از یک بخش شبکه به بخش دیگر، با پرش از برخی عملیات میانی، امکانپذیر میکنند.
- نرمالسازی لایه که اعداد—به ویژه خروجیهای لایههای مختلف در شبکه—را در یک محدوده معین نگه میدارد تا مدل به آرامی آموزش ببیند.
- توابع تبدیل خطی به طوری که مدل مقادیر را برای انجام بهتر وظیفهای که برای آن آموزش داده میشود—مانند خلاصه سند در مقابل ترجمه—تنظیم میکند.
بلوکهای خطی و سافتمکس (Linear and softmax blocks)
در نهایت، مدل باید یک پیشبینی مشخص انجام دهد، مانند انتخاب کلمه بعدی در یک دنباله. اینجاست که بلوک خطی وارد عمل میشود. این یک لایه کاملاً متصل دیگر، همچنین به عنوان یک لایه متراکم شناخته میشود، قبل از مرحله نهایی قرار دارد. این لایه یک نگاشت خطی آموخته شده را از فضای برداری به دامنه ورودی اصلی انجام میدهد. این لایه حیاتی جایی است که بخش تصمیمگیری مدل، نمایشهای داخلی پیچیده را گرفته و آنها را به پیشبینیهای خاصی تبدیل میکند که میتوانید آنها را تفسیر و استفاده کنید. خروجی این لایه مجموعهای از امتیازات (اغلب لاجیت نامیده میشود) برای هر توکن ممکن است.
تابع سافتمکس مرحله نهایی است که امتیازات لاجیت را میگیرد و آنها را به یک توزیع احتمال نرمالسازی میکند. هر عنصر خروجی سافتمکس نشان دهنده میزان اطمینان مدل به یک کلاس یا توکن خاص است.
تفاوت ترانسفورمرها با سایر معماریهای شبکه عصبی چیست؟
شبکههای عصبی بازگشتی (RNN) و شبکههای عصبی کانولوشنال (CNN) سایر شبکههای عصبی هستند که اغلب در وظایف یادگیری ماشین و یادگیری عمیق استفاده میشوند. در زیر روابط آنها با ترانسفورمرها بررسی میشود.
ترانسفورمرها در مقابل RNNها
مدلهای ترانسفورمر و RNNها هر دو معماریهایی هستند که برای پردازش دادههای ترتیبی استفاده میشوند.
RNNها دنبالههای داده را عنصر به عنصر در تکرارهای چرخهای پردازش میکنند. این فرآیند با دریافت اولین عنصر دنباله توسط لایه ورودی شروع میشود. سپس اطلاعات به یک لایه پنهان منتقل میشود که ورودی را پردازش کرده و خروجی را به مرحله زمانی بعدی منتقل میکند. این خروجی، همراه با عنصر بعدی دنباله، دوباره به لایه پنهان تغذیه میشود. این چرخه برای هر عنصر در دنباله تکرار میشود، و RNN یک بردار حالت پنهان را حفظ میکند که در هر مرحله زمانی به روز میشود. این فرآیند به طور مؤثر RNN را قادر میسازد تا اطلاعات ورودیهای قبلی را به خاطر بسپارد.
در مقابل، ترانسفورمرها کل دنبالهها را به طور همزمان پردازش میکنند. این موازیسازی زمان آموزش بسیار سریعتر و توانایی مدیریت دنبالههای بسیار طولانیتر از RNNها را امکانپذیر میسازد. مکانیسم خود-توجهی در ترانسفورمرها همچنین مدل را قادر میسازد تا کل دنباله داده را به طور همزمان در نظر بگیرد. این امر نیاز به بازگشت یا بردارهای پنهان را از بین میبرد. در عوض، رمزگذاری موقعیتی اطلاعات مربوط به موقعیت هر عنصر در دنباله را حفظ میکند.
ترانسفورمرها تا حد زیادی در بسیاری از کاربردها، به ویژه در وظایف NLP، جایگزین RNNها شدهاند، زیرا میتوانند وابستگیهای دوربرد را به طور مؤثرتری مدیریت کنند. آنها همچنین مقیاسپذیری و کارایی بیشتری نسبت به RNNها دارند. RNNها هنوز در زمینههای خاصی مفید هستند، به ویژه در جایی که اندازه مدل و کارایی محاسباتی از گرفتن تعاملات دوربرد مهمتر است.
ترانسفورمرها در مقابل CNNها
CNNها برای دادههای شبکهمانند، مانند تصاویر، طراحی شدهاند، جایی که سلسله مراتب فضایی و محلیت کلیدی هستند. آنها از لایههای کانولوشنال برای اعمال فیلترها بر روی یک ورودی استفاده میکنند و الگوهای محلی را از طریق این نماهای
فیلتر شده ثبت میکنند. برای مثال، در پردازش تصویر، لایههای اولیه ممکن است لبهها یا بافتها را تشخیص دهند، و لایههای عمیقتر ساختارهای پیچیدهتری مانند اشکال یا اشیاء را تشخیص میدهند.
ترانسفورمرها در درجه اول برای مدیریت دادههای ترتیبی طراحی شده بودند و نمیتوانستند تصاویر را پردازش کنند. مدلهای ترانسفورمر بینایی اکنون با تبدیل تصاویر به یک قالب ترتیبی، آنها را پردازش میکنند. با این حال، CNNها همچنان یک انتخاب بسیار مؤثر و کارآمد برای بسیاری از کاربردهای عملی بینایی کامپیوتر باقی میمانند.
انواع مختلف مدلهای ترانسفورمر چیست؟
ترانسفورمرها به یک خانواده متنوع از معماریها تکامل یافتهاند. در زیر برخی از انواع مدلهای ترانسفورمر آورده شده است.
ترانسفورمرهای دوطرفه (Bidirectional transformers)
بازنماییهای رمزگذار دوطرفه از ترانسفورمرها (BERT) معماری پایه را تغییر میدهند تا کلمات را در رابطه با تمام کلمات دیگر در یک جمله به جای انفرادی پردازش کنند. از نظر فنی، این مدل از مکانیزمی به نام مدل زبان پوشانده شده دوطرفه (MLM) استفاده میکند. در طول پیشآموزش، BERT به طور تصادفی درصد معینی از توکنهای ورودی را میپوشاند و این توکنهای پوشانده شده را بر اساس زمینه آنها پیشبینی میکند. جنبه دوطرفه از این واقعیت ناشی میشود که BERT دنبالههای توکن از چپ به راست و از راست به چپ را در هر دو لایه برای درک بیشتر در نظر میگیرد.
ترانسفورمرهای پیشآموزششده مولد (Generative pretrained transformers)
مدلهای GPT از رمزگشاهای ترانسفورمر انباشتهشده استفاده میکنند که بر روی یک پیکره بزرگ متنی با استفاده از اهداف مدلسازی زبان پیشآموزش داده شدهاند. آنها خود-رگرسیو هستند، به این معنی که مقدار بعدی در یک دنباله را بر اساس تمام مقادیر قبلی رگرس یا پیشبینی میکنند. مدلهای GPT با استفاده از بیش از ۱۷۵ میلیارد پارامتر میتوانند دنبالههای متنی را تولید کنند که برای سبک و لحن تنظیم شدهاند. مدلهای GPT تحقیقات در هوش مصنوعی را به سمت دستیابی به هوش مصنوعی عمومی سوق دادهاند. این بدان معناست که سازمانها میتوانند به سطوح جدیدی از بهرهوری دست یابند در حالی که برنامهها و تجربیات مشتری خود را از نو اختراع میکنند.
ترانسفورمرهای دوطرفه و خود-رگرسیو (Bidirectional and autoregressive transformers)
یک ترانسفورمر دوطرفه و خود-رگرسیو (BART) نوعی مدل ترانسفورمر است که خواص دوطرفه و خود-رگرسیو را ترکیب میکند. این مدل مانند ترکیبی از رمزگذار دوطرفه BERT و رمزگشای خود-رگرسیو GPT است. این مدل کل دنباله ورودی را به طور همزمان میخواند و مانند BERT دوطرفه است. با این حال، دنباله خروجی را یک توکن در یک زمان، مشروط به توکنهای تولید شده قبلی و ورودی ارائه شده توسط رمزگذار، تولید میکند.
ترانسفورمرها برای وظایف چندوجهی (Transformers for multimodal tasks)
مدلهای ترانسفورمر چندوجهی مانند ViLBERT و VisualBERT برای مدیریت انواع مختلف دادههای ورودی، معمولاً متن و تصاویر، طراحی شدهاند. آنها معماری ترانسفورمر را با استفاده از شبکههای دو جریانی که ورودیهای بصری و متنی را به طور جداگانه پردازش میکنند قبل از ادغام اطلاعات، گسترش میدهند. این طراحی مدل را قادر میسازد تا نمایشهای بینوجهی را یاد بگیرد. برای مثال، ViLBERT از لایههای ترانسفورمر با توجه مشترک استفاده میکند تا جریانهای جداگانه بتوانند با هم تعامل داشته باشند. این امر برای موقعیتهایی که درک رابطه بین متن و تصاویر کلیدی است، مانند وظایف پاسخ به پرسشهای بصری، بسیار مهم است.
ترانسفورمرهای بینایی (Vision transformers)
ترانسفورمرهای بینایی (ViT) معماری ترانسفورمر را برای وظایف طبقهبندی تصویر تغییر کاربری میدهند. آنها به جای پردازش یک تصویر به عنوان یک شبکه از پیکسلها، دادههای تصویر را به عنوان یک دنباله از تکههای با اندازه ثابت، مشابه نحوه برخورد با کلمات در یک جمله، در نظر میگیرند. هر تکه مسطح میشود، به صورت خطی تبدیل میشود و سپس به صورت متوالی توسط رمزگذار استاندارد ترانسفورمر پردازش میشود. تبدیلهای موقعیتی برای حفظ اطلاعات فضایی اضافه میشوند. این استفاده از خود-توجهی سراسری مدل را قادر میسازد تا روابط بین هر جفت تکه را، صرف نظر از موقعیت آنها، ثبت کند.