مدلهای زبانی بزرگ (LLMs) در مدتزمانی بسیار کوتاه بهطور گسترده فراگیر شدهاند. این ابزارهای هوش مصنوعی راهحلهای جدیدی برای همه چیز، از وظایف ساده گرفته تا تحلیلهای پیچیده داده، ارائه دادهاند و ارزش شگفتانگیزی را برای بسیاری از سازمانها آزاد کردهاند.
اگرچه LLMها ارزش آشکاری دارند، اما نقاط ضعفی نیز دارند، بهویژه با توجه به تمایل آنها به تولید اطلاعات نادرست (hallucination). برای یک کسبوکار، تشخیص اینکه ابزاری مانند Slack مناسب سازمانشان هست یا نه آسان است. اما قضاوت دربارهٔ استفاده از یک LLM به این سادگی نیست. در اینجاست که تست LLM اهمیت پیدا میکند.
از آنجا که LLMها در شکل کنونی خود نسبتاً جدید هستند، استانداردهای مختلف و رقابتی برای سنجش کارایی آنها وجود دارد. در ادامه، به هفت روش و استاندارد مهم برای تست LLMها اشاره میکنیم. اگرچه این فهرست کامل نیست و ممکن است با پیشرفت صنعت تغییر کند، اما نقطهٔ شروع خوبی برای سازمانهایی است که تازه وارد این حوزه شدهاند.
۱. BERTScore
BERTScore که بر اساس مدل زبانی Bidirectional Encoder Representations from Transformers ساخته شده و نخستینبار توسط پژوهشگران گوگل در اکتبر ۲۰۱۸ معرفی شد، معیاری برای اندازهگیری خروجی LLMها نسبت به یک جملهٔ مرجع است.
با ارائهٔ توکنهای جملهٔ مرجع و مقایسهٔ آنها با توکنهای جملهٔ تولیدشده، خروجی مدل امتیازدهی میشود تا میزان شباهت نسبی بین دو جمله تخمین زده شود. BERTScore اساساً شباهت کسینوسی بین این دو مجموعه است، اما مقادیری همچون دقت (precision) و یادآوری (recall) نیز در تولید امتیاز نهایی ارائه میشود.
BERTScore همچنان استفاده میشود، اما محدودیتهایی دارد که باعث ایجاد روشهای دیگر شده است. مهمترین ضعف آن محدود بودن پشتیبانی به مجموعهای محدود از زبانهاست. گرچه این برای زبانهای رایج کافی است، اما استفادهٔ آن برای همهٔ کاربردها را محدود میکند. علاوه بر این، مدل بسیار بزرگ است و اغلب بهعنوان یک روش brute-force تلقی میشود که بدون توجه به تفسیرهای نوآورانه یا تغییرات معنایی، صرفاً مرجع را با متن تولیدی مقایسه میکند.
این ضعف باعث توسعهٔ روشهایی مانند BLEURT شده است که از رگرسیون برای اندازهگیری همزمان معیارهای BERTScore و میزان فهمپذیری و بافت معنایی نتیجه استفاده میکند.
۲. ROUGE
ROUGE (کوتاهشدهٔ Recall-Oriented Understudy for Gisting Evaluation)، معیاری است که نخستینبار در سال ۲۰۰۴ برای مقایسهٔ متن اصلی با متن تولیدی در خلاصهسازی یا ترجمه پیشنهاد شد. ROUGE یک معیار واحد نیست، بلکه شامل چند زیرمعیار است:
-
ROUGE-N: اندازهگیری تطابق n-gramها بین متن مرجع و متن تولیدی.
-
ROUGE-1 و ROUGE-2: بررسی تطابق تکواژهها و دوواژهها برای ایجاد دقت بیشتر.
-
ROUGE-L: مبتنی بر طولانیترین زیردنبالهٔ مشترک (LCS) میان دو متن، که از بالا ارزیابیشدن «کپیکردن» جلوگیری میکند.
-
ROUGE-S: بررسی skip-gramها؛ یعنی تطابقهای جداشده با کلمات اضافی.
ضعف اصلی ROUGE تمرکز آن بر تشخیص ساختار نحوی است نه معنای متن. این معیار خروجی را از نظر شباهت ظاهری میسنجد، نه نزدیکی معنایی. این موضوع باعث انتقاداتی شده است، اما تمرکز آن بر تکرار، ROUGE را برای شناسایی متنهای تولیدشده توسط LLMها مفید کرده است.
۳. BLEU
BLEU (Bilingual Evaluation Understudy)، معیاری قدیمیتر است که ابتدا توسط پژوهشگران IBM در سال ۲۰۰۲ منتشر شد. این معیار برای ارزیابی ترجمهٔ ماشینی طراحی شده و شباهت n-gramها را بین ترجمهٔ مرجع و متن تولیدشده بررسی میکند. امتیاز بین ۰ تا ۱ است.
مشکل اصلی BLEU این است که فرض میکند تنها یک ترجمهٔ صحیح وجود دارد. مثلاً مقایسهٔ «konnichiwa» با «hello» درست است، اما گزینههای دیگری مانند «good afternoon» نیز میتوانند درست باشند. BLEU اغلب بدون درنظرگرفتن این تنوع، تطابق را میسنجد.
همچنین BLEU وابستگی شدیدی به توکنها دارد و مقادیر آن بین مجموعهدادههای مختلف بهشدت متفاوت است، که استفادهٔ گستردهٔ آن را محدود میکند.
۴. MMLU و MMLU Pro
MMLU (Massive Multi-task Language Understanding) روشی برای آزمودن LLMها در حوزههای مختلف تخصصی است. در سال ۲۰۲۰ معرفی شد و شامل پرسشوپاسخهایی در ۵۷ موضوع مانند ریاضیات، حقوق، تاریخ جهان و … است. پاسخهای صحیح منتشر نمیشوند تا از دستکاری جلوگیری شود.
عملکرد مدل با معیارهایی مانند انسجام، ارتباط، جزئیات و وضوح سنجیده و به یک نمرهٔ عددی تبدیل میشود.
این آزمون بهخاطر مشکلاتی مانند خطاهای معناشناختی یا سوگیری مورد انتقاد قرار گرفته است. برای رفع این مشکلات، نسخهٔ MMLU Pro در سال ۲۰۲۴ عرضه شد که دقت بالاتر و خطاهای کمتر دارد، اما همچنان انتقاداتی دربارهٔ سوگیری وجود دارد.
۵. GLUE
GLUE (General Language Understanding Evaluation) یک معیار جامع و عمومی برای سنجش LLMهاست. برخلاف ROUGE یا BLEU، GLUE مجموعهای از ۹ وظیفهٔ زبانمحور را ارزیابی میکند، مانند:
-
تحلیل احساس
-
پرسشوپاسخ
-
شباهت جملهها
-
و موارد دیگر
GLUE سه هدف اصلی دارد:
-
یک بنچمارک متشکل از ۹ وظیفهٔ زبانی
-
یک مجموعهدادهٔ تشخیصی برای بررسی پدیدههای زبانی
-
یک لیدربورد عمومی
ضعف GLUE این است که یک عدد واحد ارائه میدهد که ممکن است خیلی کلی باشد. به همین دلیل SuperGLUE معرفی شد که وظایف سختتری دارد.
۶. G-Eval
G-Eval برای رفع مشکلات معیارهای قدیمی طراحی شده و بر منطق و فرآیند شکلگیری پاسخ تمرکز دارد، نه فقط شباهت خروجی با مرجع. این روش از Chain-of-Thought (CoT) استفاده میکند تا بررسی کند مدل چگونه به پاسخ رسیده است.
این رویکرد اهمیت دارد، زیرا بسیاری از خطاها در ادامهٔ گفتگو و نه در اولین جمله رخ میدهند. G-Eval تلاش میکند انسجام منطقی را ارزیابی کند.
با وجود پیشرفتها، G-Eval همچنان به مجموعهدادههای آموزش وابسته است که ممکن است سوگیری ایجاد کند. همچنین به GPT-4 وابسته است که منبع دادهٔ آن شفاف نیست.
۷. HELM
HELM (Holistic Evaluation of Language Models) که در سال ۲۰۲۲ معرفی شد، رویکردی جامع به ارزیابی مدلها دارد و نه تمرکز بر یک معیار واحد. این مدل ۷ معیار اصلی را بررسی میکند:
-
دقت
-
کالیبراسیون
-
مقاومت (robustness)
-
انصاف
-
سوگیری
-
میزان سمیبودن محتوا
-
کارایی
HELM بیشتر به کیفیت و هدف پاسخ توجه دارد تا نزدیکی به متن مرجع.
با این حال، همچنان وابسته به مجموعهدادههایی مانند LegalBench، MedQA، OpenbookQA و MMLU است که ممکن است محدودیت یا سوگیری داشته باشند.
ذکر ویژه (Honorable Mentions)
-
SelfCheckGPT: بررسی دقت خروجی با نمونهگیری چندباره.
-
LLM-Eval: سنجش عملکرد کلی در حوزههای مختلف.
-
METEOR: ارزیابی کیفیت ترجمهٔ ماشینی.
-
AlpacaEval: سنجش میزان پیروی مدل از دستورهای کاربر.
نتیجهگیری نهایی
جهان LLMها بسیار جدید و در حال تحول سریع است. طبیعتاً روشهای سنجش کیفیت آنها نیز دائماً در حال تغییرند. با این حال، این فهرست دید خوبی از معیارهای رایج ارائه میدهد و مسیر تفکر فعلی دربارهٔ ارزیابی LLMها را نشان میدهد.
