36763

روش تست LLMها چیست؟

مدل‌های زبانی بزرگ (LLMs) در مدت‌زمانی بسیار کوتاه به‌طور گسترده فراگیر شده‌اند. این ابزارهای هوش مصنوعی راه‌حل‌های جدیدی برای همه چیز، از وظایف ساده گرفته تا تحلیل‌های پیچیده داده، ارائه داده‌اند و ارزش شگفت‌انگیزی را برای بسیاری از سازمان‌ها آزاد کرده‌اند.

اگرچه LLMها ارزش آشکاری دارند، اما نقاط ضعفی نیز دارند، به‌ویژه با توجه به تمایل آن‌ها به تولید اطلاعات نادرست (hallucination). برای یک کسب‌وکار، تشخیص این‌که ابزاری مانند Slack مناسب سازمانشان هست یا نه آسان است. اما قضاوت دربارهٔ استفاده از یک LLM به این سادگی نیست. در اینجاست که تست LLM اهمیت پیدا می‌کند.

از آنجا که LLMها در شکل کنونی خود نسبتاً جدید هستند، استانداردهای مختلف و رقابتی برای سنجش کارایی آن‌ها وجود دارد. در ادامه، به هفت روش و استاندارد مهم برای تست LLMها اشاره می‌کنیم. اگرچه این فهرست کامل نیست و ممکن است با پیشرفت صنعت تغییر کند، اما نقطهٔ شروع خوبی برای سازمان‌هایی است که تازه وارد این حوزه شده‌اند.

۱. BERTScore

BERTScore که بر اساس مدل زبانی Bidirectional Encoder Representations from Transformers ساخته شده و نخستین‌بار توسط پژوهشگران گوگل در اکتبر ۲۰۱۸ معرفی شد، معیاری برای اندازه‌گیری خروجی LLMها نسبت به یک جملهٔ مرجع است.

با ارائهٔ توکن‌های جملهٔ مرجع و مقایسهٔ آن‌ها با توکن‌های جملهٔ تولیدشده، خروجی مدل امتیازدهی می‌شود تا میزان شباهت نسبی بین دو جمله تخمین زده شود. BERTScore اساساً شباهت کسینوسی بین این دو مجموعه است، اما مقادیری همچون دقت (precision) و یادآوری (recall) نیز در تولید امتیاز نهایی ارائه می‌شود.

BERTScore همچنان استفاده می‌شود، اما محدودیت‌هایی دارد که باعث ایجاد روش‌های دیگر شده است. مهم‌ترین ضعف آن محدود بودن پشتیبانی به مجموعه‌ای محدود از زبان‌هاست. گرچه این برای زبان‌های رایج کافی است، اما استفادهٔ آن برای همهٔ کاربردها را محدود می‌کند. علاوه بر این، مدل بسیار بزرگ است و اغلب به‌عنوان یک روش brute-force تلقی می‌شود که بدون توجه به تفسیرهای نوآورانه یا تغییرات معنایی، صرفاً مرجع را با متن تولیدی مقایسه می‌کند.

این ضعف باعث توسعهٔ روش‌هایی مانند BLEURT شده است که از رگرسیون برای اندازه‌گیری همزمان معیارهای BERTScore و میزان فهم‌پذیری و بافت معنایی نتیجه استفاده می‌کند.

۲. ROUGE

ROUGE (کوتاه‌شدهٔ Recall-Oriented Understudy for Gisting Evaluation)، معیاری است که نخستین‌بار در سال ۲۰۰۴ برای مقایسهٔ متن اصلی با متن تولیدی در خلاصه‌سازی یا ترجمه پیشنهاد شد. ROUGE یک معیار واحد نیست، بلکه شامل چند زیرمعیار است:

  • ROUGE-N: اندازه‌گیری تطابق n-gramها بین متن مرجع و متن تولیدی.

  • ROUGE-1 و ROUGE-2: بررسی تطابق تک‌واژه‌ها و دوواژه‌ها برای ایجاد دقت بیشتر.

  • ROUGE-L: مبتنی بر طولانی‌ترین زیر‌دنبالهٔ مشترک (LCS) میان دو متن، که از بالا ارزیابی‌شدن «کپی‌کردن» جلوگیری می‌کند.

  • ROUGE-S: بررسی skip-gramها؛ یعنی تطابق‌های جداشده با کلمات اضافی.

ضعف اصلی ROUGE تمرکز آن بر تشخیص ساختار نحوی است نه معنای متن. این معیار خروجی را از نظر شباهت ظاهری می‌سنجد، نه نزدیکی معنایی. این موضوع باعث انتقاداتی شده است، اما تمرکز آن بر تکرار، ROUGE را برای شناسایی متن‌های تولیدشده توسط LLMها مفید کرده است.

۳. BLEU

BLEU (Bilingual Evaluation Understudy)، معیاری قدیمی‌تر است که ابتدا توسط پژوهشگران IBM در سال ۲۰۰۲ منتشر شد. این معیار برای ارزیابی ترجمهٔ ماشینی طراحی شده و شباهت n-gramها را بین ترجمهٔ مرجع و متن تولیدشده بررسی می‌کند. امتیاز بین ۰ تا ۱ است.

مشکل اصلی BLEU این است که فرض می‌کند تنها یک ترجمهٔ صحیح وجود دارد. مثلاً مقایسهٔ «konnichiwa» با «hello» درست است، اما گزینه‌های دیگری مانند «good afternoon» نیز می‌توانند درست باشند. BLEU اغلب بدون درنظرگرفتن این تنوع، تطابق را می‌سنجد.

همچنین BLEU وابستگی شدیدی به توکن‌ها دارد و مقادیر آن بین مجموعه‌داده‌های مختلف به‌شدت متفاوت است، که استفادهٔ گستردهٔ آن را محدود می‌کند.

۴. MMLU و MMLU Pro

MMLU (Massive Multi-task Language Understanding) روشی برای آزمودن LLMها در حوزه‌های مختلف تخصصی است. در سال ۲۰۲۰ معرفی شد و شامل پرسش‌وپاسخ‌هایی در ۵۷ موضوع مانند ریاضیات، حقوق، تاریخ جهان و … است. پاسخ‌های صحیح منتشر نمی‌شوند تا از دستکاری جلوگیری شود.

عملکرد مدل با معیارهایی مانند انسجام، ارتباط، جزئیات و وضوح سنجیده و به یک نمرهٔ عددی تبدیل می‌شود.

این آزمون به‌خاطر مشکلاتی مانند خطاهای معناشناختی یا سوگیری مورد انتقاد قرار گرفته است. برای رفع این مشکلات، نسخهٔ MMLU Pro در سال ۲۰۲۴ عرضه شد که دقت بالاتر و خطاهای کمتر دارد، اما همچنان انتقاداتی دربارهٔ سوگیری وجود دارد.

۵. GLUE

GLUE (General Language Understanding Evaluation) یک معیار جامع و عمومی برای سنجش LLMهاست. برخلاف ROUGE یا BLEU، GLUE مجموعه‌ای از ۹ وظیفهٔ زبان‌محور را ارزیابی می‌کند، مانند:

  • تحلیل احساس

  • پرسش‌وپاسخ

  • شباهت جمله‌ها

  • و موارد دیگر

GLUE سه هدف اصلی دارد:

  1. یک بنچمارک متشکل از ۹ وظیفهٔ زبانی

  2. یک مجموعه‌دادهٔ تشخیصی برای بررسی پدیده‌های زبانی

  3. یک لیدربورد عمومی

ضعف GLUE این است که یک عدد واحد ارائه می‌دهد که ممکن است خیلی کلی باشد. به همین دلیل SuperGLUE معرفی شد که وظایف سخت‌تری دارد.

۶. G-Eval

G-Eval برای رفع مشکلات معیارهای قدیمی طراحی شده و بر منطق و فرآیند شکل‌گیری پاسخ تمرکز دارد، نه فقط شباهت خروجی با مرجع. این روش از Chain-of-Thought (CoT) استفاده می‌کند تا بررسی کند مدل چگونه به پاسخ رسیده است.

این رویکرد اهمیت دارد، زیرا بسیاری از خطاها در ادامهٔ گفتگو و نه در اولین جمله رخ می‌دهند. G-Eval تلاش می‌کند انسجام منطقی را ارزیابی کند.

با وجود پیشرفت‌ها، G-Eval همچنان به مجموعه‌داده‌های آموزش وابسته است که ممکن است سوگیری ایجاد کند. همچنین به GPT-4 وابسته است که منبع دادهٔ آن شفاف نیست.

۷. HELM

HELM (Holistic Evaluation of Language Models) که در سال ۲۰۲۲ معرفی شد، رویکردی جامع به ارزیابی مدل‌ها دارد و نه تمرکز بر یک معیار واحد. این مدل ۷ معیار اصلی را بررسی می‌کند:

  • دقت

  • کالیبراسیون

  • مقاومت (robustness)

  • انصاف

  • سوگیری

  • میزان سمی‌بودن محتوا

  • کارایی

HELM بیشتر به کیفیت و هدف پاسخ توجه دارد تا نزدیکی به متن مرجع.

با این حال، همچنان وابسته به مجموعه‌داده‌هایی مانند LegalBench، MedQA، OpenbookQA و MMLU است که ممکن است محدودیت یا سوگیری داشته باشند.

ذکر ویژه (Honorable Mentions)

  • SelfCheckGPT: بررسی دقت خروجی با نمونه‌گیری چندباره.

  • LLM-Eval: سنجش عملکرد کلی در حوزه‌های مختلف.

  • METEOR: ارزیابی کیفیت ترجمهٔ ماشینی.

  • AlpacaEval: سنجش میزان پیروی مدل از دستورهای کاربر.

نتیجه‌گیری نهایی

جهان LLMها بسیار جدید و در حال تحول سریع است. طبیعتاً روش‌های سنجش کیفیت آن‌ها نیز دائماً در حال تغییرند. با این حال، این فهرست دید خوبی از معیارهای رایج ارائه می‌دهد و مسیر تفکر فعلی دربارهٔ ارزیابی LLMها را نشان می‌دهد.

آیا باید ابزارهای OpenAPI را بسازیم یا بخریم؟
چت‌بات‌های مبتنی بر هوش مصنوعی چگونه مستندات (Documentation) را بهبود می‌بخشند؟

دیدگاهتان را بنویسید

سبد خرید
علاقه‌مندی‌ها
مشاهدات اخیر
دسته بندی ها