human-in-the-loop در مقابل llm-in-the-loop، تفاوت اصلی‌شان چیست و کدام رویکرد مناسب‌تر است؟

Human-in-the-Loop در مقابل LLM-in-the-Loop، تفاوت اصلی‌شان چیست و کدام رویکرد مناسب‌تر است؟

مقدمه

در هوش مصنوعی، ایجاد تعادل میان نظارت انسانی («انسان در حلقه») و خودکارسازی («LLM در حلقه») برای ساخت راهکارهای واقعی و قابل اتکا حیاتی است.

برای عبور از محدودیت‌های بنچمارک‌گیری سنتی، رویکرد جدیدی توسعه داده شد که در آن از مدل‌های زبانی بزرگ (LLM) برای تولید رونویسی‌های مرجع باکیفیت استفاده می‌شود؛ این کار با پردازش خروجی چند ارائه‌دهنده STT انجام می‌گیرد. به‌جای تکیه بر مراجع تولیدشده توسط انسان یا یک «حقیقت زمینی» واحد، LLM با استفاده از درک خود از زبان و زمینه در میان ورودی‌ها، یک رونویسیِ اجماعی (consensus) را ترکیب و تولید می‌کند.

این مرجعِ استخراج‌شده از LLM امکان محاسبه مقیاس‌پذیر، بدون‌سوگیری و زمینه‌محورِ نرخ خطای کلمه (WER) را برای هر ارائه‌دهنده فراهم می‌کند.

در این مطلب توضیح داده می‌شود این روش مبتنی بر LLM چگونه با بنچمارک‌گیری سنتی مقایسه می‌شود، با تمرکز بر موارد زیر:

  • محدودیت‌های روش‌های فعلی بنچمارک‌گیری

  • اینکه LLMها چگونه رونویسی‌های مرجع را ترکیب می‌کنند

  • یافته‌های کلیدی از آزمایش‌ها

روش موجود: برچسب‌زن‌های انسانی برای «حقیقت زمینی»

چند سال پیش، زمانی که مدل‌های STT برای گویش‌های مختلف موجود در فایل‌های صوتی مرکز تماس مشتریان فاین‌تیون می‌شدند، اتکا به حاشیه‌نویس‌ها و annotatorهای انسانی برای رونویسی بخش‌های کوتاه صوتی بسیار زیاد بود. این رونویسی‌ها به‌عنوان «حقیقت زمینی» برای آموزش و ارزیابی مدل‌های داخلی استفاده می‌شدند.

چالش‌های برچسب‌گذاری انسانی

  • این فرایند زمان‌بر است و چرخه‌های توسعه را کند می‌کند.

  • هزینه‌های بالا، مقیاس‌دادن مؤثر را دشوار می‌کند.

  • بازبین‌های انسانی اغلب از رونویسی‌های موجود شروع می‌کنند و این می‌تواند سوگیری ذاتی در اصلاحات ایجاد کند.

  • کار از نظر ذهنی سنگین است و با گذشت زمان احتمال خطای انسانی را افزایش می‌دهد.

با این حال، این چالش‌ها ارزشش را داشتند؛ مدل اختصاصی فاین‌تیون‌شده در نهایت برای کاربرد مشخصِ مورد نظر، از راهکارهای پیشروی شخص ثالث بهتر عمل کرد.

چالش‌های جدید با تغییر نیازها

با تکامل نیازهای مشتریان، چالش‌های تازه‌ای در برچسب‌گذاری دستی ایجاد شد:

  • پشتیبانی از زبان‌ها و گویش‌های جدید نیازمند استخدام متخصصان انسانی مسلط به هر زبان مشخص بود.

  • آزمون روی کاربردهای صنعتیِ خاص، مانند رونویسی پزشکی، به انسان‌هایی با تخصص دامنه نیاز داشت.

  • رشد سریع مدل‌های پیشرفته متن‌باز، گزینه‌های بیشتری برای ارزیابی، استقرار و فاین‌تیون وارد میدان کرد؛ بنابراین روشی مقیاس‌پذیر و سازگار برای ارزیابی دقت لازم بود، بدون اینکه هفته‌ها برای رونویسی دستی منتظر ماند.

در نتیجه، ورود به یک دوره جدید اتفاق افتاد: LLM در حلقه.

«LLM در حلقه» یعنی چه؟

به‌جای تکیه بر انسان‌ها برای رونویسی صوت و تولید حقیقت زمینی، اکنون از یک مدل زبانی بزرگ (LLM) برای تولید رونویسی مرجع استفاده می‌شود. LLM خروجی چند سامانه رونویسی را تحلیل می‌کند و با استدلال میان آن‌ها، دقیق‌ترین بازسازیِ ممکن از آنچه گفته شده را تولید می‌کند؛ گاهی ممکن است برای بخشی از صوت با خروجی یک مدل هم‌راستا شود و برای بخش دیگری با خروجی مدلی دیگر.

این وضعیت شبیه داشتن یک داور هوشمند و سریع است که:

  • چندین رونویسی از یک صوت را می‌خواند

  • زمینه و ظرافت‌های زبانی را می‌فهمد

  • یک «مرجع» قابل اعتماد و بدون‌سوگیری برای مقایسه مدل‌ها تولید می‌کند

پایپ‌لاین نرم‌افزاری اثبات مفهوم (POC)

برای اعتبارسنجی مفهوم، یک پیکره معروف که پیش‌تر به‌صورت دستی برچسب‌گذاری شده بود پردازش شد. از آن برای تخمین دقت خط لوله مبتنی بر LLM استفاده شد و هم‌زمان سهم واقعی تلاش برچسب‌گذاری دستی اولیه نیز ارزیابی گردید.

آنچه طراحی شد:

  • همان قطعه‌های صوتی ۵ تا ۱۵ ثانیه‌ای با چند سامانه STT رونویسی شدند؛ شامل مدل‌های داخلی، مدل‌های متن‌باز و ارائه‌دهندگان شخص ثالث.

  • برای هر کلیپ، همه رونویسی‌ها به‌همراه برچسب‌های انسانی اصلی جمع‌آوری شد. سپس LLM با این گزینه‌ها (بدون اطلاع از منبع هر خروجی) پرامپت شد و از آن خواسته شد محتمل‌ترین و دقیق‌ترین رونویسی را برای آن قطعه تولید کند.

  • با استفاده از این «حقیقت زمینی مصنوعی» تولیدشده توسط LLM روی حدود ~۳۰۰ نمونه، نرخ خطای کلمه (WER) برای هر سامانه STT محاسبه شد.

human-in-the-loop در مقابل llm-in-the-loop، تفاوت اصلی‌شان چیست و کدام رویکرد مناسب‌تر است؟

یک مثال: LLM چگونه بهترین مرجع را ترکیب می‌کند

فرض کنید خروجی‌های زیر از ارائه‌دهندگان مختلف STT برای یک قطعه کوتاه صوتِ مربوط به کارشناس (agent) در دسترس است:

human-in-the-loop در مقابل llm-in-the-loop، تفاوت اصلی‌شان چیست و کدام رویکرد مناسب‌تر است؟

این رونویسی‌ها در قالب‌بندی، نمایش اعداد و میزان دقت متفاوت‌اند که بازتاب خروجی معمولِ مدل‌های مختلف است.

به LLM دستور داده می‌شود دو رونویسی مرجع هم‌تراز تولید کند:

مرجع الفبایی (Alphabetic): If the twenty-four-hour period passes, that’s going to be a fifty-dollar fee to cancel up to eight days before arrival.

مرجع الفبایی-عددی (Alphanumeric): If the 24-hour period passes, that’s going to be a $50 fee to cancel up to 8 days before arrival.

این رویکرد مقایسه‌ای منصفانه (و بی‌طرف نسبت به قالب‌بندی) میان انواع مختلف خروجی‌ها ایجاد می‌کند: مدل‌های بدون قالب‌بندی (مانند راهکار ما) در برابر مرجع بدون قالب‌بندی سنجیده می‌شوند، در حالی که مدل‌های دارای توان قالب‌بندی با مرجع قالب‌بندی‌شده‌ای مقایسه می‌شوند که معنای معادل را حفظ می‌کند.

مدل‌های ارزیابی‌شده و تنظیمات

مدل‌های زیر آزمون شدند:

  • Vonage AI (VAI) – مدل داخلی فاین‌تیون‌شده، آموزش‌دیده روی داده‌های برچسب‌گذاری‌شده دستی توسط همان تیم

  • Vonage AI (VAI) – نسخه قدیمی‌تر، بدون فاین‌تیون برای این کاربرد

  • رونویسی‌های برچسب‌گذاری‌شده انسانیِ اصلی

  • سه مدل متن‌باز از OpenAI: Whisper-Large(V3)، Whisper-Medium، Whisper-Small

  • دو ارائه‌دهنده شخص ثالث

برای بررسی نقش مراجع انسانی، خط لوله ارزیابی مبتنی بر LLM در دو پیکربندی اجرا شد:

  • Label-In: رونویسی انسانی به‌عنوان یکی از گزینه‌های جایگزینِ نشان‌داده‌شده به LLM برای ترکیب مرجع لحاظ شد.

  • Label-Out: رونویسی انسانی از گزینه‌های نشان‌داده‌شده به LLM حذف شد (پنهان‌سازی/بی‌اطلاع‌سازی).

این دو حالت با هم مقایسه شدند تا هم پایداری مرجع تولیدشده توسط LLM سنجیده شود و هم سوگیری‌های احتمالی ناشی از داده‌های برچسب‌گذاری‌شده انسانی بررسی گردد.

نتایج

نرخ خطای کلمه (WER)

برای معیار اصلی ارزیابی از نرخ خطای کلمه (WER) استفاده شد. این یک معیار استاندارد برای کیفیت رونویسی است. WER تعداد خطاهای موجود در رونویسی را با مقایسه آن با یک مرجع اندازه‌گیری می‌کند. این خطاها در سه دسته قرار می‌گیرند:

  • Insertions (درج): کلمات اضافی که اضافه شده‌اند

  • Deletions (حذف): کلماتی که جا افتاده‌اند

  • Substitutions (جایگزینی): کلمات نادرست به‌جای کلمات درست

WER با فرمول زیر محاسبه می‌شود:

human-in-the-loop در مقابل llm-in-the-loop، تفاوت اصلی‌شان چیست و کدام رویکرد مناسب‌تر است؟
فرمول محاسبه نرخ خطای کلمه (WER) در بنچمارک تبدیل گفتار به متن: مجموع درج‌ها، حذف‌ها و جایگزینی‌ها تقسیم بر کل کلمات مرجع، ضربدر ۱۰۰.

WER کمتر یعنی رونویسی دقیق‌تر است.

human-in-the-loop در مقابل llm-in-the-loop، تفاوت اصلی‌شان چیست و کدام رویکرد مناسب‌تر است؟

مقایسه نرخ خطای کلمه (WER) میان مدل‌های تبدیل گفتار به متن، که نتایج را با مراجع برچسب‌گذاری‌شده انسانی (آبی) در برابر مراجع تولیدشده توسط LLM (قرمز) نشان می‌دهد.

WERها در هر دو تنظیم تقریباً یکسان بودند، که پایداری مراجع تولیدشده توسط LLM را نشان می‌دهد.

یافته‌های کلیدی

  • رتبه‌بندی و مقادیر WER در هر دو حالت label-in و label-out برای اغلب مدل‌ها پایدار بود.

  • «3rd-Party 2» هنگام حذف برچسب انسانی بهبود قابل توجهی نشان داد (WER 10.5 → ۹.۵)، که می‌تواند نشان‌دهنده هم‌راستایی بهتر با خروجی‌های تولیدشده توسط LLM نسبت به حاشیه‌نویسی‌های انسانی باشد.

  • رونویسی‌های برچسب‌گذاری‌شده انسانی تحت این ارزیابی WER بالاتری نسبت به تقریباً همه مدل‌های خودکار داشتند. این موضوع قابل انتظار بود، چون پیکره توسط افراد غیر بومیِ انگلیسی رونویسی شده بود و ابزار حاشیه‌نویسی هم محافظت در برابر تایپو نداشت.

  • مدل فاین‌تیون‌شده VAI که بر اساس برچسب‌های انسانی همان تیم آموزش دیده بود، همچنان از نسخه فاین‌تیون‌نشده بهتر عمل کرد (WER 13.7 → ۱۲.۵)، که ارزش این داده‌ها را با وجود نقص‌ها نشان می‌دهد.

نتیجه‌گیری

این نتایج نشان می‌دهد که رونویسی‌های مرجع تولیدشده توسط LLM برای بنچمارک‌گیری سامانه‌های STT قابل اعتماد، سازگار و مقیاس‌پذیر هستند. WERها و رتبه‌بندی‌های تقریباً یکسان در ارزیابی‌ها (با داده انسانی یا بدون آن) استحکام این خط لوله را برجسته می‌کند.

در حالی که برخی مدل‌ها ممکن است با توکن‌سازی یا سبک قالب‌بندی LLM هم‌راستایی بیشتری داشته باشند (همان‌طور که در «3rd-Party 2» دیده شد)، در مجموع مراجع مشتق‌شده از LLM یک روش ارزیابی منصفانه و قابل بازتولید ارائه می‌دهند.

نکته مهم این است که با وجود اینکه مراجع برچسب‌گذاری‌شده انسانی نرخ خطای بالاتری نشان دادند، همچنان برای آموزش مدل ارزشمند هستند. فاین‌تیون روی این داده‌ها عملکرد مدل را به‌شکل معناداری بهبود داد و نقش داده‌های برچسب‌گذاری‌شده را در توسعه مدل تأیید کرد، حتی وقتی ارزیابی بتواند خودکار شود.

جمع‌بندی نهایی

  • LLMها می‌توانند رونویسی‌های مرجع قابل اتکا تولید کنند و از بنچمارک‌گیری مقیاس‌پذیر و پُرتوان پشتیبانی نمایند.

  • مراجع برچسب‌گذاری‌شده انسانی دیگر برای ارزیابی ضروری نیستند، اما برای آموزش همچنان مزیت دارند.

  • این روش بنچمارک‌گیری منصفانه را روی مدل‌ها، زبان‌ها و دامنه‌های جدید سرعت می‌دهد و نیاز به رونویسی دستی را حذف می‌کند.

اگر هدف ساخت عامل هوش مصنوعی اختصاصی و بنچمارک کردن راهکارهای مختلف باشد، می‌توان یک عامل در AI Studio ساخت و آن را با راهکارهای شخص ثالث مختلف مانند Deepgram ترکیب کرد تا مشخص شود کدام گزینه بهتر عمل می‌کند.

AP2: انقلاب عامل‌محور تجارت الکترونیک و تولد اکوسیستم پرداخت هوش مصنوعی چگونه شکل خواهد گرفت؟
چگونه یک فایل‌هاب (File Hub) می‌تواند به شما کمک کند یک استراتژی انتقال فایل مقاوم‌تر بسازیم؟

دیدگاهتان را بنویسید

سبد خرید
علاقه‌مندی‌ها
مشاهدات اخیر
دسته بندی ها