برچسب‌گذاری داده‌‌ها (Data Labelling) چگونه به انجام می رسد؟

برچسب‌گذاری داده‌‌ها (Data Labelling) چگونه به انجام می رسد؟

در یادگیری ماشین (ML)، برچسب‌گذاری داده‌ها به فرایند شناسایی داده‌های خام (تصاویر، فایل‌های متنی، ویدئوها و غیره) و افزودن یک یا چند برچسب معنادار و اطلاعات زمینه‌ای اشاره دارد تا مدل یادگیری ماشین بتواند از آن پیروی کند. به‌عنوان مثال، برچسب‌ها می‌توانند نشان دهند که آیا یک عکس حاوی پرنده یا خودرو است، کدام کلمات در یک ضبط صوتی بیان شده‌اند، یا آیا یک عکس رادیولوژی حاوی تومور است یا خیر. برچسب‌گذاری داده‌ها برای انواع مختلفی از کاربردها از جمله بینایی کامپیوتری، پردازش زبان طبیعی (NLP) و شناسایی گفتار ضروری است.

نحوه عملکرد Data Labelling
امروزه، بیشتر مدل‌های عملی یادگیری ماشین از یادگیری نظارت‌شده استفاده می‌کنند که الگوریتمی را برای ارتباط یک ورودی با یک خروجی به کار می‌برد. برای اینکه یادگیری نظارت‌شده به‌درستی عمل کند، به یک مجموعه داده برچسب‌گذاری شده نیاز است که مدل بتواند از آن یاد بگیرد و تصمیمات صحیحی بگیرد. برچسب‌گذاری داده‌ها معمولاً با درخواست از انسان‌ها برای قضاوت درباره یک قطعه از داده‌های بدون برچسب آغاز می‌شود. برای مثال، ممکن است از برچسب گذاران خواسته شود تا تمام تصاویری را که در یک مجموعه داده وجود دارد و “آیا عکس حاوی پرنده است” را برچسب‌گذاری کنند. برچسب‌گذاری می‌تواند به‌سادگی یک بله/خیر و یا شناسایی پیکسل‌های خاص در تصویر مرتبط با پرنده باشد. مدل یادگیری ماشین از برچسب‌های ارائه‌شده توسط انسان برای یادگیری الگوهای پایه در فرایندی به نام “آموزش مدل” استفاده می‌کند. نتیجه، یک مدل آموزش‌دیده است که می‌توان از آن برای پیش‌بینی داده‌های جدید استفاده کرد.
در یادگیری ماشین، یک مجموعه داده به‌خوبی برچسب‌گذاری شده که به عنوان استاندارد هدف برای آموزش و ارزیابی یک مدل خاص استفاده می‌شود، معمولاً “واقعیت عینی” نامیده می‌شود. دقت مدل آموزش‌دیده به دقت این واقعیت بستگی دارد، بنابراین صرف زمان و منابع برای اطمینان از برچسب‌گذاری دقیق داده‌ها ضروری است.

انواع رایج برچسب‌گذاری داده‌ها

  • بینایی کامپیوتری
    هنگام ساخت یک سیستم بینایی کامپیوتری، ابتدا باید تصاویر، پیکسل‌ها یا نقاط کلیدی را برچسب‌گذاری کرد یا مرزی به نام “کادر نامرئی”  که یک تصویر دیجیتال را کامل در بر می‌گیرد، ایجاد شده تا مجموعه داده آموزشی تولید شود. به عنوان مثال، می‌توان تصاویر را بر اساس نوع کیفیت (مانند تصاویر محصول در مقابل تصاویر سبک زندگی) یا محتوا (آنچه واقعاً در تصویر وجود دارد) طبقه‌بندی کرد، یا می‌توان یک تصویر را در سطح پیکسل تقسیم‌بندی کرد. سپس می‌توان از این داده‌های آموزشی در ساخت یک مدل بینایی کامپیوتری استفاده کرد که به‌طور خودکار تصاویر را دسته‌بندی، مکان اشیا و نقاط کلیدی در یک تصویر را شناسایی و یا یک تصویر را تقسیم‌بندی کند.
  • پردازش زبان طبیعی
    پردازش زبان طبیعی نیازمند این است که برای تولید مجموعه آموزشی،  بخش‌های مهم متن به‌صورت دستی شناسایی شده و یا متن با برچسب‌های خاص برچسب‌گذاری شود. به عنوان مثال، ممکن است درصدد شناسایی احساس یا قصد یک متن کوتاه، اجزای کلام، متن داخل تصاویر، فایل‌های PDF یا سایر فایل‌ها، و یا طبقه‌بندی اسامی خاص مانند مکان‌ها و افراد باشیم. برای این کار، می‌توان دور جملات کادر نامرئی را خط کشید و سپس متن به‌صورت دستی در مجموعه داده آموزشی رونویسی شود. مدل‌های پردازش زبان طبیعی برای تحلیل احساسات، شناسایی نام موجودیت‌ها و شناسایی کاراکترهای نوری استفاده می‌شوند.
  • پردازش صوت
    پردازش صوت انواع صداها مانند گفتار، صداهای حیات‌وحش (واق‌واق یا جیک‌جیک)، و صداهای ساختمان (شکستن شیشه یا زنگ‌ها) را به یک فرمت ساختاری تبدیل می‌کند تا بتوان از آن در یادگیری ماشین استفاده کرد. پردازش صوت معمولاً نیاز دارد که ابتدا به متن نوشته تبدیل شود. به این شکل، می‌توان اطلاعات عمیق‌تری درباره صوت با افزودن برچسب‌ها و دسته‌بندی صوت به‌دست آورد. این صوت دسته‌بندی‌شده مجموعه داده آموزشی را تشکیل می‌دهد.

بهترین شیوه‌ها برای برچسب‌گذاری داده‌ها

تکنیک‌های زیادی برای بهبود کارایی و بالا بردن دقت برچسب گذاری داده‌ها وجود دارد. برخی از این تکنیک‌ها شامل موارد زیر است:

  • رابط‌های کاربری ساده و روان برای کمک به کاهش بار شناختی و تغییر زمینه برای برچسب گذاران انسانی
  • توافق برچسب گذاران برای کمک به مقابله با خطا یا تعصبات فردی برچسب گذاران که شامل ارسال هر مجموعه داده به چندین برچسب گذار و سپس تجمیع پاسخ‌های آن‌ها به یک برچسب واحد است.
  • بررسی برچسب‌ها برای تأیید دقت و به‌روزرسانی آن‌ها در صورت لزوم
  • یادگیری فعال برای بهبود کارایی برچسب‌گذاری داده‌ها با استفاده از یادگیری ماشین برای شناسایی مفیدترین داده‌ها

بهترین روش Data Labelling
مدل‌های موفق یادگیری ماشین بر اساس حجم بالایی از داده‌های آموزشی باکیفیت بالا ساخته می‌شوند. اما فرایند ایجاد داده‌های آموزشی لازم برای ساخت این مدل‌ها معمولاً پرهزینه، پیچیده و زمان‌بر است. اکثر مدل‌های امروزی نیاز دارند که یک انسان به‌صورت دستی داده‌ها را به‌گونه‌ای برچسب‌گذاری کند که به مدل اجازه دهد یاد بگیرد چگونه تصمیمات صحیحی بگیرد. برای غلبه بر این چالش، می‌توان با استفاده از یک مدل یادگیری ماشین برای برچسب‌گذاری خودکار داده‌ها، کارایی برچسب‌گذاری را افزایش داد.
در این فرایند، یک مدل یادگیری ماشین برای برچسب‌گذاری داده‌ها ابتدا روی یک زیرمجموعه از داده‌های خام که توسط انسان‌ها برچسب‌گذاری شده است، آموزش داده می‌شود. زمانی که مدل برچسب‌گذاری، بر اساس آنچه تاکنون یاد گرفته، اعتماد بالایی به نتایج خود دارد، به‌طور خودکار برچسب‌ها را به داده‌های خام اعمال می‌کند. زمانی که مدل برچسب‌گذاری اعتماد کمتری به نتایج خود دارد، داده‌ها را به انسان‌ها می‌فرستد تا برچسب‌گذاری کنند. برچسب‌های انسانی سپس به مدل برچسب‌گذاری بازگردانده می‌شوند تا از آن یاد بگیرد و توانایی خود را برای برچسب‌گذاری خودکار مجموعه بعدی داده‌های خام بهبود بخشد. با گذشت زمان، مدل می‌تواند داده‌های بیشتری را به‌طور خودکار برچسب‌گذاری کند و به‌طور قابل‌توجهی سرعت ایجاد مجموعه داده‌های آموزشی را افزایش دهد.

تحلیل کسب‌وکار (‌Business Analytics) یعنی چه؟

دیدگاهتان را بنویسید

سبد خرید
علاقه‌مندی‌ها
مشاهدات اخیر
دسته بندی ها