در یادگیری ماشین (ML)، برچسبگذاری دادهها به فرایند شناسایی دادههای خام (تصاویر، فایلهای متنی، ویدئوها و غیره) و افزودن یک یا چند برچسب معنادار و اطلاعات زمینهای اشاره دارد تا مدل یادگیری ماشین بتواند از آن پیروی کند. بهعنوان مثال، برچسبها میتوانند نشان دهند که آیا یک عکس حاوی پرنده یا خودرو است، کدام کلمات در یک ضبط صوتی بیان شدهاند، یا آیا یک عکس رادیولوژی حاوی تومور است یا خیر. برچسبگذاری دادهها برای انواع مختلفی از کاربردها از جمله بینایی کامپیوتری، پردازش زبان طبیعی (NLP) و شناسایی گفتار ضروری است.
نحوه عملکرد Data Labelling
امروزه، بیشتر مدلهای عملی یادگیری ماشین از یادگیری نظارتشده استفاده میکنند که الگوریتمی را برای ارتباط یک ورودی با یک خروجی به کار میبرد. برای اینکه یادگیری نظارتشده بهدرستی عمل کند، به یک مجموعه داده برچسبگذاری شده نیاز است که مدل بتواند از آن یاد بگیرد و تصمیمات صحیحی بگیرد. برچسبگذاری دادهها معمولاً با درخواست از انسانها برای قضاوت درباره یک قطعه از دادههای بدون برچسب آغاز میشود. برای مثال، ممکن است از برچسب گذاران خواسته شود تا تمام تصاویری را که در یک مجموعه داده وجود دارد و “آیا عکس حاوی پرنده است” را برچسبگذاری کنند. برچسبگذاری میتواند بهسادگی یک بله/خیر و یا شناسایی پیکسلهای خاص در تصویر مرتبط با پرنده باشد. مدل یادگیری ماشین از برچسبهای ارائهشده توسط انسان برای یادگیری الگوهای پایه در فرایندی به نام “آموزش مدل” استفاده میکند. نتیجه، یک مدل آموزشدیده است که میتوان از آن برای پیشبینی دادههای جدید استفاده کرد.
در یادگیری ماشین، یک مجموعه داده بهخوبی برچسبگذاری شده که به عنوان استاندارد هدف برای آموزش و ارزیابی یک مدل خاص استفاده میشود، معمولاً “واقعیت عینی” نامیده میشود. دقت مدل آموزشدیده به دقت این واقعیت بستگی دارد، بنابراین صرف زمان و منابع برای اطمینان از برچسبگذاری دقیق دادهها ضروری است.
انواع رایج برچسبگذاری دادهها
- بینایی کامپیوتری
هنگام ساخت یک سیستم بینایی کامپیوتری، ابتدا باید تصاویر، پیکسلها یا نقاط کلیدی را برچسبگذاری کرد یا مرزی به نام “کادر نامرئی” که یک تصویر دیجیتال را کامل در بر میگیرد، ایجاد شده تا مجموعه داده آموزشی تولید شود. به عنوان مثال، میتوان تصاویر را بر اساس نوع کیفیت (مانند تصاویر محصول در مقابل تصاویر سبک زندگی) یا محتوا (آنچه واقعاً در تصویر وجود دارد) طبقهبندی کرد، یا میتوان یک تصویر را در سطح پیکسل تقسیمبندی کرد. سپس میتوان از این دادههای آموزشی در ساخت یک مدل بینایی کامپیوتری استفاده کرد که بهطور خودکار تصاویر را دستهبندی، مکان اشیا و نقاط کلیدی در یک تصویر را شناسایی و یا یک تصویر را تقسیمبندی کند. - پردازش زبان طبیعی
پردازش زبان طبیعی نیازمند این است که برای تولید مجموعه آموزشی، بخشهای مهم متن بهصورت دستی شناسایی شده و یا متن با برچسبهای خاص برچسبگذاری شود. به عنوان مثال، ممکن است درصدد شناسایی احساس یا قصد یک متن کوتاه، اجزای کلام، متن داخل تصاویر، فایلهای PDF یا سایر فایلها، و یا طبقهبندی اسامی خاص مانند مکانها و افراد باشیم. برای این کار، میتوان دور جملات کادر نامرئی را خط کشید و سپس متن بهصورت دستی در مجموعه داده آموزشی رونویسی شود. مدلهای پردازش زبان طبیعی برای تحلیل احساسات، شناسایی نام موجودیتها و شناسایی کاراکترهای نوری استفاده میشوند. - پردازش صوت
پردازش صوت انواع صداها مانند گفتار، صداهای حیاتوحش (واقواق یا جیکجیک)، و صداهای ساختمان (شکستن شیشه یا زنگها) را به یک فرمت ساختاری تبدیل میکند تا بتوان از آن در یادگیری ماشین استفاده کرد. پردازش صوت معمولاً نیاز دارد که ابتدا به متن نوشته تبدیل شود. به این شکل، میتوان اطلاعات عمیقتری درباره صوت با افزودن برچسبها و دستهبندی صوت بهدست آورد. این صوت دستهبندیشده مجموعه داده آموزشی را تشکیل میدهد.
بهترین شیوهها برای برچسبگذاری دادهها
تکنیکهای زیادی برای بهبود کارایی و بالا بردن دقت برچسب گذاری دادهها وجود دارد. برخی از این تکنیکها شامل موارد زیر است:
- رابطهای کاربری ساده و روان برای کمک به کاهش بار شناختی و تغییر زمینه برای برچسب گذاران انسانی
- توافق برچسب گذاران برای کمک به مقابله با خطا یا تعصبات فردی برچسب گذاران که شامل ارسال هر مجموعه داده به چندین برچسب گذار و سپس تجمیع پاسخهای آنها به یک برچسب واحد است.
- بررسی برچسبها برای تأیید دقت و بهروزرسانی آنها در صورت لزوم
- یادگیری فعال برای بهبود کارایی برچسبگذاری دادهها با استفاده از یادگیری ماشین برای شناسایی مفیدترین دادهها
بهترین روش Data Labelling
مدلهای موفق یادگیری ماشین بر اساس حجم بالایی از دادههای آموزشی باکیفیت بالا ساخته میشوند. اما فرایند ایجاد دادههای آموزشی لازم برای ساخت این مدلها معمولاً پرهزینه، پیچیده و زمانبر است. اکثر مدلهای امروزی نیاز دارند که یک انسان بهصورت دستی دادهها را بهگونهای برچسبگذاری کند که به مدل اجازه دهد یاد بگیرد چگونه تصمیمات صحیحی بگیرد. برای غلبه بر این چالش، میتوان با استفاده از یک مدل یادگیری ماشین برای برچسبگذاری خودکار دادهها، کارایی برچسبگذاری را افزایش داد.
در این فرایند، یک مدل یادگیری ماشین برای برچسبگذاری دادهها ابتدا روی یک زیرمجموعه از دادههای خام که توسط انسانها برچسبگذاری شده است، آموزش داده میشود. زمانی که مدل برچسبگذاری، بر اساس آنچه تاکنون یاد گرفته، اعتماد بالایی به نتایج خود دارد، بهطور خودکار برچسبها را به دادههای خام اعمال میکند. زمانی که مدل برچسبگذاری اعتماد کمتری به نتایج خود دارد، دادهها را به انسانها میفرستد تا برچسبگذاری کنند. برچسبهای انسانی سپس به مدل برچسبگذاری بازگردانده میشوند تا از آن یاد بگیرد و توانایی خود را برای برچسبگذاری خودکار مجموعه بعدی دادههای خام بهبود بخشد. با گذشت زمان، مدل میتواند دادههای بیشتری را بهطور خودکار برچسبگذاری کند و بهطور قابلتوجهی سرعت ایجاد مجموعه دادههای آموزشی را افزایش دهد.