برچسبگذاری داده چیست؟
در یادگیری ماشین، برچسبگذاری داده به فرآیند شناسایی دادههای خام (مانند تصاویر، فایلهای متنی، ویدئوها و غیره) و افزودن یک یا چند برچسب معنادار و اطلاعاتی برای ایجاد زمینهای که مدل یادگیری ماشین بتواند از آن یاد بگیرد گفته میشود.
برای مثال، برچسبها میتوانند نشان دهند که آیا یک عکس شامل پرنده است یا خودرو، چه کلماتی در یک فایل صوتی بیان شدهاند، یا اینکه آیا یک تصویر رادیولوژی حاوی تومور است یا خیر.
برچسبگذاری داده برای کاربردهای متنوعی از جمله بینایی کامپیوتری، پردازش زبان طبیعی و تشخیص گفتار ضروری است.
برچسبگذاری داده چگونه کار میکند؟
امروزه بیشتر مدلهای یادگیری ماشین در عمل از یادگیری نظارتشده استفاده میکنند؛ در این روش الگوریتم ورودی را به خروجی متناظر نگاشت میکند. برای کارکرد درست این رویکرد، نیاز به مجموعه دادهای برچسبخورده داریم که مدل بتواند از آن بیاموزد.
فرآیند برچسبگذاری داده معمولاً با مشارکت انسان آغاز میشود. بهطور مثال، برچسبگذاران ممکن است مأمور شوند همه تصاویری را که در آن «پرنده وجود دارد» علامتگذاری کنند. این برچسبگذاری میتواند به سادگی یک پاسخ بله/خیر باشد یا به دقت مشخصکردن پیکسلهای تصویر که پرنده را نشان میدهند.
مدل یادگیری ماشین از این برچسبها برای شناسایی الگوهای پنهان استفاده کرده و طی فرآیندی به نام آموزش مدل (Model Training) یاد میگیرد. نتیجه این کار مدلی آموزشدیده است که میتواند روی دادههای جدید پیشبینی انجام دهد.
در یادگیری ماشین، مجموعه دادهای که بهعنوان مرجع استاندارد برای آموزش و ارزیابی مدل استفاده میشود، اغلب واقعیت مبنا (Ground Truth) نامیده میشود. دقت مدل آموزشدیده کاملاً به دقت این دادههای برچسبخورده وابسته است، بنابراین سرمایهگذاری روی برچسبگذاری دقیق و باکیفیت ضروری است.
انواع رایج برچسبگذاری دادهها
- بینایی کامپیوتری
هنگام ساخت یک سیستم بینایی کامپیوتری، ابتدا باید تصاویر، پیکسلها یا نقاط کلیدی را برچسبگذاری کرد یا مرزی به نام “کادر نامرئی” که یک تصویر دیجیتال را کامل در بر میگیرد، ایجاد شده تا مجموعه داده آموزشی تولید شود. به عنوان مثال، میتوان تصاویر را بر اساس نوع کیفیت (مانند تصاویر محصول در مقابل تصاویر سبک زندگی) یا محتوا (آنچه واقعاً در تصویر وجود دارد) طبقهبندی کرد، یا میتوان یک تصویر را در سطح پیکسل تقسیمبندی کرد. سپس میتوان از این دادههای آموزشی در ساخت یک مدل بینایی کامپیوتری استفاده کرد که بهطور خودکار تصاویر را دستهبندی، مکان اشیا و نقاط کلیدی در یک تصویر را شناسایی و یا یک تصویر را تقسیمبندی کند. - پردازش زبان طبیعی
پردازش زبان طبیعی نیازمند این است که برای تولید مجموعه آموزشی، بخشهای مهم متن بهصورت دستی شناسایی شده و یا متن با برچسبهای خاص برچسبگذاری شود. به عنوان مثال، ممکن است درصدد شناسایی احساس یا قصد یک متن کوتاه، اجزای کلام، متن داخل تصاویر، فایلهای PDF یا سایر فایلها، و یا طبقهبندی اسامی خاص مانند مکانها و افراد باشیم. برای این کار، میتوان دور جملات کادر نامرئی را خط کشید و سپس متن بهصورت دستی در مجموعه داده آموزشی رونویسی شود. مدلهای پردازش زبان طبیعی برای تحلیل احساسات، شناسایی نام موجودیتها و شناسایی کاراکترهای نوری استفاده میشوند. - پردازش صوت
پردازش صوت انواع صداها مانند گفتار، صداهای حیاتوحش (واقواق یا جیکجیک)، و صداهای ساختمان (شکستن شیشه یا زنگها) را به یک فرمت ساختاری تبدیل میکند تا بتوان از آن در یادگیری ماشین استفاده کرد. پردازش صوت معمولاً نیاز دارد که ابتدا به متن نوشته تبدیل شود. به این شکل، میتوان اطلاعات عمیقتری درباره صوت با افزودن برچسبها و دستهبندی صوت بهدست آورد. این صوت دستهبندیشده مجموعه داده آموزشی را تشکیل میدهد.
بهترین شیوهها برای برچسبگذاری دادهها
تکنیکهای زیادی برای بهبود کارایی و بالا بردن دقت برچسب گذاری دادهها وجود دارد. برخی از این تکنیکها شامل موارد زیر است:
- رابطهای کاربری ساده و روان برای کمک به کاهش بار شناختی و تغییر زمینه برای برچسب گذاران انسانی
- توافق برچسب گذاران برای کمک به مقابله با خطا یا تعصبات فردی برچسب گذاران که شامل ارسال هر مجموعه داده به چندین برچسب گذار و سپس تجمیع پاسخهای آنها به یک برچسب واحد است.
- بررسی برچسبها برای تأیید دقت و بهروزرسانی آنها در صورت لزوم
- یادگیری فعال برای بهبود کارایی برچسبگذاری دادهها با استفاده از یادگیری ماشین برای شناسایی مفیدترین دادهها
بهترین روش Data Labelling چیست؟
مدلهای موفق یادگیری ماشین بر اساس حجم بالایی از دادههای آموزشی باکیفیت بالا ساخته میشوند. اما فرایند ایجاد دادههای آموزشی لازم برای ساخت این مدلها معمولاً پرهزینه، پیچیده و زمانبر است. اکثر مدلهای امروزی نیاز دارند که یک انسان بهصورت دستی دادهها را بهگونهای برچسبگذاری کند که به مدل اجازه دهد یاد بگیرد چگونه تصمیمات صحیحی بگیرد. برای غلبه بر این چالش، میتوان با استفاده از یک مدل یادگیری ماشین برای برچسبگذاری خودکار دادهها، کارایی برچسبگذاری را افزایش داد.
در این فرایند، یک مدل یادگیری ماشین برای برچسبگذاری دادهها ابتدا روی یک زیرمجموعه از دادههای خام که توسط انسانها برچسبگذاری شده است، آموزش داده میشود. زمانی که مدل برچسبگذاری، بر اساس آنچه تاکنون یاد گرفته، اعتماد بالایی به نتایج خود دارد، بهطور خودکار برچسبها را به دادههای خام اعمال میکند. زمانی که مدل برچسبگذاری اعتماد کمتری به نتایج خود دارد، دادهها را به انسانها میفرستد تا برچسبگذاری کنند. برچسبهای انسانی سپس به مدل برچسبگذاری بازگردانده میشوند تا از آن یاد بگیرد و توانایی خود را برای برچسبگذاری خودکار مجموعه بعدی دادههای خام بهبود بخشد. با گذشت زمان، مدل میتواند دادههای بیشتری را بهطور خودکار برچسبگذاری کند و بهطور قابلتوجهی سرعت ایجاد مجموعه دادههای آموزشی را افزایش دهد.