مهندسی ویژگی (Feature Engineering) چیست؟
ویژگیها همان ورودیهایی هستند که مدلهای یادگیری ماشینی (ML) برای آموزش و پیشبینی از آنها استفاده میکنند. دقت مدل تا حد زیادی به انتخاب درست و ترکیب مناسب این ویژگیها بستگی دارد. برای مثال، در یک اپلیکیشن یادگیری ماشین که فهرست موسیقی پیشنهاد میدهد، ویژگیها میتوانند شامل امتیاز آهنگها، آهنگهای قبلی که شنیده شدهاند، و مدت زمان گوشدادن به هر آهنگ باشند. ساخت این ویژگیها معمولاً نیاز به تلاش فنی قابل توجهی دارد. مهندسی ویژگی یعنی استخراج و تبدیل متغیرها از دادههای خام مثل فهرست قیمت، توضیحات محصول، و حجم فروش تا بتوان از آنها برای آموزش مدل یا پیشبینی استفاده کرد. مراحل اصلی شامل استخراج و پاکسازی داده و سپس ساخت و ذخیرهسازی ویژگیها است.
چالشهای مهندسی ویژگی چیست؟
مهندسی ویژگی کار دشواری است چون نیاز به تحلیل داده، آشنایی با حوزه کسبوکار، و کمی شهود دارد. هنگام ساخت ویژگیها، ممکن است وسوسه شوید مستقیماً به سراغ دادههای موجود بروید، اما اغلب بهتر است ابتدا با متخصصان گفتگو کنید، ایدهپردازی انجام دهید و تحقیقات بیرونی انجام دهید تا مشخص شود چه دادههایی واقعاً لازم هستند. اگر این مراحل را نادیده بگیرید، ممکن است متغیرهای مهمی که میتوانند پیشبینی را بهبود دهند از دست بروند.
استخراج داده
جمعآوری داده یعنی گردآوری تمام اطلاعاتی که برای یادگیری ماشینی نیاز دارید. این کار میتواند وقتگیر باشد، چون دادهها در منابع مختلفی قرار دارند، از جمله لپتاپها، انبارهای داده، فضای ابری، اپلیکیشنها و دستگاهها. اتصال به این منابع مختلف کار آسانی نیست. همچنین حجم دادهها بهطور تصاعدی در حال افزایش است و باید در میان مقدار زیادی داده جستوجو کرد. علاوه بر این، نوع و قالب دادهها بسته به منبعشان بسیار متنوع است؛ مثلاً ترکیب داده ویدیویی با داده جدولی ساده نیست.
ساخت ویژگی
برچسبگذاری داده فرآیندی است که در آن به دادههای خام مثل تصویر، متن یا ویدیو، یک یا چند برچسب معنادار افزوده میشود تا مدل یادگیری ماشین بتواند از آن یاد بگیرد. برای مثال، برچسبها ممکن است نشان دهند که آیا یک عکس شامل پرنده یا ماشین است، چه کلماتی در یک فایل صوتی گفته شدهاند، یا اینکه آیا در یک عکس رادیولوژی، نشانهای غیرعادی دیده میشود یا نه. برچسبگذاری برای کاربردهایی مثل بینایی ماشین، پردازش زبان طبیعی و تشخیص گفتار ضروری است.
ذخیرهسازی ویژگی
پس از پاکسازی و برچسبگذاری داده، تیمهای یادگیری ماشین معمولاً داده را بررسی میکنند تا از درستی و آمادگی آن برای مدلسازی اطمینان حاصل کنند. نمودارهایی مثل هیستوگرام، نمودار پراکندگی، نمودار جعبهای، نمودار خطی و نمودار میلهای ابزارهای مفیدی برای این کار هستند. این نمودارها همچنین به تیمهای علم داده در تحلیل اکتشافی کمک میکنند؛ تحلیلی که در آن از بصریسازی داده برای یافتن الگوها، تشخیص ناهنجاریها، آزمایش فرضیهها یا بررسی پیشفرضها استفاده میشود. این تحلیل نیازی به مدلسازی رسمی ندارد و بیشتر برای درک بهتر دادههاست.