مهندسی ویژگی (Feature Engineering) چیست؟

مهندسی ویژگی (Feature Engineering) چیست؟

مهندسی ویژگی (Feature Engineering) چیست؟

ویژگی‌ها همان ورودی‌هایی هستند که مدل‌های یادگیری ماشینی (ML) برای آموزش و پیش‌بینی از آن‌ها استفاده می‌کنند. دقت مدل تا حد زیادی به انتخاب درست و ترکیب مناسب این ویژگی‌ها بستگی دارد. برای مثال، در یک اپلیکیشن یادگیری ماشین که فهرست موسیقی پیشنهاد می‌دهد، ویژگی‌ها می‌توانند شامل امتیاز آهنگ‌ها، آهنگ‌های قبلی که شنیده شده‌اند، و مدت زمان گوش‌دادن به هر آهنگ باشند. ساخت این ویژگی‌ها معمولاً نیاز به تلاش فنی قابل توجهی دارد. مهندسی ویژگی یعنی استخراج و تبدیل متغیرها از داده‌های خام مثل فهرست قیمت، توضیحات محصول، و حجم فروش تا بتوان از آن‌ها برای آموزش مدل یا پیش‌بینی استفاده کرد. مراحل اصلی شامل استخراج و پاک‌سازی داده و سپس ساخت و ذخیره‌سازی ویژگی‌ها است.

چالش‌های مهندسی ویژگی چیست؟
مهندسی ویژگی کار دشواری است چون نیاز به تحلیل داده، آشنایی با حوزه کسب‌وکار، و کمی شهود دارد. هنگام ساخت ویژگی‌ها، ممکن است وسوسه شوید مستقیماً به سراغ داده‌های موجود بروید، اما اغلب بهتر است ابتدا با متخصصان گفتگو کنید، ایده‌پردازی انجام دهید و تحقیقات بیرونی انجام دهید تا مشخص شود چه داده‌هایی واقعاً لازم هستند. اگر این مراحل را نادیده بگیرید، ممکن است متغیرهای مهمی که می‌توانند پیش‌بینی را بهبود دهند از دست بروند.

استخراج داده
جمع‌آوری داده یعنی گردآوری تمام اطلاعاتی که برای یادگیری ماشینی نیاز دارید. این کار می‌تواند وقت‌گیر باشد، چون داده‌ها در منابع مختلفی قرار دارند، از جمله لپ‌تاپ‌ها، انبارهای داده، فضای ابری، اپلیکیشن‌ها و دستگاه‌ها. اتصال به این منابع مختلف کار آسانی نیست. همچنین حجم داده‌ها به‌طور تصاعدی در حال افزایش است و باید در میان مقدار زیادی داده جست‌وجو کرد. علاوه بر این، نوع و قالب داده‌ها بسته به منبع‌شان بسیار متنوع است؛ مثلاً ترکیب داده ویدیویی با داده جدولی ساده نیست.

ساخت ویژگی
برچسب‌گذاری داده فرآیندی است که در آن به داده‌های خام مثل تصویر، متن یا ویدیو، یک یا چند برچسب معنادار افزوده می‌شود تا مدل یادگیری ماشین بتواند از آن یاد بگیرد. برای مثال، برچسب‌ها ممکن است نشان دهند که آیا یک عکس شامل پرنده یا ماشین است، چه کلماتی در یک فایل صوتی گفته شده‌اند، یا اینکه آیا در یک عکس رادیولوژی، نشانه‌ای غیرعادی دیده می‌شود یا نه. برچسب‌گذاری برای کاربردهایی مثل بینایی ماشین، پردازش زبان طبیعی و تشخیص گفتار ضروری است.

ذخیره‌سازی ویژگی
پس از پاک‌سازی و برچسب‌گذاری داده، تیم‌های یادگیری ماشین معمولاً داده را بررسی می‌کنند تا از درستی و آمادگی آن برای مدل‌سازی اطمینان حاصل کنند. نمودارهایی مثل هیستوگرام، نمودار پراکندگی، نمودار جعبه‌ای، نمودار خطی و نمودار میله‌ای ابزارهای مفیدی برای این کار هستند. این نمودارها همچنین به تیم‌های علم داده در تحلیل اکتشافی کمک می‌کنند؛ تحلیلی که در آن از بصری‌سازی داده برای یافتن الگوها، تشخیص ناهنجاری‌ها، آزمایش فرضیه‌ها یا بررسی پیش‌فرض‌ها استفاده می‌شود. این تحلیل نیازی به مدل‌سازی رسمی ندارد و بیشتر برای درک بهتر داده‌هاست.

هوش مصنوعی سازمانی (Enterprise AI) چیست؟
توسعه فول‌استک (Full Stack Development) چیست؟

دیدگاهتان را بنویسید

سبد خرید
علاقه‌مندی‌ها
مشاهدات اخیر
دسته بندی ها