پارچه داده (Data Fabric) چیست؟
پارچه داده به یک معماری یکپارچهسازی داده مبتنی بر ماشین اشاره دارد که از داراییهای فراداده برای یکپارچهسازی، ادغام و مدیریت محیطهای داده ناهمگون استفاده میکند. با استانداردسازی، اتصال و خودکارسازی شیوهها و فرآیندهای مدیریت داده، پارچههای داده امنیت و دسترسی به داده را بهبود میبخشند و یکپارچهسازی سرتاسری خطوط لوله داده و پلتفرمهای محلی، ابری، چندابری ترکیبی و دستگاههای لبه را فراهم میکنند.
چرا مهم است؟
شما احتمالاً توسط مجموعهدادههای بزرگ و پیچیده از منابع مختلف و ناهمگون احاطه شدهاید—CRM، مالی، اتوماسیون بازاریابی، عملیات، اینترنت اشیاء/محصول، حتی دادههای جریانی بلادرنگ. به علاوه، سازمان شما ممکن است از نظر جغرافیایی پراکنده باشد، موارد استفاده پیچیده داشته باشد یا مشکلات پیچیده دادهای مانند ذخیرهسازی دادهها در ابر، چندابری ترکیبی، محیطهای محلی و دستگاههای لبه داشته باشد.معماری پارچه داده به شما کمک میکند تا دادهها را از این منابع و مخازن مختلف گردآوری کرده و با استفاده از یادگیری ماشین، آنها را تبدیل و پردازش کنید تا الگوها را کشف کنید. این امر به شما یک دیدگاه جامع از کسب و کارتان میدهد و به شما امکان میدهد دادههای قابل اعتماد و مدیریتشده را کاوش و تحلیل کنید. در نهایت، این امر به شما کمک میکند تا بینشهای عملی را کشف کنید که کسب و کار شما را بهبود میبخشد.
در اینجا مزایای کلیدی اتخاذ این مفهوم برای سازمان شما آورده شده است:
- از طریق استفاده از مدیریت فراداده، نمودارهای دانش معنایی و یادگیری ماشین، سیلوهای داده را شکسته و به سازگاری در محیطهای یکپارچه دست یابید.
- یک دیدگاه جامع از کسب و کار خود ایجاد کنید تا به کاربران کسب و کار، تحلیلگران و دانشمندان داده قدرت کشف روابط بین سیستمها را بدهید.
- با سادهسازی پیکربندی زیرساخت، قدرت ابر ترکیبی را به حداکثر برسانید و زمان توسعه و مدیریت طراحی، استقرار و نگهداری یکپارچهسازی را کاهش دهید.
- کاوش و تحلیل دادهها را بدون تکیه بر IT برای کاربران کسب و کار آسانتر کنید.
- تمام رویکردهای تحویل داده را از طریق پشتیبانی از دستههای ETL، مجازیسازی داده، ثبت تغییر داده، جریان و APIها در دسترس قرار دهید.
- از طریق استفاده از اتوماسیون برای وظایف روزمره مانند همسو کردن طرحواره با منابع داده جدید و پروفایلسازی مجموعهدادهها، مدیریت داده را کارآمدتر کنید.
معماری پارچه داده
پارچه داده، یک محیط داده توزیعشده را تسهیل میکند که در آن دادهها میتوانند برای طیف گستردهای از مخازن و موارد استفاده مانند ابزارهای BI یا برنامههای کاربردی عملیاتی، دریافت، تبدیل، مدیریت، ذخیره و دسترسی پیدا کنند. این امر با استفاده از تحلیلهای مداوم بر روی داراییهای فراداده فعلی و استنباطشده برای ایجاد یک لایه شبکهمانند که فرآیندهای داده و منابع، انواع و مکانهای متعدد داده را یکپارچه میکند، محقق میشود. همچنین از فرآیندهای مدرن مانند مدیریت فراداده فعال، نمودارهای دانش معنایی و یادگیری ماشین تعبیهشده و AutoML استفاده میکند.
برای بررسی عمیقتر، ابتدا شش عاملی را که یک بافت داده را از یک اکوسیستم استاندارد ادغام داده متمایز میکند، مورد بحث قرار میدهیم:
- کاتالوگ داده غنیشده: کاتالوگ داده شما شامل و تحلیل انواع فراداده (ساختاری، توصیفی و مدیریتی) خواهد بود تا به اطلاعات شما زمینه ببخشد.
- گراف دانش: برای کمک به شما و الگوریتمهای هوش مصنوعی/یادگیری ماشین در تفسیر معنای دادههایتان، یک گراف دانش ایجاد و مدیریت خواهید کرد که به طور رسمی روابط بین موجودیتهای داده شما (مفاهیم، اشیاء، رویدادها و غیره) را نشان میدهد. و باید با معناشناسی داده یکپارچه، که معنای اجزای داده را خودشان توصیف میکند، تقویت شود.
- فعالسازی فراداده: شما از فراداده دستی (غیرفعال) به فراداده خودکار (فعال) تغییر خواهید کرد. مدیریت فراداده فعال از یادگیری ماشین استفاده میکند تا به شما امکان ایجاد و پردازش فراداده در مقیاس وسیع را بدهد.
- موتور پیشنهاد: بر اساس فراداده فعال شما، الگوریتمهای هوش مصنوعی/یادگیری ماشین به طور مداوم تحلیل، یادگیری و پیشنهادها و پیشبینیهایی در مورد اکوسیستم ادغام و مدیریت داده شما ارائه خواهند کرد.
- آمادهسازی و دریافت داده: تمام رویکردهای رایج آمادهسازی و تحویل داده، از جمله پنج الگوی کلیدی ادغام داده: ETL، ELT، جریان داده، ادغام برنامه و مجازیسازی داده، پشتیبانی خواهند شد.
- DataOps: تیم DevOps خود را با مهندسان داده و دانشمندان داده خود گرد هم آورید تا اطمینان حاصل کنید که بافت شما نیازهای کاربران IT و تجاری را پشتیبانی میکند.
همانطور که در نمودار بالا نیز مشاهده میشود، با تهیه داده از منابع به مصرفکنندگان، یک بافت داده، دادهها را از طیف گستردهای از منابع سیستم در سراسر سازمان شما، از جمله منابع داده عملیاتی و مخازن داده مانند انبار، دریاچههای داده و بازارهای داده، گرد هم میآورد. این یکی از دلایلی است که بافت داده برای طراحی مش داده مناسب است. بافت داده همچنین معماری مدیریت داده بنیادی است که تحویل بهینه محصولات داده به تیمهای دامنه را امکانپذیر میکند.بافت داده، مقیاس دادههای بزرگ را برای هر دو فرآیند دستهای و دادههای جریان بلادرنگ پشتیبانی میکند و قابلیتهای سازگار را در سراسر ابر، ابر چندگانه ترکیبی، دستگاههای محلی و لبه شما فراهم میکند. سیالیت را در محیطهای داده ایجاد میکند و مجموعه داده کامل، دقیق و بهروز را برای تجزیه و تحلیل، سایر برنامهها و فرآیندهای تجاری فراهم میکند. همچنین با ارائه اجزای و اتصالدهندههای از پیش بستهبندی شده برای بهم پیوستن همه چیز، زمان و هزینه را کاهش میدهد. به این ترتیب لازم نیست هر اتصال را به صورت دستی کدنویسی کنید.معماری بافت داده خاص شما به نیازها و وضعیت داده خاص شما بستگی دارد. اما به گفته شرکت تحقیقاتی Forrester، شش لایه رایج برای بافتهای داده سازمانی مدرن وجود دارد:
- مدیریت داده: حاکمیت و امنیت را فراهم میکند.
- دریافت داده: ارتباطات بین دادههای ساختاریافته و بدون ساختار را شناسایی میکند.
- پردازش داده: فقط دادههای مرتبط را استخراج میکند.
- هماهنگسازی داده: دادهها را پاکسازی، تبدیل و ادغام میکند.
- کشف داده: روشهای جدیدی را برای ادغام منابع داده مختلف شناسایی میکند.
- دسترسی به داده: کاربران را قادر میسازد تا دادهها را از طریق ابزارهای تحلیلی و BI بر اساس مجوزهای دسترسی کاوش کنند.
پیادهسازی بافت داده
در حال حاضر یک ابزار یا پلتفرم مستقل واحدی وجود ندارد که بتوانید برای ایجاد کامل معماری بافت داده از آن استفاده کنید. شما باید ترکیبی از راه حلها را به کار بگیرید، مانند استفاده از یک ابزار مدیریت داده برتر برای بیشتر نیازهای خود و سپس تکمیل معماری خود با سایر ابزارها و/یا راه حلهای کدنویسی سفارشی.به عنوان مثال، پیادهسازی معماری بافت داده با یک پلتفرم یکپارچهسازی به عنوان سرویس (iPaaS) مستلزم یک رویکرد جامع است که بر ایجاد یک لایه یکپارچه و استاندارد از خدمات داده تاکید میکند و در عین حال کیفیت داده، حاکمیت و دسترسی سلف سرویس را در اولویت قرار میدهد.طبق تحقیقات شرکت Gartner، هنگام پیادهسازی، چهار رکن وجود دارد که باید در نظر گرفته شوند:
- جمعآوری و تحلیل انواع فراداده.
- تبدیل فراداده غیرفعال به فراداده فعال.
- ایجاد و مدیریت گرافهای دانش که دادهها را با معناشناسی غنی میکنند.
- اطمینان از وجود یک پایه یکپارچهسازی داده قوی.
علاوه بر این ارکان، شما باید عناصر معمول یک راه حل یکپارچهسازی داده قوی را نیز در اختیار داشته باشید. این شامل مکانیسمهای جمعآوری، مدیریت، ذخیرهسازی و دسترسی به دادههای شما است. به علاوه، داشتن یک چارچوب حاکمیت داده مناسب که شامل مدیریت فراداده، ردیابی نسب داده و بهترین شیوههای یکپارچگی داده است.