معماری داده چیست؟
معماری داده چارچوبی کلی است که جمعآوری، مدیریت و استفاده از دادههای یک سازمان را توصیف و کنترل میکند. امروزه سازمانها حجم عظیمی از دادهها را از منابع گوناگون دریافت میکنند و تیمهای مختلف برای تحلیل، یادگیری ماشینی، هوش مصنوعی و دیگر کاربردها نیازمند دسترسی به آن هستند. معماری دادهٔ مدرن سیستمی منسجم ارائه میدهد که دادهها را قابلدسترس و قابلاستفاده میسازد و در عین حال امنیت و کیفیت دادهها را تضمین میکند. این معماری سیاستها، مدلهای داده، فرآیندها و فناوریهایی را تعریف میکند که حرکت آسان داده میان بخشهای مختلف سازمان را ممکن میسازند و اطمینان حاصل میکنند دادهها در هر زمان، حتی در لحظهٔ واقعی، در دسترس باشند و همزمان با قوانین و مقررات نیز تطابق داشته باشند.
اجزای اصلی معماری داده
منابع داده
منابع داده میتوانند شامل اپلیکیشنهای مرتبط با مشتری، سیستمهای نظارت و تلماتری، دستگاههای اینترنت اشیا و حسگرهای هوشمند، اپلیکیشنهای پشتیبان عملیات کسبوکار، مخازن دانش داخلی، آرشیوهای داده، مخازن دادهٔ شخص ثالث و غیره باشند. دادههای ساختاریافته و بدون ساختار با سرعت، حجم و تناوبهای متفاوت وارد سازمان میشوند.
پایگاههای داده
سیستمهای پایگاه دادهٔ تخصصی برای پشتیبانی از اپلیکیشنهای مدرن و ویژگیهای گوناگون آنها طراحی میشوند. این پایگاهها میتوانند رابطهای یا غیررابطهای باشند؛ برخی دادهها را در قالب جداول ساختاریافته و برخی دیگر در قالب اسناد یا جفتهای کلید–مقدار ذخیره میکنند. معمولاً هر پایگاه داده، دادههای مرتبط با یک دامنهٔ خاص را نگهداری میکند، اما دادهها میتوانند فراتر از آن سیستم نیز استفاده شوند. به عنوان نمونه، دادههای یک اپلیکیشن مشتریمحور میتوانند برای تحلیل بازاریابی یا برنامهریزی استخراج شوند.
دریاچههای داده
دریاچهٔ داده یک مخزن متمرکز برای ذخیرهسازی دادههای خام در مقیاس وسیع است. معماری داده مسیر حرکت دادهها از پایگاههای مختلف به دریاچهٔ داده و بالعکس را توصیف میکند. دریاچه داده اطلاعات را در قالب بومی یا باز ذخیره میکند و اجازه میدهد پیش از استفاده قالببندی و پاکسازی شوند. این روش به یکپارچگی داده کمک کرده و موانع دادهای درون سازمان را از بین میبرد.
تحلیل داده
این بخش شامل انبارهای دادهٔ سنتی، گزارشگیری دستهای و فناوری جریان داده برای هشدار و گزارشدهی لحظهای است. تحلیلها میتوانند برای پرسوجوی یکباره یا کاربردهای تحلیلی پیشرفته استفاده شوند. به دلیل باز شدن دسترسی توسط معماری داده، تحلیلها محدود به جزایر دادهای نیستند.
هوش مصنوعی
یادگیری ماشینی و هوش مصنوعی بخشهای حیاتی استراتژی دادهٔ مدرن هستند تا سازمانها بتوانند آینده را پیشبینی کنند و هوشمندی را در اپلیکیشنها بگنجانند. دانشمندان داده از دریاچههای داده برای آزمایش، کشف کاربردهای هوش و آموزش مدلهای جدید استفاده میکنند. حتی پس از آموزش، مدلهای هوش مصنوعی نیازمند دسترسی مداوم به دادههای تازه هستند. معماری دادهٔ مدرن شامل تمامی فناوریها و زیرساختهایی است که از آموزش و استنتاج مدلها پشتیبانی میکنند.
حاکمیت داده
حاکمیت داده نقشها، مسئولیتها و استانداردهای استفاده از داده را مشخص میکند: چه کسی، چه کاری را، روی چه دادهای، با چه روشی و در چه شرایطی میتواند انجام دهد. این بخش هم کیفیت داده و هم امنیت آن را مدیریت میکند. معماران داده فرآیندهایی برای حسابرسی و ردیابی استفاده از داده طراحی میکنند تا سازمان همواره با مقررات سازگار باشد.
مدیریت فراداده بخش جداییناپذیر حاکمیت داده است. معماری داده ابزارها و سیاستهایی برای ذخیره و بهاشتراکگذاری فراداده تعریف میکند. این معماری سازوکاری برای یک مخزن مرکزی فراداده فراهم میآورد که سیستمهای گوناگون بتوانند فرادادهٔ خود را در آن ذخیره و جستجو کرده و برای پردازش داده از آن استفاده کنند.
چگونه معماری داده پیادهسازی میشود؟
بهترین روش پیادهسازی معماری دادهٔ مدرن استفاده از لایههاست. این لایهها فرآیندها و فناوریها را بر اساس اهداف خاص گروهبندی میکنند.
لایهٔ آمادهسازی (Staging layer)
این لایه نقطهٔ ورود داده به معماری است و دادههای خام را از منابع مختلف (ساختاریافته، نیمهساختاریافته و بدون ساختار) دریافت میکند. این لایه باید حداکثر انعطافپذیری را داشته باشد. با این حال باید میان انعطافپذیری و ثبات تعادل برقرار کرد. این لایه خود به دو زیرلایه تقسیم میشود:
-
لایهٔ خام: دادهها را بدون تغییر و دقیقاً به همان شکل دریافتشده ذخیره میکند. این مخزن سازمانی برای کاوش، حسابرسی و بازتولید داده است.
-
لایهٔ استانداردسازیشده: دادهها را مطابق با استانداردهای از پیش تعریفشده اعتبارسنجی و تبدیل میکند تا آمادهٔ مصرف شوند. مثلاً همهٔ شمارههای تلفن به رشته تبدیل میشوند یا زمانها به یک قالب مشخص در میآیند.
لایهٔ یکپارچه (Conformed layer)
یکپارچهسازی دادههای منابع مختلف در این لایه انجام میشود و یک مدل دادهٔ سازمانی واحد ایجاد میگردد. این لایه تعریف یکپارچهای از موجودیتهای کلیدی سازمان ارائه میدهد و از انطباق با مقررات امنیت و حریم خصوصی داده پشتیبانی میکند.
لایهٔ غنیسازی (Enriched layer)
در این لایه دادهها به مجموعههایی تبدیل میشوند که برای موارد استفادهٔ خاص طراحی شدهاند (محصولات داده). این محصولات میتوانند داشبوردهای عملیاتی یا پروفایلهای مشتری با پیشنهادات شخصیسازیشده باشند.
معماری داده چه نوعهایی دارد؟
دو رویکرد متفاوت در لایهٔ یکپارچه منجر به انواع معماری داده میشود:
-
معماری دادهٔ متمرکز: موجودیتهای مشترک (مانند مشتری یا محصول) در سطح سازمانی تعریف میشوند و ویژگیهای اصلی آنها در یک مدل مرکزی نگهداری میشود. مدیریت متمرکز فراداده شفافیت و امنیت بیشتری ایجاد میکند. فناوری «Data Fabric» برای این معماری مناسب است.
-
معماری دادهٔ توزیعشده: هر دامنهٔ کاری لایهٔ یکپارچهٔ خود را ایجاد و مدیریت میکند. این روش انعطاف بیشتری دارد، اما منجر به چندین مجموعهداده برای موجودیتهای مشابه میشود. فناوری «Data Mesh» برای این معماری به کار میرود.
چارچوب معماری داده چیست؟
چارچوب معماری داده رویکردی ساختارمند برای طراحی معماری داده است. این چارچوب اصول، استانداردها، مدلها و ابزارهایی را فراهم میکند تا فرآیندهای مدیریت داده با اهداف کسبوکار همسو شوند.
نمونههایی از چارچوبهای معماری داده:
-
DAMA-DMBOK: بهترین شیوهها و فرآیندهای مدیریت داده در کل چرخهٔ عمر آن را ارائه میدهد.
-
چارچوب زکمن (Zachman): چارچوبی برای معماری سازمانی است که با استفاده از ماتریس روابط میان دیدگاههای مختلف و پرسشهای کلیدی (چه، چگونه، کجا، چه کسی، چه زمانی و چرا) را مشخص میکند.
-
TOGAF: معماری داده را بخشی حیاتی از معماری سازمانی میداند و بر ایجاد مدلها، جریانهای داده و ساختارهای حاکمیتی تمرکز دارد.
مقایسه معماری داده با اصطلاحات مشابه چگونه است؟
-
معماری داده در برابر معماری اطلاعات: معماری اطلاعات روی سازماندهی و نمایش اطلاعات به کاربران نهایی تمرکز دارد، در حالی که معماری داده روی طراحی و مدیریت همهٔ دادههای سازمان تمرکز میکند.
-
معماری داده در برابر مهندسی داده: معماری داده طرح کلی را ارائه میدهد، اما مهندسی داده اجرای عملی آن است.
-
معماری داده در برابر مدلسازی داده: مدلسازی داده بخشی از معماری داده است و فقط به نمایش تصویری مجموعههای داده میپردازد، در حالی که معماری داده گسترهٔ وسیعتری شامل سیاستها، زیرساختها و استراتژی مدیریت داده دارد.