سلامت داده چیست؟
اگر صرفاً احاطه شدن با داده ها برای تضمین تصمیمات تجاری بهتر کافی بود، اوضاعمان روبراه بود. همانطور که هر روز میآموزیم، جمعآوری داده به تنهایی برای تبدیل یک سازمان غنی از داده به یک سازمان دادهمحور کافی نیست.
به نظر میرسد طعنه عصر دادههای بزرگ این است که هرچه سازمانی دادههای بیشتری را مدیریت میکند، مدیریت آن دادهها سختتر میشود. تنها راه برای رسیدن به اهداف اساسی کسب و کار، اقدام بر اساس دادههای با کیفیت بالا و مورد اعتماد است – به طور خلاصه، دادههایی که سالم هستند.
از هر سازمانی بپرسید که چگونه سلامت کسب و کار خود را اندازهگیری میکنند، و آنها معیارهایی را فهرست میکنند که توسط دادههایی که کسب و کار خود را بر اساس آنها اداره میکنند، پشتیبانی میشوند. اکثر مردم به طور غریزی میدانند که دادههای سالم باید پاک، کامل و مطابق با الزامات قانونی و نظارتی باشند. متأسفانه، این عوامل به تنهایی تضمین نمیکنند که دادهها برای استفاده در عملیات تجاری آماده باشند. اکثر سازمانها نمیتوانند میزان سلامت دادههای خود را اندازهگیری کنند – و تکیه بر دادههایی که سلامت آنها را نمیتوانید اندازهگیری کنید، احمقانه است.بخشی از مشکل این است که در حالی که مردم فکر میکنند میدانند داشتن دادههای سالم به چه معناست، برای تعریف یا ارزیابی سلامت داده تلاش میکنند. پس بیایید با یک تعریف واضح شروع کنیم.
تعریف سلامت داده
سلامت داده نشان میدهد که دادههای یک سازمان تا چه اندازه از اهداف تجاری آن پشتیبانی میکنند. دادهها سالم هستند اگر به راحتی قابل کشف، قابل درک و برای افرادی که باید از آنها استفاده کنند، ارزشمند باشند، و این ویژگیها در طول چرخه عمر آنها حفظ شوند. شما خواهید دانست که دادههای سازمان شما سالم هستند، زمانی که بتوانید ثابت کنید که معتبر، کامل و از کیفیت کافی برای تولید تحلیلهایی هستند که تصمیمگیرندگان میتوانند با اطمینان برای تصمیمات تجاری به آنها تکیه کنند.دیدگاه Talend از سلامت داده، فناوریها و رفتارها را برای اندازهگیری و مدیریت دادهها برای کشف، درک و ارزش بهتر ترکیب میکند. دادههای سالم به این معناست که همه در سازمان میتوانند به اطلاعات مورد نیاز خود، در زمان مورد نیاز خود دسترسی داشته باشند و بدون تردید در مورد اعتبار آن از آن استفاده کنند.مانند هر سیستم مراقبت بهداشتی، سلامت داده شامل نظارت و مداخله در کل چرخه عمر است. سلامت داده در سطح کل سازمان تنها زمانی امکانپذیر است که یک سازمان سه عنصر کلیدی را ترکیب کند:
- چابکی داده برای تحویل سریع دادهها به کسانی که به آن نیاز دارند. چابکی نیازمند یک محیط انعطافپذیر و مقیاسپذیر با مدیریت چرخه عمر سرتاسر است.
- فرهنگ داده که در سراسر سازمان به اشتراک گذاشته میشود. فرهنگ به سواد داده هر کارمند و درک مشترک از مبدا، اهمیت و معنای نقاط داده مختلف، مجموعههای داده و منابع داده بستگی دارد.
- اعتماد به داده در داخل و بین بخشها. اعتماد از دادههایی ناشی میشود که در سراسر خطوط تجاری قابل مشاهده و تأیید هستند و به متخصصان و کاربران داده اطمینان در اقدامات و تصمیمات میدهد.
عوامل خطر برای سلامت خوب داده
ممکن است ساده به نظر برسد، اما اکثر سازمانها برای حفظ سلامت خوب داده تلاش میکنند. درست مانند صنعت مراقبتهای بهداشتی، صنعت مدیریت داده باید دائماً تکامل یابد و با تهدیدهای جدید و چشمانداز постоянно در حال تغییر همگام باشد.
برای مقابله با این چالشها، ابتدا باید پویاییهای موجود در بازار را که بزرگترین خطر را برای سازمانهایی که سلامت داده را در اولویت قرار نمیدهند، درک کنیم:
- سرعت و جریان دادهها در حال افزایش است. تقاضای داده توسط کسب و کار هدایت میشود، و هر واحد تجاری خواستار دادههای بیشتر و دسترسی به دادههای بیدرنگ است. به همین ترتیب، محیطهای داده به طور فزایندهای پیچیده میشوند. در عین حال، سرعت جریان دادهها باید افزایش یابد تا سریعتر به فرصتها و تهدیدهای تجاری پاسخ داده شود. زیرساخت داده یک سازمان باید به طور فزایندهای چابک باشد تا این بار را تحمل کند.
- افراد با سطوح مختلف مهارت داده در مدیریت دادهها دخیل میشوند. مدیریت داده اکنون شامل افرادی میشود که مهندس داده نیستند. این امر از یک سو توسط مصرفکنندگان داده که به ادغامکنندگان داده شهروند تبدیل شدهاند تا نیازهای داده خود را خودکارانه برطرف کنند، و از سوی دیگر توسط تیمهای فناوری اطلاعات تحت فشار که نمیتوانند به سرعت راهحلهایی برای شکافهای مهارتی ایجاد کنند تا تقاضا را برآورده کنند، هدایت میشود. به همین دلیل است که یک معماری داده قوی باید شامل قابلیتهایی باشد که اتکا به مهارتهای فنی خاص را کاهش میدهد و توسط فرهنگی که درک و استفاده از دادهها توسط هر کارمند را پرورش میدهد، پشتیبانی شود.
- سازمانها حرکت به سمت محیطهای ترکیبی و چند ابری را تسریع کردهاند. به لطف انعطافپذیری خدمات ابری، محیطهای ترکیبی و چند ابری، بهرهوری را افزایش میدهند و با کاهش سرمایهگذاری در سختافزار داخلی، هزینهها را بهینه میکنند. تا سال ۲۰۲۲، ۷۵ درصد از کل پایگاههای داده در یک پلتفرم ابری مستقر یا به آن منتقل میشوند. در این محیطهای پیچیده و در حال تغییر داده، استراتژی مدیریت داده یک سازمان باید بسیار خوب تعریف شده، اما در عین حال انعطافپذیر باشد.
- محیط نظارتی دائماً در حال تغییر است. با توجه به افزایش نگرانیها و مقررات حریم خصوصی (GDPR، CCPA و موارد دیگر)، عدم وجود یک رویکرد جامع وConsistent برای حاکمیت و کیفیت داده، فرآیندها را بیشتر کند میکند و منجر به قرار گرفتن در معرض خطر قابل توجهی میشود. متخصصان داده به حال خود رها میشوند و کارمندان به دادههایی دسترسی پیدا میکنند که آنها را نمیفهمند یا نباید به آنها دسترسی داشته باشند. در عین حال، رهبران داده و فناوری اطلاعات هیچ کنترلی بر سلامت دادههای سازمانی خود ندارند.
مزایای دادههای سالم
هنگامی که سازمانها در مورد دادهها صحبت میکنند، معمولاً هدف یا ابتکار خاصی را در ذهن دارند. هر ابتکاری با یک نتیجه تجاری مرتبط است: افزایش درآمد، کاهش هزینهها یا کاهش ریسک.
این ابتکارات به چند دسته رایج تقسیم میشوند که برای اکثر کاربران داده آشنا خواهد بود:
- فعال کردن تحلیلها: انتقال دادهها برای به دست آوردن زمان سریعتر برای بینشها شامل کل چرخه عمر داده است که تحلیل را در یک سازمان امکانپذیر میکند، از اکتساب دادههای خام گرفته تا تحویل دادههای مورد اعتماد برای گزارشها و مدلها، و همه چیز در این بین. اینها برخی از ابتکارات رایج برای سازمانهایی هستند که آماده تبدیل دادههای خود به نتایج تجاری هستند:
- گزارشهای شرکتی و پروژههای تحلیل سازمانی
- بهینهسازی قیف بازاریابی
- بهینهسازی قیمتگذاری
- انتخاب خرید منطقی بعدی
- تشخیص تقلب بیدرنگ
- مدیریت ریزش مشتری
- نگهداری پیشگیرانه
- نمای واحد مشتری و پروژههای “مشتری ۳۶۰”
- مدرنسازی ابر و داده: برنامهها و فناوری میتوانند دادهها را مقیاسپذیرتر، سازگارتر و چابکتر کنند – اما فقط با انتقال و مدیریت دادهها در یک محیط ابری، ترکیبی یا چند ابری. پروژههای مدرنسازی ابری نشان دهنده یک فرصت منحصر به فرد برای مدرنسازی دادهها هستند. عدم استفاده از مدرنسازی ابری به معنای کاهش زمان ارزش، از دست دادن بهرهوری به دلیل تلاشهای هماهنگسازی دادههای بهینه و کاهش چابکی کسب و کار است. در اینجا برخی از ابتکارات کلیدی داده وجود دارد که سازمانها به عنوان بخشی از پروژههای ابری بزرگتر خود به آنها میپردازند:
- مدرنسازی برنامه
- حذف برنامه
- مدرنسازی زیرساخت فناوری اطلاعات
- بهینهسازی هزینه فناوری اطلاعات
- حاکمیت داده
- کسب درآمد از داده
- ایجاد برتری داده: حفظ تعادل ظریف بین دسترسی و امنیت به این معناست که تیمهای فناوری اطلاعات و داده
باید بیشتر بر حل مشکلات دسترسی به داده در سیستمها تمرکز کنند و کمتر بر کار اصلی تضمین اجرای کسب و کار بر اساس دادههای مورد اعتماد و دقیق. این امر منجر به از دست رفتن بهرهوری و چابکی میشود و سازمانها را از دستیابی به اهداف تجاری مورد نظر خود باز میدارد.
یک سازمان سالم باید استانداردها، برنامهها و فرآیندهای متمرکزی را برای ایجاد تعادل بین اولویتهای فناوری اطلاعات ایجاد کند و اطمینان حاصل کند که دادهها علاوه بر قابل دسترسی و قابل درک بودن، با قوانین سازگار و ایمن هستند. چند ابتکار رایج در حول این هدف به شرح زیر است:
-
استراتژیهای پلتفرم داده
-
ابتکارات حاکمیت داده
-
مدیریت دسترسی
-
کیفیت داده
-
واژهنامه داده تجاری / ابتکارات سواد داده
-
بازار داده
-
مدیریت انطباق با مقرراتی مانند GDPR، CCPA و موارد دیگر
-
تسریع دادههای عملیاتی: هر سازمانی میخواهد دادهها را در دسترس، قابل دسترسی و قابل مصرف – به صورت داخلی و خارجی – از طریق ادغام برنامه و تحویل API قرار دهد. اما کارمندان، شرکا و مشتریان به دادههای مورد نیاز خود در زمان مورد نیاز خود دسترسی ندارند. با افزایش تعداد سیستمها، منابع، نقاط پایانی، حجم دادهها و موارد استفاده، تیمهای داده زمان خود را صرف کار بین برنامههای زیاد میکنند. و این به نوبه خود، بهرهوری تیم را کاهش میدهد.
اینها برخی از ابتکارات رایج داده برای کمک به سازمانها در به اشتراک گذاشتن دادههای مناسب در بین سیستمها و افراد سریعتر و کارآمدتر، به صورت داخلی و خارجی است:
- به اشتراک گذاری داده بین برنامهها
- کسب درآمد از داده
- گزارشدهی تجاری یکپارچه
- اکتساب داده بین سازمانی
- مدرنسازی برنامه
با معیارهای سلامت داده برای اثبات ارزش تجاری داده، یک سازمان میتواند تقریباً هر جنبهای از عملیات خود را بهبود بخشد. اما بدون دادههای سالم، همه آن فرآیندها دچار مشکل میشوند. اگر دادههای موجودی که کار خود را بر اساس آن قرار میدهید نادرست، کنترل نشده یا قدیمی باشد، نمیتوانید مشتریان مناسب را خطاب قرار دهید، چرخههای فروش را کوتاه کنید یا فرآیندها را بهبود بخشید. دادههای ناسالم باعث اتلاف وقت و کیفیت در تصمیمگیری شرکتها میشود که هزینهها را افزایش میدهد و میتواند بر درآمد تأثیر منفی بگذارد. با افزایش مقیاس استفاده از دادههای بزرگ، سلامت دادهها اهمیت بیشتری پیدا میکند. برای شرکتهای کار با دادههای بزرگ، ایجاد معیارهای سلامت حیاتی است.
اندازهگیری سلامت داده
کیفیت داده یک ملاحظه مهم برای سلامت داده است. انجمن مدیریت داده بریتانیا شش بعد را برای اندازهگیری کیفیت داده تعریف میکند:
- دقت: درجهای که دادهها به درستی شیء یا رویداد دنیای واقعی را که توصیف میشوند، توصیف میکنند. مثال: آیا محاسبات حقوق کارمندان بر اساس ساعات کار واقعی آنها است؟
- کامل بودن: نسبت دادههای ذخیره شده در یک مجموعه داده در مقابل پتانسیل ۱۰۰٪. مثال: آیا رکوردهای آدرس حاوی دادهها در همه فیلدهای آدرس لازم برای ارسال پستی به مقصد هستند؟ کد پستی کامل؟ نام کشور؟
- سازگاری: عدم تفاوت، هنگام مقایسه دو یا چند نمایش از یک چیز در برابر یک تعریف. مثال: آیا یک جدول حاوی دادههایی است که به عنوان متعلق به یک بخش خاص مشخص میشوند، حتی اگر آن بخش پس از یک سازماندهی مجدد حذف شده باشد؟
- به موقع بودن: درجهای که دادهها واقعیت را از نقطه زمانی مورد نیاز نشان میدهند. مثال: اگر تصمیمات بودجه بر اساس آمار فروش گرفته شود، دادههای فروش چقدر سریع در دسترس تصمیمگیرندگان قرار میگیرد؟
- منحصربهفرد بودن: هیچ مورد یا نمونه موجودیتی بیش از یک بار بر اساس نحوه شناسایی آن چیز ثبت نمیشود. مثال: هنگامی که یک سیستم یک رکورد را به روز میکند، آیا میتوانید مطمئن باشید که یک کپی از رکورد اصلی با اطلاعات فعلیتر ایجاد نمیکند؟
- اعتبار یا انطباق: درجهای که دادهها با نحو (فرمت، نوع یا دامنه) تعریف خود مطابقت دارند. مثال: یک آدرس خیابان ۱۰۰۰ خیابان داده معتبر است (اگرچه لزوماً دقیق نیست)، در حالی که آدرس /۰۳H8 خیابان داده معتبر نیست.
تیمهای داده باید ارزیابیهای خود را از سطح لازم کیفیت داده برای واجد شرایط بودن برای سلامت داده انجام دهند – و باید بتوانند آن سطح از کیفیت را برای کاربران داده تأیید کنند، تا آنها نیز بتوانند با اطمینان از دادهها استفاده کنند. به یاد داشته باشید، با این حال، دادههایی که سالم هستند اما در دسترس یا مورد اعتماد نیستند، همچنان از تصمیمات تجاری پشتیبانی نمیکنند. این دادههای سالم نیستند.
از آنجا که سلامت داده معیاری از ارزش داده برای کسب و کار است، شفافیت و دسترسی به اندازه کیفیت مهم هستند. اگر تصمیمگیرندگان به دادههای مورد نیاز خود دسترسی آماده نداشته باشند، سازمان ممکن است به همان اندازه که آن دادهها را ندارد، نداشته باشد. از سوی دیگر، حریم خصوصی دادهها برای اطلاعات شخصی قابل شناسایی (PII) ممکن است اعمال شود. در این موارد، بهتر است برخی از دادهها از کاربران غیرمجاز جدا شوند. یک پلتفرم فناوری قوی حاکمیت داده که متخصصان تجاری مرتبط را به عنوان متولیان داده به کار میگیرد، میتواند به بهبود دقت و امنیت دادهها به طور همزمان کمک کند.
در سازمان شما، معیارهای سلامت داده ممکن است شامل عوامل اضافی مانند معقول بودن و یکپارچگی باشد. هر عاملی که شامل میکنید، نکته این است که بتوانید به دادههای خود برای مفید بودن در سراسر شرکت تکیه کنید. هرچه بتوانید دادههای خود را در هر یک از این ابعاد بالاتر ارزیابی کنید، دادههای خود را سالمتر میتوانید در نظر بگیرید.
ارزیابی سلامت داده
هنگامی که میدانید چه چیزی را اندازهگیری کنید، چگونه میخواهید وضعیت دادههای خود را ارزیابی کنید؟
یک سیستم جامع سلامت داده به معیارهای جهانی کیفیت داده متکی است. با معیارهای استاندارد، ارزیابی قابل اعتماد بودن و قابل اجرا بودن دادهها امکانپذیر میشود. همانطور که در بالا توضیح داده شد، برای کسانی که دادههای شرکتی را آماده میکنند کافی نیست که بدانند دادهها استانداردهای کیفیت را برآورده میکنند. کاربران نهایی فقط زمانی میتوانند واقعاً به تصمیمات خود اعتماد کنند که معیارهایی برای اثبات کیفیت داده داشته باشند.
نظرسنجی سلامت داده Talend در سال ۲۰۲۱ نشان داد که کمتر از نیمی از مدیران مطمئن هستند که شرکتشان حتی از استانداردهای کیفیت داده استفاده میکند. حدود یک سوم از مدیران گفتند که هیچ استاندارد مستندی در جای خود وجود ندارد، و ۱۹ درصد دیگر گفتند که مطمئن نیستند. وقتی از آنها پرسیده شد که آیا نیاز به استانداردهای جهانی کیفیت داده در سراسر صنعت را میبینند، ۹۵ درصد از مدیران موافقت کردند.
با توجه به حجم دادههایی که سازمان شما احتمالاً از طریق پلتفرمهای SaaS، پایگاههای داده و سرورهای وب عمومی مدیریت میکند، غیرممکن خواهد بود که کسی هر رکورد را در همه مجموعههای داده بررسی کند. بهترین رویکرد این است که از یک پلتفرم داده استفاده کنید که شامل قابلیتهای ادغام و حاکمیت داده باشد.
شما میتوانید از این نرمافزار هم برای دریافت اطلاعات در مورد سلامت داده و هم برای درمان دادههای ناسالم استفاده کنید. در حالت ایدهآل، باید بتوانید بینش فوری در مورد اینکه به چه دادههایی میتوانید اعتماد کنید، داشته باشید و ابزارهایی برای اصلاح دادههایی که نمیتوانید، داشته باشید. این پلتفرم باید با ارائه دسترسی سلف سرویس، ابزارهای فراگیر کیفیت داده و قابلیتهای جامع حاکمتی که همه جریانهای داده و منابع داده را از ابتدا تا انتها پوشش میدهد، به مسائل مربوط به سلامت داده رسیدگی کند.