کلانداده چالشهای مدیریت داده است که به دلیل افزایش حجم، سرعت و تنوع با پایگاههای قدیمی داده حل نمی شوند. در حالی که تعاریف زیادی برای کلانداده وجود دارد، بیشتر آنها شامل مفهومی هستند که بهطور عمومی به سه V کلانداده معروف است:
- حجم (Volume): حجم این دادهها از ترابایت تا پتابایت متغیر است.
- تنوع (Variety): شامل دادههایی از منابع و فرمتهای مختلف (مانند لاگهای وب، تعاملات رسانههای اجتماعی، معاملات الکترونیکی و آنلاین، معاملات مالی و…) است.
- سرعت (Velocity): کسبوکارها از زمان تولید دادهها تا زمانی که گزینه های قابل اجرا به کاربران ارائه شود، الزامات سختگیرانهای دارند. بنابراین، دادهها باید در بازههای زمانی نسبتاً کوتاه جمعآوری، ذخیره، پردازش و تحلیل شوند که از بازه روزانه تا زمان واقعی متغیر است.
دلائل استفاده از کلانداده
بسیاری از سازمانها، علیرغم مشکلات، متوجه مشکل کلانداده خود نمیشوند یا آن را در قالب کلانداده نمیبینند. بهطور کلی، یک سازمان زمانی از فناوریهای کلانداده بهرهمند میشود که پایگاههای داده و برنامههای موجود دیگر قادر به مقیاسپذیری برای حمایت از افزایش ناگهانی حجم، تنوع و سرعت دادهها نباشند.
عدم پردازش صحیح کلانداده میتواند منجر به افزایش هزینهها و همچنین کاهش بهرهوری و رقابتپذیری شود. از سوی دیگر، یک استراتژی کلانداده مناسب میتواند به سازمانها در کاهش هزینه ها کمک کند تا کارایی عملیاتی را با انتقال بارهای کاری سنگین بهبود بخشند و همچنین برنامههای جدیدی را برای استفاده از فرصتهای جدید پیادهسازی کنند.
طرز کار
با ابزارهای جدیدی که به تمام چرخه مدیریت داده میپردازند، فناوریهای کلانداده این امکانی فنی و اقتصادی فراهم میکنند که نه تنها مجموعههای داده بزرگ را جمعآوری و ذخیره کنند، بلکه آنها را تحلیل کرده و بینشهای جدید و مفیدی کشف کنند. در اکثر موارد، پردازش کلانداده شامل یک جریان داده مشترک است – از جمعآوری دادههای خام تا مصرف اطلاعات قابل اجرا.
جمعآوری: جمعآوری دادههای خام – معاملات، لاگها، دستگاههای موبایل و غیره – اولین چالشی است که بسیاری از سازمانها هنگام کار با کلانداده با آن مواجه میشوند. یک پلتفرم کلانداده خوب این مرحله را آسانتر میکند و به توسعهدهندگان اجازه میدهد تا انواع مختلفی از دادهها – از ساختار یافته تا غیرساختار یافته – را با هر سرعتی – از زمان واقعی تا دستهای – وارد کنند.
ذخیرهسازی: هر پلتفرم کلانداده نیاز به یک مخزن امن، مقیاسپذیر و بادوام برای ذخیره دادهها قبل یا حتی بعد از انجام پردازش دارد. ممکن است بر حسب شرایط، نیاز به ذخیرهسازی موقت برای دادههای در حال انتقال نیز باشد.
پردازش و تحلیل: این مرحله ای است که دادهها از حالت خام خود به فرمت قابل مصرف تبدیل میشوند – معمولاً با استفاده از مرتبسازی، تجمیع، پیوستن و حتی انجام عملکردها و الگوریتمهای پیشرفتهتر. مجموعه دادهای که بهدست میآید سپس برای پردازش بیشتر ذخیره میشوند یا از طریق ابزارهای هوش تجاری و تجسم دادهها برای مصرف در دسترس قرار میگیرند.
مصرف و تجسم: کلانداده بهمعنای بهدست آوردن بینشهای قابل اجرا و مفید از داده است. ایده آل این است که دادهها از طریق ابزارهای سلف سرویس هوش تجاری و تجسم دادهها به ذینفعان ارائه شوند تا امکان جستجوی سریع و آسان در مجموعههای داده به وجود آید. بسته به نوع تحلیل، کاربران نهایی ممکن است دادههای بهدست آمده را بهصورت “پیشبینیهای” آماری – در مورد تحلیل پیشبینی – یا اقدامات پیشنهادی – در مورد تحلیل تجویزی – استفاده کنند.
پیشرفت پردازش
اکوسیستم کلانداده بهطور مداوم و با سرعتی چشمگیر در حال تکامل است. امروزه، مجموعهای متنوع از سبکهای تحلیلی از چند عملکرد درون سازمان حمایت میکند.
تحلیل توصیفی به کاربران کمک میکند به این که “چه اتفاقی افتاده و چرا؟” پاسخ دهند. نمونههایی از این نوع تحلیل شامل محیطهای قدیمی پرسش و گزارش با داشبوردها و کارتهای امتیازدهی است.
تحلیل پیشبینی به کاربران کمک میکند تا احتمال وقوع یک رویداد خاص در آینده را برآورد کنند. نمونههایی از این نوع تحلیل شامل سیستمهای هشدار اولیه، شناسایی تقلب، برنامههای نگهداری پیشگیرانه و پیشبینی است.
تحلیل تجویزی توصیههای خاص (تجویزی) به کاربر ارائه میدهد. این نوع تحلیل به این سؤال پاسخ میدهد: “اگر “x” اتفاق بیفتد، چه کاری باید انجام دهم؟” در ابتدا، چارچوبهای کلانداده مانند Hadoop تنها از بارهای کاری دستهای پشتیبانی میکردند که در آن دادههای کلان در یک بازه زمانی مشخص، معمولاً بهمدت چند ساعت یا حتی چند روز، پردازش میشدند. با این حال، با افزایش اهمیت زمان ، “سرعت” کلانداده موجب تکامل چارچوبهای جدیدی شده است که از پردازش دادههای بی درنگ و جریانی پشتیبانی می کنند.