کلان داده (Big Data) به چه معناست؟

کلان داده (Big Data) به چه معناست؟

کلان‌داده چالش‌های مدیریت داده‌ است که به دلیل افزایش حجم، سرعت و تنوع با پایگاه‌های قدیمی داده حل نمی شوند. در حالی که تعاریف زیادی برای کلان‌داده وجود دارد، بیشتر آن‌ها شامل مفهومی هستند که به‌طور عمومی به سه V کلان‌داده معروف است:

  • حجم (Volume): حجم این داده‌ها از ترابایت تا پتابایت متغیر است.
  • تنوع (Variety): شامل داده‌هایی از منابع و فرمت‌های مختلف (مانند لاگ‌های وب، تعاملات رسانه‌های اجتماعی، معاملات الکترونیکی و آنلاین، معاملات مالی و…) است.
  • سرعت (Velocity): کسب‌وکارها از زمان تولید داده‌ها تا زمانی که گزینه های قابل اجرا به کاربران ارائه شود، الزامات سخت‌گیرانه‌ای دارند. بنابراین، داده‌ها باید در بازه‌های زمانی نسبتاً کوتاه جمع‌آوری، ذخیره، پردازش و تحلیل شوند که از بازه روزانه تا زمان واقعی متغیر است.

دلائل استفاده از  کلان‌داده
بسیاری از سازمان‌ها، علیرغم مشکلات، متوجه مشکل کلان‌داده خود نمی‌شوند یا آن را در قالب کلان‌داده نمی‌بینند. به‌طور کلی، یک سازمان زمانی از فناوری‌های کلان‌داده بهره‌مند می‌شود که پایگاه‌های داده و برنامه‌های موجود دیگر قادر به مقیاس‌پذیری برای حمایت از افزایش ناگهانی حجم، تنوع و سرعت داده‌ها نباشند.
عدم پردازش صحیح کلان‌داده می‌تواند منجر به افزایش هزینه‌ها و همچنین کاهش بهره‌وری و رقابت‌پذیری شود. از سوی دیگر، یک استراتژی کلان‌داده مناسب می‌تواند به سازمان‌ها در کاهش هزینه ها کمک کند تا کارایی عملیاتی را با انتقال بارهای کاری سنگین بهبود بخشند و همچنین برنامه‌های جدیدی را برای استفاده از فرصت‌های جدید پیاده‌سازی کنند.

طرز کار
با ابزارهای جدیدی که به تمام چرخه مدیریت داده می‌پردازند، فناوری‌های کلان‌داده این امکانی فنی و اقتصادی فراهم می‌کنند که نه تنها مجموعه‌های داده بزرگ را جمع‌آوری و ذخیره کنند، بلکه آن‌ها را تحلیل کرده و بینش‌های جدید و مفیدی کشف کنند. در اکثر موارد، پردازش کلان‌داده شامل یک جریان داده مشترک است – از جمع‌آوری داده‌های خام تا مصرف اطلاعات قابل اجرا.

جمع‌آوری: جمع‌آوری داده‌های خام – معاملات، لاگ‌ها، دستگاه‌های موبایل و غیره – اولین چالشی است که بسیاری از سازمان‌ها هنگام کار با کلان‌داده با آن مواجه می‌شوند. یک پلتفرم کلان‌داده خوب این مرحله را آسان‌تر می‌کند و به توسعه‌دهندگان اجازه می‌دهد تا انواع مختلفی از داده‌ها – از ساختار یافته تا غیرساختار یافته – را با هر سرعتی – از زمان واقعی تا دسته‌ای – وارد کنند.
ذخیره‌سازی: هر پلتفرم کلان‌داده نیاز به یک مخزن امن، مقیاس‌پذیر و بادوام برای ذخیره داده‌ها قبل یا حتی بعد از انجام پردازش دارد. ممکن است بر حسب شرایط، نیاز به ذخیره‌سازی موقت برای داده‌های در حال انتقال نیز باشد.
پردازش و تحلیل: این مرحله ای است که داده‌ها از حالت خام خود به فرمت قابل مصرف تبدیل می‌شوند – معمولاً با استفاده از مرتب‌سازی، تجمیع، پیوستن و حتی انجام عملکردها و الگوریتم‌های پیشرفته‌تر. مجموعه‌ داده‌ای که به‌دست می‌آید سپس برای پردازش بیشتر ذخیره می‌شوند یا از طریق ابزارهای هوش تجاری و تجسم داده‌ها برای مصرف در دسترس قرار می‌گیرند.
مصرف و تجسم: کلان‌داده به‌معنای به‌دست آوردن بینش‌های قابل اجرا و مفید از داده است. ایده آل این است که داده‌ها از طریق ابزارهای سلف سرویس هوش تجاری و تجسم داده‌ها به ذینفعان ارائه شوند تا امکان جستجوی سریع و آسان در مجموعه‌های داده به وجود آید. بسته به نوع تحلیل، کاربران نهایی ممکن است داده‌های به‌دست آمده را به‌صورت “پیش‌بینی‌های” آماری – در مورد تحلیل پیش‌بینی – یا اقدامات پیشنهادی – در مورد تحلیل تجویزی – استفاده کنند.

پیشرفت پردازش‌ 
اکوسیستم کلان‌داده به‌طور مداوم و با سرعتی چشمگیر در حال تکامل است. امروزه، مجموعه‌ای متنوع از سبک‌های تحلیلی از چند عملکرد درون سازمان حمایت می‌کند.
تحلیل توصیفی به کاربران کمک می‌کند به این که “چه اتفاقی افتاده و چرا؟” پاسخ دهند. نمونه‌هایی از این نوع تحلیل شامل محیط‌های قدیمی پرسش و گزارش با داشبوردها و کارت‌های امتیازدهی است.
تحلیل پیش‌بینی به کاربران کمک می‌کند تا احتمال وقوع یک رویداد خاص در آینده را برآورد کنند. نمونه‌هایی از این نوع تحلیل شامل سیستم‌های هشدار اولیه، شناسایی تقلب، برنامه‌های نگهداری پیشگیرانه و پیش‌بینی است.

تحلیل تجویزی توصیه‌های خاص (تجویزی) به کاربر ارائه می‌دهد. این نوع تحلیل به این سؤال پاسخ می‌دهد: “اگر “x” اتفاق بیفتد، چه کاری باید انجام دهم؟” در ابتدا، چارچوب‌های کلان‌داده مانند Hadoop تنها از بارهای کاری دسته‌ای پشتیبانی می‌کردند که در آن داده‌های کلان در یک بازه زمانی مشخص، معمولاً به‌مدت چند ساعت یا حتی چند روز، پردازش می‌شدند. با این حال، با افزایش اهمیت زمان ، “سرعت” کلان‌داده موجب تکامل چارچوب‌های جدیدی شده است که از پردازش داده‌های بی درنگ و جریانی پشتیبانی می کنند.

نرم‌افزار به‌عنوان سرویس (SaaS) چه مفهومی دارد؟
آپاچه هادوپ (Apache Hadoop) چیست؟

دیدگاهتان را بنویسید

سبد خرید
علاقه‌مندی‌ها
مشاهدات اخیر
دسته بندی ها