منظور از کلان داده یک مجموعه بزرگ و متنوع از اطلاعات است که با نرخ بالایی رشد میکند. دلیل نامگذاری آن با Data Big یا کلان داده، فقط حجم بالای اطلاعات آن نیست؛ کلان دادهها شبیه کلافهای بزرگ از انواع مختلف نخها با رنگهای مختلف هستند که از پارامترها و منابع مختلفی تأثیر و نشأت میگیرند. اما نوع دیگری از کلان داده وجود دارد که مجموعهای از کلافها با رنگهای متمایز، اما در حضور آشفتگی در هر کلاف و تکه تکه بودن رشتههای آن، است. این نوع از کلان داده شبیه یک ماتریس است که ستونهای آن را پارامترها یا ویژگیهای مختلف از دادههای مبنا مشخص میکنند.
همچنین، این نوع از BigData را ساختارمند میخوانند.
مثالهایی از کلان داده
با نگاهی به اطراف خود، به حجم عظیم دادههایی برمیخورید که در حضور یک آشفتگی بالا، با هارمونی خاصی تولید میشوند و موتور سازنده آنها انگار فارغ از پیچیدگی محصولات خود، تنها به تولید بیشتر و بیشتر دادهها مشغول است. مثال آشنایی از کلان داده، دادههای حاصل از فعالیت شبکههای اجتماعی است. در شبکهای مثل اینستاگرام، میلیونها انسان عضویت فعال دارند که با حضور خود، هر روز و هر لحظه داده تولید میکنند و از کانال این پلتفرم انتشار میدهند (یا دریافت میکنند). کمی دقیقتر به اطلاعات شخصی، میزان بازدید، لایکها و…
فکر کنید که یک شخص در طول روز به وجود میآورد. نمونهای ساختارمند از کلان داده نیز، صفحات مرتب اکسل هستند که هزاران هزار ردیف اطلاعات سالهای فعالیت یک سازمان را در خود نگهداری میکنند. اگرچه این مجموعه از اطلاعات ساختار و ترتیبی مشخص دارد، اما حجم بالای آن و ارتباط پیچیده هر ستون با دیگری، نیاز به تحلیل و بروز کلان داده را توجیه میکند
ساختارمند یا بدون ساختار، کلان داده به چه دردی میخورد؟
بسته به منشأ اصلی در تولید آنها، کلان دادهها حاوی اطلاعات مختلف و با ارزشی هستند که برای کشف آنها تحلیل میشوند. کلان دادهها را معمولا در سرورها با قدرت بالا در دریافت و محافظت از داده، نگهداری میکنند که به نرمافزارهای تحلیل داده نیز مجهزند. بسیاری از شرکتهای ارائه دهنده SaaS (نرمافزار به عنوان سرویس) خدمات محافظت و تحلیل این داده را به مشتریان خود میدهند. هدف از تحلیل دادهها، یافتن رابطه معنیدار بین آنها، مانند روند و گرایشی خاص از مشتریان به یک محصول خاص است. در اغلب موارد، یافتن این روابط توسط متخصصان علم داده انجام میشود که با الگوریتمهای جستجو و طبقهبندی مبتنی بر ریاضی و اصول برنامهنویسی آشنا هستند. غولهای تکنولوژی دنیا مانند گوگل، مایکروسافت، اپل و فیسبوک از دادههایی که کاربران تولید میکنند برای ارائه خدماتی چون فروش تبلیغات، ارائه نتایج دقیق نسبت به عبارت کلیدی جستجو شده و فعالیتهای تخصصیتر در روابط B2B و C2B استفاده میکنند. هدف نهایی در استفاده از کلان دادهها و تحلیل آنها در صنایع، افزایش آگاهی شرکتها از بازار هدف و تسریع در طراحی و تولید محصول بعدی است. بخصوص، هرچقدر تحلیل عمیقتر و دقیقتر باشد، استراتژیهای سازمان با صرف هزینه و زمان کمتری اتخاذ و به موفقیت ختم میشوند.
بازار تحلیل و بهرهبرداری از کلان داده
بازار کلان داده و تحلیل آن در سال ۲۰۲۲ عدد تقریبی ۲۷۴ میلیارد دلار بوده است. بنابراین، در حضور نرخ تصاعدی افزایش دادههای ایجاد شده، تکرار شده و مصرف شده در دنیا، این بازار هیچ نقطه توقف و روند نزولی را به خود نخواهد دید. تنها در حوزه سلامت، انتظار میرود تا سال ۲۰۲۸ بازار مبادله کلان داده و تحلیلهای متناظر به رقم ۸۰ میلیارد دلار برسد. در بخشهای دیگر وضعیت مشابهی حکم فرماست و صنایع هزینههای گزافی را صرف تحلیل دادههای خود، برای اهدافی چون شناخت بهتر بازار و مشتریان، پرداخت میکنند. این در حالی است که ۹۵ درصد شرکتها بر این باورند که مدیریت دادههای بدون ساختار سازمان اصلیترین مانع در توسعه کسب و کار آنهاست. همچنین، ۴۵ درصد سازمانها، کلان دادههای خود را در محیط ابری ذخیره میکنند؛ همان استراتژی که بازار ۵۰۰ میلیارد دلاری را برای شرکتهای ارائه دهنده خدمات ابری به وجود آورده است.
کلان داده شبیه سد بزرگی است که در صورت عدم وجود استحکام لازم، نه تنها یک منبع برای تأمین آب آشامیدنی یا کشاورزی نیست، بلکه یک بمب ساعتی و آماده برای ایجاد بحران است.
حجم کلان دادهها و پتانسیل درآمدزایی از آنها
گوگل روزانه در حدود ۸.۵ میلیارد جستجو را جواب میدهد. این رقم غول آسا تنها برای موتور جستجوی گوگل است. به جستجوهای درون سایتها، تعامل کاربران با آنها، انتشار و دانلود دادهها توسط صاحبان سایتها و کاربران و… بیاندیشید تا به اعداد نجومی از دادههایی که روزانه تولید میشوند برسید. باز هم باید توجه داشت که این تنها برای جستجو و فعالیت کاربران در وبسایتهای مختلف است؛ به حجم دادههایی بیاندیشید که در صنایع و در قالب اینترنت اشیاء تولید و ذخیره میشوند، به سرورهای خصوصی بیاندیشید که دادههای آنها منتشر نمیشود و به هزاران منبع دیگر تولید داده که حتی امکان بازگو کردن همه آنها ممکن نیست. بنا بر تقریبی که توسط دانشمندان علم داده ارائه شده است، حجم دادههای ضبط شده در بستر اینترنت (داده دیجیتال) تا سال ۲۰۲۰ در حدود ۴۰۰۰۰ اگزابایت بوده است (هر exabyte برابر با عدد ۱ میلیارد گیگا بایت یا ۱ میلیون ترابایت است)؛ این عدد هر ۲ سال تقریبا ۲ برابر میشود.
منشأ درآمدزایی کلان دادهها چیست؟
بسته به اینکه از چه منظری به کلان داده بنگرید و در چه موقعیت دسترسی به آن قرار دارید، راههای مختلفی برای درآمدزایی از کلان دادهها وجود دارند. برای نمونه، اگر شما محقق حوزه داده هستید و با ابزارهای آماری و تحلیل کلان داده آشنایی دارید، آینده از آن شماست، زیرا دنیا غرق در داده شده و استخراج معنی از آن اصلیترین دغدغه آینده سازمانها خواهد بود. تحقیق و توسعه یکی از مهمترین بخشهای هر سازمان است و به طور تقریبی، ۲۰ درصد از کل هزینههای سازمانها را به خود اختصاص میدهد. در کانون تحقیق و توسعه نیز تحلیل داده وجود دارد که بدون آن، D&R معنی خاصی برای سازمان نخواهد داشت. برای شرکتهای مختلف، از معدن گرفته تا بخش سلامت، داده ارزشمندترین دارایی برای آنهاست. برای تقویت فرآیندهای هوشمندسازی، آموزش کارکنان، تعریف محصولات و خدمات جدید، انجام فعالیتهای تحقیقاتی، شناخت بهتر بازار و… تحلیل کلان دادهها اجتناب ناپذیر است. ازطرفی، تنها تعداد محدودی از شرکتها هستند که نیروی کافی برای تحلیل دادههای خود را در اختیار دارند. اکثر شرکتها ذخیره و یا تحلیل کلان دادههای خود را برون سپاری میکنند. همزمان با رشد موجود در تولید داده، این نیاز پررنگتر میشود و بازار بزرگتری را برای ذخیره و تحلیل کلان داده تعریف میکند.
تنها در حوزه سلامت، انتظار میرود تا سال ۲۰۲۸ بازار مبادله کلان داده و تحلیلهای متناظر به رقم ۸۰ میلیارد دلار برسد.
ریسکها و معایب متناظر با تولید کلان داده
اینترنت بدون داده هیچ مفهومی ندارد، همین امر باعث میشود که داده حساسترین دارایی نیز به شمار آید. آنچه یک هکر به آن حمله میکند چیزی نیست جز دادههایی که اختصاصی و با ارزش هستند. علاوه بر هکرها، ریسکها و معایب دیگری متناظر با وجود کلان دادهها وجود دارند که ذینفعان آنها را تحت تأثیر قرار میدهند؛ در ادامه به برخی از آنها اشاره میکنیم.
حریم خصوصی و حفاظت از دادهها
بدترین اتفاق برای یک بانک، نشت اطلاعات بانکی و حساس مشتریان آن به بیرون است. بانک فقط یک مثال است و برای همه شرکتها در تمام صنایع، دادههایی وجود دارند که نشت، تغییر یا از بین رفتن آنها به هر دلیلی، یک فاجعه به شمار میآید. تنها در سال ۲۰۱۹، نزدیک به ۴.۱ میلیارد نشت اطلاعات ثبت شده است که عددی ترسناک در قدرت منفی کلان دادهها را نشان میدهد. درواقع، کلان داده شبیه سد بزرگی است که در صورت عدم وجود استحکام لازم، نه تنها یک منبع برای تأمین آب آشامیدنی یا کشاورزی نیست، بلکه یک بمب ساعتی و آماده برای ایجاد بحران است.
هزینه نگهداری و تحلیل
در غالب اوقات، نگهداری کلان دادهها خارج از توان بخش IT سازمانها است و برون سپاری آن اجتناب ناپذیر است. اما این برون سپاری یکی از پرهزینهترین فعالیتهای بخش فناوری و ارتباط برای سازمانهاست. همچنین، این هزینه هرگز مقطعی نیست و تا زمانی که سازمان به بقای خود ادامه میدهد با آن همراه میگردد.
کیفیت پایین داده
تا قبل از تحلیل و استفاده از نتایج آن، نمیتوان از کیفیت دادهها اطمینان حاصل کرد. بخصوص اگر سازمان برداشت معنی از کلان دادههای خود را برون سپاری کرده باشد، تنها پس از هزینه و زمان بالا است که پی میبرد که آیا دادههای خام موجود از کیفیت لازم برای برداشت نتایج و استراتژی برخوردار بودهاند یا خطایی در تولید آنها باعث کاهش یا از بین رفتن کیفیت لازم شده است.
با دادههای خود چه کنیم؟
باید گفت که داده نه تنها یک دارایی با ارزش است، بلکه باید بالاترین اولویت هر سازمان باشد و مدیران باید به این بلوغ دیجیتال برسند که داده آغاز دیجیتالی شدن و حرکت در قالب انقلاب صنعتی چهارم است. بنابراین، سازمانی که استراتژی مشخصی برای جمعآوری، ذخیره و تحلیل دادههای خود ندارد، بی چراغ در جادهای تاریک، به سمت مقصدی نامشخص میرود. در اولین گام، باید اندازه سازمان و حجم تقریبی دادههای آن مشخص گردد. سپس، امکانسنجی و قدرت مانور آن نسبت به ذخیره و تحلیل دادهها به شکل درون سازمانی باید در اولویت قرار گیرد. در نهایت، تصمیم لازم برای حفظ فعالیتهای داده کاوی یا برون سپاری آن اتخاذ شود. برای شرکتهای بزرگ پیشنهاد بر این است که از فضاهای ابری با قابلیت ارائه خدمات نرمافزاری تحلیل داده استفاده شود. همچنین، استراتژیهای چند ابری (استفاده همزمان و توزیع شده از چندین شرکت ارائه دهند خدمات ابری) بهینهترین انتخاب در برون سپاری فعالیتهای داده کاوی است.