دادهکاوی نامی است که به فرآیند جستجو و تحلیل داده اشاره دارد. در این علم، معمولا داده را حجمهای بزرگ و متنوع از اطلاعات میدانند و منظور از تحلیل، یافتن الگوها و اطلاعات مفید از بطن این حجم بزرگ است. پایه داده کاوی اصول، قضایا و الگوریتمهای ریاضی است که با قدرت پردازش کامپیوترها ادغام میشود تا دستهبندی و بررسی دادهها را ممکن سازند. با توجه به نوع داده به نوع داده و هدف اصلی در تحلیل آن، دادهکاوی کاربردهای مختلفی دارد. برای مثال، شرکتها از نرمافزارهای دادهکاوی برای جمعآوری اطلاعات بهروز و دقیق از مشتریان خود بهره میگیرند. از این طریق، آنها استراتژیها موثرتری در بازاریابی اتخاذ میکنند و فروش خود را بالا میبرند. دادهکاوی را دانش کشف بینش از داده (Knowledge discovery in data) نیز میخوانند، زیرا تمام هدف آن، استخراج دانش از اطلاعات درهم تنیده و مبهمی است که یک یا چند منبع تولید مشخص دارند، الگویی قابل فهم را دنبال میکنند و از آینده یک جریان، فعالیت یا ماهیت خاص خبر میدهند.
تاریخچه داده کاوی
مفهوم دادهکاوی سالها قبل از خلق کامپیوترها وجود داشته است. بخش عظیمی از ابزارهای دادهکاوی وابسته به رشته آمار است؛ بخصوص، استدلال بیزی که در قالب قضیه بیز مطرح میشود در سال ۱۷۶۳ توسط توماس بیز ارائه گردید تا مبنای استنباط آماری و بسیاری از روشهای دیگر در داده کاوی قرار گیرد.
برازش منحنی و تحلیلهای متناظر با آن، حوزه دیگری از آمار ریاضی است که در سال ۱۸۰۵ معرفی گردید. در ادامه، این ماشین جهانی تورینگ بود که در سال ۱۹۳۶ مفهوم ساختارمند الگوریتم را وارد دنیای استنباط آماری و پردازش داده کرد. شبکههای عصبی دیگر ابزار پرکاربرد در دادهکاوی هستند که در سال ۱۹۴۳ معرفی شدند. توسعه پایگاههای داده و الگوریتمهای ژنتیک نیز در دهه ۷۰ میلادی ممکن شد. در ادامه و در سال ۱۹۸۹ بررسی داده به استخراج دانش از پایگاههای داده رسید تا مرحله مدرنی از تشخیص الگو در دادهها آغاز گردد.
با افزایش قدرت پردازندههای کامپیوتری، گسترش پایگاههای داده و فناوریهای عرضه شده در دهه آخر قرن بیستم و اوایل قرن بیست و یکم، دادهکاوی به یک ضرورت در علوم مختلف تبدیل شد. با فراگیر شدن اینترنت در نقاط مختلف جهان و به منظورهای متمایز، دادهها به با ارزشترین کالای مبادلهای بدل شدند و صنایع و سازمانهای دولتی و غیردولتی سرمایهگذاریهای کلانی بر روی جمعآوری، تحلیل و محافظت از داده کردند.
فرآیند داده کاوی
از جمعآوری داده، تا تجسم و استخراج اطلاعات از آن، فرآیند دادهکاوی روندی گام به گام از دادههای خام به معنی یا سناریوهای مرتبط با تصمیمگیری است. تکنیکهای مختلف در دادهکاوی برای توصیف موقعیت یا پیشبینی آینده الگوها طراحی شدهاند. فرآیند دادهکاوی در حالت کلی شامل ۴ مرحله است.
اولین مرحله، تعیین اهداف است. در این مرحله معمولا سختترین بخش از فرآیند دادهکاوی است؛ با این حال، شرکتها زمان کمی را صرف این گام مهم میکنند. بهویژه، تحلیلگران داده و ذینفعان کسب و کارها باید در تماس و تعامل بالایی باشند تا بتوانند اهدافی مشخص، قابل دستیابی و بالاترین سطح از بهرهوری را برای فعالیت دادهکاوی اتخاذ کنند. در این مرحله، مسئله اصلی سازمان در کانون توجه قرار میگیرد و دادهها، پارامترها و متغیرهای متناظر از فعالیتهای کسب و کار و اکوسیستم آن استخراج میشوند. همچنین، در بیشتر موارد، تحلیلگران به تحقیقات بیشتری برای درک سازمان، عملیات و دادههای خام آن نیاز دارند. مرحله دوم آمادهسازی داده است. وقتی مسئله و اهداف نهایی در حل آن مشخص شد، آنگاه تحلیلگران راحتتر میتوانند دادههای مفید و مرتبط را تشخیص دهند. پس از جمعآوری دادههای مرتبط، دادهها تصفیه میشوند و هرگونه نویز، مانند دادههای تکراری، مقادیر از دست رفته و انواع پرت، از نمونه حذف میشوند.
با توجه به نوع مجموعه دادهها، ممکن است یک گام بیشتر برای کم کردن بعد مسئله پیادهسازی شود، زیرا ویژگیهای فراوانی که در تولید داده مدنظر قرار گرفتهاند، محاسبات بعدی را کند میکنند. به طور معمول، دانشمندان داده تنها پیشبینی کنندگان (دادههای ورودی) اصلی را در مدلها وارد میکنند تا فرآیند دادهکاوی با هزینه و زمان بالایی انجام نگیرد. ساخت مدل و کاوش الگوها، سومین مرحله تلقی میشود. با توجه به نوع تحلیل، تحلیلگران داده ممکن است به روابط مختلفی از دادهها بپردازند. برای مثال، الگوهای متوالی وابستگی متغیرها و توابع پیشبینی مدنظر قرار میگیرند. در این مرحله، فعالیتهایی چون یادگیری عمیق بر روی دادهها پیادهسازی میشوند تا دستهبندی و طبقهبندی مجموعههای داده ممکن گردد.
رگرسیونهای خطی و غیرخطی، یادگیری تحت نظارت و بدون نظارت، روشهای بهینهسازی، تقریب بیزی، رویکردهای فازی و… در این مرحله بر دادهها اعمال میشوند تا هر مدل و الگوی معنیداری که پیشبینی بهتری را ارائه میدهد تشخیص داده شود. نهایتا ارزیابی نتایج و پیادهسازی دانش به عنوان مرحله چهارم مطرح میشود. پس از پیادهسازی الگوریتمهای مختلف در تحلیل داده و به دست آوردن نتایج، مرحله تصمیمگیری آغاز میشود. در مرحله ۴ چهارم، نتایج نهایی مورد بررسی قرار میگیرند، اعتبار آنها ارزیابی میشود و موارد استفاده آنها تعیین میشود.
این مرحله به مرحله سناریوسازی و پیشبینی نهایی نیز مشهور است. درواقع، این همان مرحلهای است که در آن، مدیران و تحلیلگران بر سر یک میز مینشینند و استراتژیهای آتی در افزایش بهرهوری سازمان را طراحی میکنند.
تکنیکهای مختلف در دادهکاوی
در بطن فرآیند یافتن الگوها، تکنیکهایی قرار دارند که حجمهای بزرگی از داده را به اطلاعاتی مفید و دستهبندی شده تبدیل میکنند.
معمولترین تکنیکها در داده شامل موارد زیرند:
قواعد وابستگی:
یک قاعده وابستگی روشی قاعده محور است که برای یافتن روابط بین متغیرهای مختلف در مجموعه داده به کار گرفته میشود. شرکتها از این روش برای تشخیص علت و معلول در بازار و تغییر شیوه مواجه با مشتری استفاده میکنند.
شبکههای عصبی:
فرآیند مورد استفاده در شبکههای عصبی یک رویکرد برگرفته از عملکرد مغز انسان است که برای شبیهسازی موقعیت موجود در یک واقعیت و آموزش آن به کامپیوتر طراحی شده است. هدف، آموزش ماشین با متغیرهای مشاهده شده و کمک به آن در پیشبینی آینده روند است.
درخت تصمیمگیری:
در این تکنیک دادهکاوی، از روشهای ریاضیاتی مانند رگرسیون یا کلاسبندی برای تقریب یا طبقهبندی خروجیهای ممکن (نتایج آتی)، بر اساس مجموعهای از تصمیمات، استفاده میشود. درواقع، تلاش میشود که تمام حالتهای ممکن مدنظر قرار گیرند و بهترین مسیر را از بین نتایج ممکن انتخاب کرد.
k-نزدیکترین فاصله:
الگوریتم k- نزدیکترین فاصله یا KNN یک الگوریتم غیر پارامتریک است که متناظر با میزان فاصله و رابطه دادههای تحت بررسی باهم، مجموعه داده مدنظر را دستهبندی میکند. به عبارتی، این الگوریتم فاصله را به عنوان تعلق به مجموعههای مختلف مدنظر قرار میدهد، این فاصله معمولا از نوع اقلیدسی است.
کاربردهای دادهکاوی
تیمهای تحلیلگر در کسب و کارهای مختلف از دادهکاوی به عنوان اصلیترین ابزار پردازش داده استفاده میکنند. درواقع، در دنیای فناوری و اینترنت محور کنونی که هر لحظه میلیونها ترابایت داده را تولید میکند، هیچ کسب و کاری نمیتواند بدون بهرهگیری از علم داده به موفقیت چندانی برسد.
فروش و بازاریابی
شرکتها دادههای پراکنده و در مقیاس وسیع از عملکرد مشتریان خود را جمعآوری میکنند. این دادهها همان رفتار بازار و توازن موجود در عرضه و تقاضا است که بخش فروش شرکت به آن نیاز دارد. با دستهبندی مشتریان در مجموعههای مختلف، شرکت استراتژیهای بازاریابی خود را با یک هدفگذاری دقیقتر و به صورت اختصاصی برای جامعه هدف شرکت طراحی میکند.
برای افزایش بهرهوری بخش فروش، مهمترین فعالیت، هدف قرار دادن گروههای مختلف از مشتریان با شیوههای متمایز از معرفی، قیمتگذاری و ارائه محصول است. همچنین، با استفاده از تحلیلهای پیشگویانه، شرکت میتواند پیشبینی نزدیکی از آینده بازار داشته باشد و متناظر با آن تصمیمگیری کند.
تحلیل ریسک
ریسک شبیه آتش شعلهوری است که همزمان با خطر آفرین بودن، بقای شرکتهای مختلف به آن بستگی دارد. امروزه، پلتفرمهای تحلیل ریسک به معمولترین ابزارها در تشخیص، تحلیل، برطرف کردن، و بهرهبرداری از ریسکهای حرفای بدل شدهاند. بخش مالی شرکتها از تحلیل دادههای مالی برای تشخیص ریسکها و فرصتهای سرمایهگذاری استفاده میکند. درنهایت و با تمام پیشرفتهایی که در دادهکاوی و علم پیشبینی حاصل شده است، انسان هنوز در آغاز راه بهرهبرداری از این ترکیب توأم ریاضی و کامپیوتر است. مطمئنا سالهای پیش رو عرصه شکوفا شدن قدرت علم داده و بروز دنیای جدیدی از تعامل انسان و ماشین خواهند بود.
آموزش
موسسات آموزشی از دادهکاوی برای تشخیص جامعه دانشجویان هدف و شیوههای موثر در آموزش آنها استفاده میکنند. نگاهی به پلتفرم Coursera و شیوه بازاریابی و آموزش آن، نشان از قدرت دادهکاوی در یافتن دانشجویان هدف، آموزش آنها و فرآیند حفظ آنها در پلتفرم آموزش آنلاین دارد.
ممانعت از کلاهبرداری
کلاهبرداری با نام برند یا سازمانهای مطرح، همیشه معضلی در فعالیت شرکتها و جذب اعتماد مشتریان بوده است. با استفاده از دادهکاوی و تحلیل آنی پلتفرمها و بازار محصولات، شرکتها و نهادهای نظارتی میتوانند تسلط بیشتری بر ارزیابی اصالت محصولات موجود در بازار داشته باشند.
بهینهسازی عملیات
یکی از مهمترین کاربردهای دادهکاوی در صنایع، افزایش بهینهسازی عملیات تولید یا ارائه خدمات توسط شرکتهاست. در این فرآیند، تصمیمگیری ماشین به کمک انسان میآید تا بهترین استراتژیها در کوتاهترین زمان ممکن به پروتکلهای تولید تزریق شوند و بهرهوری به بالاترین سطح از پتانسیل موجود در سازمان برسد.
پروتکلهای ابتکاری
هیجان انگیزترین ویژگی علمداده، قدرت بالای آن در استفاده از دادهها به نفع خلق پروتکلهای ابتکاری برای فعالیتهای مختلف در صنعت است. برای مثال، امروزه صنایع فلزی و معدنی از همزادهای دیجیتال برای طراحی روشهای بهینهتر در استخراج و فرآوری مواد معدنی استفاده میکنند، روشهایی که بهره بالاتری به همراه دارند، ایمنترند و آلودگی کمتری را بر محیط اطراف تزریق میکنند.