در دو دهه قبل توانایی‌های فنی بشر در برای تولید و جمع آوری دادهها به سرعت افزایش یافته است. عواملی نظیر استفاده گسترده از بارکد برای تولیدات تجاری، به خدمت گرفتن کامپیوتر در کسب و کار، علوم، خدمات دولتی و پیشرفت در وسائل جمع آوری داده، از اسکن کردن متون و تصاویر تا سیستمهای سنجش از دور ماهواره ای، در این تغییرات نقش مهمی دارند.

به‌طور کلی استفاده همگانی از وب و اینترنت به عنوان یک سیستم اطلاع رسانی جهانی ما را مواجه با حجم زیادی از داده و اطلاعات می‌کند. این رشد انفجاری در دادههای ذخیره شده، نیاز مبرم وجود تکنولوژی های جدید و ابزارهای خودکاری را ایجاد کرده که به صورت هوشمند به انسان یاری رسانند تا این حجم زیاد داده را به اطلاعات و دانش تبدیل کند: داده کاوی به عنوان یک راه حل برای این مسائل مطرح است.

در یک تعریف غیر رسمی داده کاوی فرآیندی است، خودکار برای استخراج الگوهایی که دانش را بازنمایی می کنند، که این دانش به صورت ضمنی در پایگاه داده های عظیم، انباره داده (Data warehouses) و دیگر مخازن بزرگ اطلاعات، ذخیره شده است.

داده کاوی بطور همزمان از چندین رشته علمی بهره می برد نظیر: تکنولوژی پایگاه داده، هوش مصنوعی، یادگیری ماشین، شبکه های عصبی، آمار، شناسایی الگو، سیستم های مبتنی بر دانش (Knowledge-based system)، حصول دانش (Knowledge-acquisition)، بازیابی اطلاعات (Information retrieval)، محاسبات سرعت بالا (High-performance computing) و بازنمایی بصری داده (Data visualization).

داده کاوی در اواخر دهه ۱۹۸۰ پدیدار شد، در دهه ۱۹۹۰ گام‌های بلندی در این شاخه از علم برداشته شده و انتظار می رود در این قرن به رشد و پیشرفت خود ادامه دهد.

واژه های «داده کاوی» و «کشف دانش در پایگاه داده» (Knowledge Discovery in Database) اغلب به صورت مترادف یکدیگر مورد استفاده قرار می گیرند. کشف دانش به عنوان یک فرآیند در شکل ۱-۱ نشان داده شده است. 

داده‌کاوی چیست؟
شکل۱: داده کاوی به عنوان یک مرحله از فرآیند کشف دانش

کشف دانش در پایگاه داده فرایند شناسایی درست، ساده، مفید، و نهایتا الگوها و مدل‌های قابل فهم در داده ها است. داده کاوی، مرحله‌ای از فرایند کشف دانش است و شامل الگوریتم‌های مخصوص داده کاوی است. به‌طوری‌که، تحت محدودیت‌های مؤثر محاسباتی قابل قبول، الگوها و یا مدلها را در داده کشف می کند.

به بیان ساده‌تر، داده کاوی به فرآیند استخراج دانش ناشناخته، درست، و بالقوه مفید از داده اطلاق می‌شود. تعریف دیگر این است که، داده کاوی گونه‌ای از تکنیک‌ها برای شناسایی اطلاعات و یا دانش تصمیم گیری از قطعات داده است، به نحوی که با استخراج آن‌ها، در حوزه‌های تصمیم‌گیری، پیش‌بینی، پیشگویی، و تخمین مورد استفاده قرار گیرند.

داده‌ها اغلب حجیم، اما بدون ارزش هستند. داده به تنهایی قابل استفاده نیست، بلکه دانش نهفته در داده‌ها قابل استفاده است. به این دلیل اغلب به داده کاوی، تحلیل داده ای ثانویه (Secondary Data Analysis) گفته می‌شود.

۱-۱٫ چه چیزی سبب پیدایش داده کاوی شده است؟

اصلی ترین دلیلی که باعث شد داده کاوی کانون توجهات در صنعت اطلاعات قرار بگیرد، مساله در دسترس بودن حجم وسیعی از داده‌ها و نیاز شدید به اینکه از این داده‌ها اطلاعات و دانش سودمند استخراج کنیم. اطلاعات و دانش به‌دست آمده در کاربردهای وسیعی از مدیریت کسب و کار و کنترل تولید و تحلیل بازار تا طراحی مهندسی و تحقیقات علمی مورد استفاده قرار می‌گیرد.

داده کاوی را می توان حاصل سیر تکاملی طبیعی تکنولوژی اطلاعات دانست، که این سیر تکاملی ناشی از یک سیر تکاملی در صنعت پایگاه داده می باشد. نظیر عملیات: جمع آوری داده‌ها و ایجاد پایگاه داده، مدیریت داده و تحلیل و فهم داده‌ها.

در شکل ۱-۲ این روند تکاملی در پایگاه های داده نشان داده شده است.

داده‌کاوی چیست؟
شکل۲: سیر تکاملی صنعت پایگاه داده

تکامل تکنولوژی پایگاه داده و استفاده فراوان آن در کاربردهای مختلف سبب جمع آوری حجم فراوانی داده شده است. این داده‌های فراوان باعث ایجاد نیاز برای ابزارهای قدرتمند برای تحلیل داده ها گشته، زیرا در حال حاضر به لحاظ داده ثروتمند هستیم ولی دچار کمبود اطلاعات می‌باشیم.

ابزارهای داده کاوی، داده‌ها را آنالیز می‌کنند و الگوهای داده‌ای را کشف می‌کنند که می‌توان از آن در کاربردهایی نظیر: تعیین استراتژی برای کسب و کار، پایگاه دانش (Knowledge base) و تحقیقات علمی و پزشکی، استفاده کرد. شکاف موجود بین داده‌ها و اطلاعات سبب ایجاد نیاز برای ابزارهای داده کاوی شده است تا داده‌های بی ارزش را به دانشی ارزشمند تبدیل کنیم.

به طور ساده داده کاوی به معنای استخراج یا «معدن کاری (Mining) دانش از مقدار زیادی داده خام است. البته این نامگذاری برای این فرآیند تا حدی نامناسب است، زیرا به طور مثال عملیات معدن کاری برای استخراج طلا از صخره و ماسه را طلا کاوی می نامیم، نه ماسه کاوی یا صخره کاوی. بنابراین بهتر بود به این فرآیند نامی شبیه به «استخراج دانش از داده» می‌دادیم که متاسفانه بسیار طولانی است.

«دانش کاوی» به عنوان یک عبارت کوتاه‌تر به عنوان جایگزین، نمی‌تواند بیانگر تاکید و اهمیت بر معدن کاری مقدار زیاد داده باشد. معدن کاری عبارتی است که بلافاصله انسان را به یاد فرآیندی می‌اندازد که به دنبال یافتن مجموعه کوچکی از قطعات ارزشمند از حجم بسیار زیادی از مواد خام هستیم.

با توجه به مطالب عنوان شده، با اینکه این فرآیند تا حدی دارای نامگذاری ناقص است ولی این نامگذاری (یعنی داده کاوی) بسیار عمومیت پیدا کرده است. البته اسامی دیگری نیز برای این فرآیند پیشنهاد شده که بعضا بسیاری متفاوت با واژه داده کاوی است. نظیر: استخراج دانش از پایگاه داده، استخراج دانش (Knowledge Extraction)، آنالیز داده/الگو، باستان شناسی داده (Data archaeology)، و لایروبی داده‌ها (Data dredging).

۱-۲٫ مراحل کشف دانش

کشف دانش دارای مراحل تکراری زیر است:

۱) پاکسازی داده‌ها Data cleaning (از بین بردن نویز و ناسازگاری داده‌ها)؛

۲- یکپارچه سازی داده‌ها Data integration (چندین منبع داده ترکیب می‌شوند).

۳- انتخاب داده‌ها Data selection (داده های مرتبط با آنالیزازپایگاه داده بازیابی می شوند).

۴- تبدیل کردن داده‌ها Data transformation (تبدیل داده‌ها به فرمی که مناسب برای داده کاوی باشد مثل خلاصه‌سازی Summary و همسان‌سازی Aggregation)

۵-داده کاوی (فرآیند اصلی که روال‌های هوشمند برای استخراج الگوها از داده‌ها به کار گرفته می‌شوند)

۶-ارزیابی الگو Pattern evaluation (برای مشخص کردن الگوهای صحیح و مورد نظربه وسیله معیارهای اندازه گیری)

۷-ارائه دانش Knowledge presentation (یعنی نمایش بصری، تکنیک‌های بازنمایی دانش برای ارائه دانش کشف شده به کاربر استفاده می‌شود)

هر مرحله داده کاوی باید با کاربر یا پایگاه دانش تعامل داشته باشد. الگوهای کشف شده به کاربر ارائه می‌شوند و در صورت خواست او به عنوان دانش به پایگاه دانش اضافه می‌شوند. توجه شود که بر طبق این دیدگاه داده کاوی تنها یک مرحله از کل فرآیند است، البته به عنوان یک مرحله اساسی که الگوهای مخفی را آشکار می‌سازد. با توجه به مطالب عنوان شده، دراینجا تعریفی از داده کاوی ارائه می دهیم:

«داده کاوی عبارتست از فرآیند یافتن دانش از مقادیر عظیم داده های ذخیره شده در پایگاه داده، انباره داده ویا دیگر مخازن اطلاعات».

بر اساس این دیدگاه یک سیستم داده کاوی به طور نمونه دارای اجزاء اصلی زیر است که شکل ۱-۳ بیانگر معماری سیستم است.

داده کاوی چیست؟ (قسمت اول)
شکل۳: معماری یک نمونه سیستم داده کاوی

۱٫ پایگاه داده، انباره داده یا دیگر مخازن اطلاعات: که از مجموعه ای از پایگاه داده ها، انباره داده، صفحه گسترده (Spread sheets)، یا دیگر انواع مخازن اطلاعات. پاکسازی داده‌ها و تکنیک‌های یکپارچه سازی روی این داده‌ها انجام می‌شود.

۲٫ سرویس دهنده پایگاه داده یا انباره داده: که مسئول بازیابی داده‌های مرتبط بر اساس نوع درخواست داده کاوی کاربر می‌باشد.

۳٫ پایگاه دانش: این پایگاه از دانش زمینه (Domain knowledge) تشکیل شده تا به جست‌وجو کمک کند، یا برای ارزیابی الگوهای یافته شده از آن استفاده می‌شود.

۴٫ موتور داده کاوی (Data mining engine): این موتور جزء اصلی از سیستم داده کاوی است و به طور ایده‌آل شامل مجموعه‌ای از پیمانه‌هایی (Module) نظیر توصیف (Characterization)، تداعی (Association)، کلاسبندی (Classification)، آنالیزخوشه‌ها (Cluster analysis)، و آنالیز تکامل وانحراف (Evolution and deviation analysis) است.

۵٫ پیمانه ارزیابی الگو (Pattern evaluation module): این جزء معیارهای جذابیت (Interesting measures) را به کار می‌بندد و با پیمانه داده کاوی تعامل می‌کند. بدین‌صورت که تمرکز آن بر جست‌وجو بین الگوهای جذاب می‌باشد، و از یک حد آستانه جذابیت استفاده می‌کند تا الگوهای کشف شده را ارزیابی کند.

۶٫ واسط کاربرگرافیکی (Graphical User Interface): این پیمانه بین کاربر و سیستم داده کاوی ارتباط برقرار می‌کند، به کاربر اجازه می‌دهد تا با سیستم داده کاوی از طریق پرس‌وجو (Query) ارتباط برقرار کند، این جزء به کاربر اجازه می‌دهد تا شمای پایگاه داده یا انباره داده را مرور کرده، الگوهای یافته شده را ارزیابی کرده و الگوها را در فرم‌های بصری گوناگون بازنمایی کند.

با انجام فرآیند داده کاوی، دانش، ارتباط یا اطلاعات سطح بالا از پایگاه داده استخراج می@شود و قابل مرور از دیدگاه‌های مختلف خواهد بود. دانش کشف شده در سیستم های تصمیم یار، کنترل فرآیند، مدیریت اطلاعات و پردازش پرس‌وجو (Query processing) قابل استفاده خواهد بود.

بنابراین داده کاوی به عنوان یکی از شاخه های پیشرو در صنعت اطلاعات مورد توجه قرار گرفته و به عنوان یکی از نوید بخش‌ترین زمینه‌های توسعه بین رشته‌ای در صنعت اطلاعات است.

۱-۳٫ جایگاه داده کاوی در میان علوم مختلف

ریشه‌های داده کاوی در میان سه خانواده از علوم، قابل پیگیری است. مهم‌ترین این خانواده‌ها، آمار کلاسیک (Classic Statistics) می‌باشد. بدون آمار، هیچ داده کاوی وجود نخواهد داشت، بطوری‌که آمار، اساس اغلب تکنولوژی‌هایی است که داده کاوی بر روی آن‌ها بنا می‌شود. آمار کلاسیک مفاهیمی مانند تحلیل رگرسیون، توزیع استاندارد، انحراف استاندارد، واریانس، تحلیل خوشه، و فاصله‌های اطمینان را که همه این موارد برای مطالعه داده و ارتباط بین داده‌ها می‌باشد، را در بر می‌گیرد. مطمئنا تحلیل آماری کلاسیک نقش اساسی در تکنیک‌های داده کاوی ایفا می‌کند.

دومین خانواده‌ای که داده کاوی به آن تعلق دارد هوش مصنوعی (Artificial Intelligence) است. هوش مصنوعی که بر پایه روش‌های ابتکاری است و با آمار ضدیت دارد، تلاش دارد تا فرایندی مانند فکر انسان، را برای حل مسائل آماری به‌کار بندد. چون این رویکرد نیاز به توان محاسباتی بالایی دارد، تا اوایل دهه ۱۹۸۰ عملی نشد. هوش مصنوعی کاربردهای کمی را در حوزه‌های علمی و حکومتی پیدا کرد، اما نیاز به استفاده از کامپیوترهای بزرگ باعث شد همه افراد نتوانند از تکنیک‌های ارائه شده استفاده کنند.

سومین خانواده داده کاوی، یادگیری ماشین (Machine Learning) است، که به مفهوم دقیق‌تر، اجتماع آمار و هوش مصنوعی می‌باشد. درحالی‌که هوش مصنوعی نتوانست موفقیت تجاری کسب کند، یادگیری ماشین در بسیاری از موارد جایگزین آن شد.

از یادگیری ماشین به عنوان تحول هوش مصنوعی یاد شد، چون مخلوطی از روش‌های ابتکاری هوش مصنوعی به همراه تحلیل آماری پیشرفته می‌باشد. یادگیری ماشین اجازه می دهد تا برنامه های کامپیوتری در مورد داده‌ای که آن‌ها مطالعه می‌کنند، مانند برنامه‌هایی که تصمیم‌های متفاوتی بر مبنای کیفیت داده مطالعه شده می‌گیرند، یادگیری داشته باشند و برای مفاهیم پایه‌ای آن از آمار استفاده می‌کنند و از الگوریتم‌ها و روش‌های ابتکاری هوش مصنوعی را برای رسیدن به هدف بهره می‌گیرند.

داده کاوی در بسیاری از جهات، سازگاری تکنیک‌های یادگیری ماشین با کاربردهای تجاری است. بهترین توصیف از داده کاوی به‌وسیله اجتماع آمار، هوش مصنوعی و یادگیری ماشین به‌دست می‌آید. این تکنیک‌ها سپس با کمک یکدیگر، برای مطالعه داده و پیدا کردن الگوهای نهفته در آن‌ها استفاده می‌شوند. بعضی از کاربردهای داده کاوی به شرح زیر است:

کاربردهای معمول تجاری: از قبیل تحلیل و مدیریت بازار، تحلیل سبد بازار، بازاریابی هدف، فهم رفتار مشتری، تحلیل و مدیریت ریسک؛

مدیریت و کشف فریب: کشف فریب تلفنی، کشف فریب‌های بیمه‌ای و اتومبیل، کشف حقه‌های کارت اعتباری، کشف تراکنش‌های مشکوک مالی (پولشویی)؛

متن کاوی (Text Mining): پالایش متن (نامه‌های الکترونیکی، گروه‌های خبری و غیره)؛

پزشکی: کشف ارتباط علامت و بیماری، تحلیل آرایه‌های DNA، تصاویر پزشکی؛

ورزش: آمارهای ورزشی؛

وب کاوی (Web Mining): پیشنهاد صفحات مرتبط، بهبود ماشین‌های جست‌وجوگر یا شخصی‌سازی حرکت در وب سایت؛

۱-۴٫ داده کاوی چه کارهایی نمی‌تواند انجام دهد؟

داده کاوی فقط یک ابزار است و نه یک عصای جادویی. داده کاوی به این معنی نیست که شما راحت به کناری بنشینید و ابزارهای داده کاوی همه کار را انجام دهد.

داده کاوی نیاز به شناخت داده‌ها و ابزارهای تحلیل و افراد خبره در این زمینه ها را از بین نمی‌برد.

داده کاوی فقط به تحلیلگران برای پیدا کردن الگوها و روابط بین داده‌ها کمک می‌کند و در این مورد نیز روابطی که یافته می‌شود باید به وسیله داده‌های واقعی دوباره بررسی و تست شود.

۱-۵٫ داده کاوی و انبار داده‌ها (Data warehouse)

معمولا داده‌هایی که در داده کاوی مورد استفاده قرار می‌گیرند از یک انبار داده استخراج می‌شوند و در یک پایگاه داده (Database) یا مرکز داده‌ای (Data mart) ویژه برای داده کاوی قرار می‌گیرند.

اگر داده‌های انتخابی جزئی از انبار داده‌ها باشند بسیار مفید است. چون بسیاری از اعمالی که برای ساختن انباره داده‌ها انجام می‌گیرد با اعمال مقدماتی داده کاوی مشترک است و در نتیجه نیاز به انجام مجدد این اعمال وجود ندارد. از جمله این اعمال پاکسازی داده‌ها می‌باشد.

پایگاه داده مربوط به داده کاوی می‌تواند جزئی از سیستم انبار داده‌ها باشد و یا می‌تواند یک پایگاه داده جدا باشد.

داده کاوی چیست؟ (قسمت اول)
شکل ۴: داده‌ها از انباره داه‌ها استخراج می‌شوند

ولی با این حال وجود انباره داده‌ها برای انجام داده کاوی شرط لازم نیست و بدون آن هم اگر داده ها دریک یا چندین پایگاه داده باشند می‌توان داده کاوی را انجام دهیم و بدین منظور فقط کافیست داده‌ها را در یک پایگاه داده جمع آوری کنیم و اعمال جامعیت داده‌ها و پاکسازی داده‌ها را روی آن انجام دهیم. این پایگاه داده جدید مثل یک مرکز داده‌ای عمل می‌کند.

داده کاوی چیست؟ (قسمت اول)
شکل۵: داده‌ها از چند پایگاه داده استخراج شده‌اند

منبع: سایت http://www.gerdab.ir
نویسندگان: مصطفی کیخا، علی عباسی