موضوع داده کاوی شناخت چیزهای جدید و با ارزش ، بالقوه مفید ، رابطه های منطقی و الگوهای موجود در داده ها است در جوامع مختلف یافتن الگو های مفید در داده ها با عناوین متعددی ( مانند داده کاوی ) بیان می شود . برای مثال از عنوان هایی نظیر استخراج دانش ، کشف اطلاعات ، برداشت اطلاعات ، پردازش الگوهای داده ها می توان نام برد .

عبارت « داده کاوی » توسط آمار شناسان ، محققان پایگاه های داده ها و سیستم های اطلاعات مدیریتی و جوامع بازرگانی به کار برده می شود . عبارت کشف دانش در پایگاه داده ها عموما برای اشاره به فرایند کلی کشف دانش مفید از داده هایی که داده کاوی گام مهمی دراین فرایند است ، مورد استفاده قرار می گیرد گام های دیگری در فرایند کشف دانش در پایگاه داده ها نظیر آماده کردن داده ها ، انتخاب داده ها ، تمیز کردن داده ها و درک درست از فرایند داده کاوی مــــوجب می شود تا اطلاعاتی که برای ما مفید هستند از داده ها استخراج شوند . داده کاوی از تحلیل های سنتی داده ها و رویکردهای آماری نشات گرفته است به طوری که شامل فنون تحلیلی ای است که از شاخه های دیگری تشکیل شده است ، مانند :

تحلیل های عددی

  • الگوهای سازگار و سطوحی از هوش مصنوعی مانند یادگیری ماشین
  • شبکه های عصبی و الگوریتم های ژنتیک
  • …..

با وجود این بسیاری از داد ه کاوی ها بر روش های سنتی و رویکردهای تحلیل داده های مبتنی بر فرضیه تکیه دارد . اساسا دو رویکرد برای داده کاوی وجود دارد که از لحاظ ایجاد و طراحی مدل و یافتن الگوها با هم فرق دارند اولین رویکرد که مربوط به ساخت مدل است ( جدا از مشکلاتی که ذاتا در مجموعه داده های بزرگ وجود دارد ) مشابه روش های کاوشگرانه آماری مرسوم است. دراین حالت هدف ایناست تا خلاصه های کلی ازمجموعه ای ازداده هـــا برای شناخت وتــوضیح خصوصیت های اصلی شکل توزیع به دست آوریم . مثال هایی از این قبیل مدل ها شامل تحلیل خوش های بخشی از مجموعه داده ها مدل رگرسیونی برای پیشگویی و قاعده رده بندی با ساختار درختی است .

نوع دوم رویکرد داده کاوی ، رویکرد تشخیص الگو است . این رویکرد سعی بر آن دارد . تا انحراف هایی هرچند کوچک ( از حد مطلوب ) را تشخیص دهد ( که در هر صورت حائز اهمیت هستند ) ، تا الگوها و روند های غیر معمول نایان شود . مثال هایی نظیر الگو های نامعول ( برای تشخیص کلاهبرداری ) در استفاده از کارت های اعتباری و موضوع هایی که الگوهایی با ویژگی های نا مشابه با سایر الگو ها دارند از این نوع کاربد است . این دسته از راهبردها ست که موجب می شود تا داده کاوی به عنوان علم جستجوی اطلاعات با ارزش از بین توده عظیمی از داده ها به حساب آید . به طور کلی در پایگاه های داده ای کسب و کار ( تجاری ) ضعف درک الگو ها به خاطر پیچیدگی زیاد آن هاست . این پیچیدگی ها در اثر ناپیوسته بودن ، نامفهوم بودن و کامل نبودن به وجود می آیند. هر چند اکثر الگوریتم های داده کاوی می توانند اثر این گونه خصوصیت های نامربوط برا در تشخیص الگوی اصلی تمییز دهند ، ولی قدرت پیش گویی الگوریتم های داده کاوی با افزایش این انحراف ها کاهش می یابد .