دسته­بندی/ طبقه بندی [۱]

دسته­بندی در واقع ارزشیابی ویژگیهای مجموعه ای از داده­ها و سپس اختصاص دادن آنها به مجموعه­ای از گروههای از پیش تعریف شده است. این متداولترین قابلیت داده کاوی می باشد. داده کاوی را می توان با استفاده از داده های تاریخی برای تولید یک مدل یا نمایی از یک گروه بر اساس ویژگی های داده ها به کار برد. سپس می توان از این مدل تعریف شده برای طبقه بندی مجموعه داده های جدید استفاده کرد. همچنین می توان با تعیین نمایی که با آن سازگار است برای پیش بینی های آتی ازآن بهره گرفت.در دنیای امروز بحث classification اطلاعات اهمیت بسیاری دارد،اینکه بتوان مدلی مناسب برای تحلیل داده هایی خاص بدست آورد و بتوان با بررسی اولیه ویژگی های یک عنصر خاص ، الگوی رفتاری آن عنصر را پیش بینی کرد .

 

 

در مسائل دسته­بندی هدف شناسایی ویژگیهایی است که گروهی را که هر مورد به آن تعلق دارد را نشان دهند. از این الگو می­توان هم برای فهم داده­های موجود و هم پیش­بینی نحوه رفتار مواد جدید استفاده کرد.

در داده کاوی مبحث طبقه بندی اطلاعات به بررسی اینگونه مدل ها و متد ها می پردازد. در دسته­بندی اطلاعات هدف بدست آوردن مدلی برای الگوی رفتاری و ویژگی های مجموعه ایی از داده ها است تا با کمک آن بتوان بدون دانستن رفتار یک موجودیت، با توجه به ویژگی های آن و با استفاده از مدل بدست آورده شده، رفتار آن را تشخیص داد و آن موجدیت را در گروه خاصی طبقه بندی کرد . امروزه شرکت های بسیار زیادی در سراسر نقاط جهان با استفاده از این علم به تحلیل،بررسی و پیش بینی رفتار مشتریان خود می پردازند . داده­کاوی مدلهای دسته­بندی را با بررسی داده­های دسته­بندی شده قبلی ایجاد می­کند و یک الگوی پیش­بینی کننده را بصورت استقرایی می­یابند. این موارد موجود ممکن است از یک پایگاه داده تاریخی آمده باشند.

در واقع سیستم هایی که بر اساس دسته­بندی ، داده کاوی می کنند، دو مجموعه ورودی دارند: یک مجموعه آموزشی که در آن داده هایی که به طور پیش فرض در دسته های مختلفی قرار دارند، همراه با ساختار دسته بندی خود وارد سیستم می شوند و سیستم بر اساس آ نها به خود آموزش می دهد یا به عبارتی پارامترهای دسته بندی را برای خود مهیا می کند.

دسته دیگر از ورودی هایی هستند که پس از مرحله آموزش وبرای تعیین دستهوارد سیستم می شوند.
داده کاوی مدلهای دسته­بندی را بوسیله امتحان کردن داده طبقه بندی شده(موارد) و نهایتا یافتن یک الگوی پیش گو ایجاد می کند. این موارد موجود می تواند از یک پایگاه داده تاریخی ناشی شود مانند اطلاعات افرادی که تحت معالجه دارویی خاصی هستند و یا به سمت یک خدمت با مسافت دور جذب شده اند.یا اینکه از تجربه هایی که طی آن یک نمونه از تمام پایگاه داده در جهان واقعی تست شده باشد و نتایج آن برای ایجاد یک گروه بند استفاده شده باشند منتج شود.

از جمله تکنیک های داده کاوی که برای طبقه بندی به کار می آیند می توان از تکنیک های شبکه عصبی و درخت تصمیم گیری و KNN نام برد، طبقه بندی یکی از انواع یاد گیری با نظارت است.

[۱] Classification