پیشرفتهای بوجود آمده در جمع آوری داده و قابلیتهای ذخیره سازی در طی دهه­های اخیر باعث شده در بسیاری از علوم با حجم بزرگی از اطلاعات روبرو شویم. محققان در زمینه­های مختلف مانند مهندسی، ستاره شناسی، زیست شناسی و اقتصاد هر روز با مشاهدات بیشتر و بیشتری روبرو می­شوند. در مقایسه با بسترهای داده­ای قدیمی و كوچكتر، بسترهای داده­ای امروزی چالشهای جدیدی در تحلیل داده­ها بوجود آورده­اند. روشهای آماری سنتی به دو دلیل امروزه كارائی خود را از دست داده­اند. علت اول افزایش تعداد مشاهدات (observations) است، و علت دوم كه از اهمیت بالاتری برخوردار است افزایش تعداد متغیرهای مربوط به یك مشاهده می­باشد.

تعداد متغیرهایی كه برای هر مشاهده باید اندازه گیری شود ابعاد داده نامیده می­شود. عبارت “متغیر” (variable) بیشتر در آمار استفاده می­شود در حالی كه در علوم كامپیوتر و یادگیری ماشین بیشتر از عبارات “ویژگی” (feature) و یا “صفت” (attribute) استفاده می­گردد.

بسترهای داده­ای كه دارای ابعاد زیادی هستند علیرغم فرصتهایی كه به وجود می­آورند، چالشهای محاسباتی زیادی را ایجاد می­كنند. یكی از مشكلات داده­های با ابعاد زیاد اینست كه در بیشتر مواقع تمام ویژگیهای داده­ها برای یافتن دانشی كه در داده­ها نهفته است مهم و حیاتی نیستند. به همین دلیل در بسیاری از زمینه­ها كاهش ابعاد داده یكی از مباحث قابل توجه باقی مانده است.

روشهای كاهش ابعاد داده به دو دسته تقسیم می­شوند:

  • روشهای مبتنی بر استخراج ویژگی: این روشها یك فضای چند بعدی را به یك فضای با ابعاد كمتر نگاشت می­كنند. در واقع با تركیب مقادیر ویژگیهای موجود، تعداد كمتری ویژگی بوجود می­آورند بطوریكه این ویژگیها دارای تمام (یا بخش اعظمی از) اطلاعات موجود در ویژگیهای اولیه باشند. این روشها به دو دسته­ی خطی و غیر خطی تقسیم می­شوند.
  • روشهای مبتنی بر انتخاب ویژگی: این روشها سعی می­كنند با انتخاب زیرمجموعه­ای از ویژگیهای اولیه، ابعاد داده­ها را كاهش دهند. در پاره­ای از اوقات تحلیلهای داده­ای نظیر طبقه­بندی برروی فضای كاسته شده نسبت به فضای اصلی بهتر عمل می­كند.

در تهیه این گزارش كمتر به اثباتهای ریاضی پرداخته شده و بیشتر به مفاهیم و كاربرد روشها توجه شده است. در فصل دوم از این گزارش، به مطالعه­ی روشهای مبتنی بر استخراج ویژگی پرداخته­ایم. در تهیه­ی مطالب این فصل سعی كرده­ایم با ارائه­ی مثالهای مناسب، خواننده را در درك بهتر مفاهیم مربوطه یاری رسانیم. در این فصل، چهار روش ارائه شده است كه همگی از نوع خطی هستند. بدلیل حجم زیاد مطالب، مجالی برای پرداختن به روشهای دیگر خطی و روشهای غیر خطی باقی نماند. امید است در آینده مطالب این فصل توسط اینجانب یا دانشجویان دیگر كاملتر شود.

در فصل سوم روشهای مبتنی بر انتخاب ویژگی ارائه شده است. می­توان گفت در این فصل یك مطالعه­ اجمالی برروی تمامی روشهای انتخاب ویژگی انجام شده است. در تهیه­ی مطالب این فصل، از گزارش “معرفی روشهای مختلف انتخاب ویژگی” توسط صادق سلیمان­پور استفاده شده است كه جا دارد در همین­جا از ایشان تشكر نمایم.

 در صورتی که اطلاعات بیشتری در این زمینه نیاز دارید پیام بگذارید در همین صفحه تا برایتان در سایت درج کنیم.