روشهاي كاهش ابعاد

پيشرفتهاي بوجود آمده در جمع آوري داده و قابليتهاي ذخيره سازي در طي دهههاي اخير باعث شده در بسياري از علوم با حجم بزرگي از اطلاعات روبرو شويم. محققان در زمينههاي مختلف مانند مهندسي، ستاره شناسي، زيست شناسي و اقتصاد هر روز با مشاهدات بيشتر و بيشتري روبرو مي- شوند. در مقايسه با بسترهاي دادهاي قديمي و كوچكتر، بسترهاي دادهاي امروزي چالشهاي جديدي در تحليل دادهها بوجود آوردهاند. روشهاي آماري سنتي به دو دليل امروزه كارائي خود را از دست داده اند. علت اول افزايش تعداد مشاهدات[1] است، و علت دوم كه از اهميت بالاتري برخوردار است افزايش تعداد متغيرهاي مربوط به يك مشاهده ميباشد.

تعداد متغيرهايي كه براي هر مشاهده بايد اندازه گيري شود ابعاد داده ناميده ميشود. عبارت “متغير[2]” بيشتر در آمار استفاده ميشود در حالي كه در علوم كامپيوتر و يادگيري ماشين بيشتر از عبارات “ويژگي[3]” و يا “صفت[4]” استفاده ميگردد.

بسترهاي داده اي كه داراي ابعاد زيادي هستند عليرغم فرصتهايي كه به وجود ميآورند، چالشهاي محاسباتي زيادي را ايجاد ميكنند. يكي از مشكلات دادههاي با ابعاد زياد اينست كه در بيشتر مواقع تمام ويژگيهاي دادهها براي يافتن دانشي كه در دادهها نهفته است مهم و حياتي نيستند. به همين دليل در بسياري از زمينهها كاهش ابعاد داده يكي از مباحث قابل توجه باقي مانده است.

روشهاي كاهش ابعاد داده به دو دسته تقسيم ميشوند:

  • روشهاي مبتني بر استخراج ويژگي: اين روشها يك فضاي چند بعدي را به يك فضاي با ابعاد كمتر نگاشت ميكنند. در واقع با تركيب مقادير ويژگيهاي موجود، تعداد كمتري ويژگي بوجود ميآورند بطوريكه اين ويژگيها داراي تمام (يا بخش اعظمي از) اطلاعات موجود در ويژگيهاي اوليه باشند. اين روشها به دو دستهي خطي و غير خطي تقسيم مي شوندكه موضوع مورد بحث در همين حوزه قرار مي گيرد.
  • روشهاي مبتني بر انتخاب ويژگي: اين روشها سعي ميكنند با انتخاب زيرمجموعهاي از ويژگيهاي اوليه، ابعاد دادهها را كاهش دهند.

در اين فصل كمتر به اثباتهاي رياضي پرداخته شده و بيشتر به مفاهيم و كاربرد روشها توجه شده است. در تهيه ي مطالب اين فصل سعي شده است با ارائه ي مثالهاي مناسب، خواننده در درك بهتر مفاهيم مربوطه ياري شود.

[1] observations

[2] variable

[3] feature

[4] attribute