Decision trees

Decision trees

درخت­های تصميم روشی برای نمايش يک سری از قوانين هستند که منتهی به يک رده يا مقدار می­شوند. برای مثال، می­خواهيم متقاضيان وام را به دارندگان ريسک اعتبار خوب و بد تقسيم کنيم. شکل  يک درخت تصميم را که اين مسئله را حل می­کد نشان می­دهد و همه مؤلفه­های اساسی يک يک درخت تصميم در آن نشان داده شده است : نود تصميم، شاخه­ها و برگ­ها.]‎1[

درخت تصمیم گیری

براساس الگوريتم، ممکن است دو يا تعداد بيشتری شاخه داشته باشد. برای مثال، CART درختانی با تنها دو شاخه در هر نود ايجاد می­کند. هر شاخه منجر به نود تصميم ديگر يا يک نود برگ می­شود. با پيمايش يک درخت تصميم از ريشه به پايين به يک مورد يک رده يا مقدار نسبت می­دهيم. هر نود از داده­های يک مورد برای تصميم­گيری درباره آن انشعاب استفاده می­کند.

درخت­های تصميم از طريق جداسازی متوالی داده­ها به گروه­های مجزا ساخته می­شوند و هدف در اين فرآيند افزايش فاصله بين گروه­ها در هر جداسازی است.

يکی از تفاوت­ها بين متد­های ساخت درخت تصميم اينستکه اين فاصله چگونه اندازه­گيری می­شود. درخت­های تصميمی که برای پيش­بينی متغيرهای دسته­ای استفاده می­شوند، درخت­های classification ناميده می­شوند زيرا نمونه­ها را در دسته­ها يا رده­ها قرار می­دهند. درخت­های تصميمی که برای پيش­بينی متغيرهای پيوسته استفاده می­شوند درخت­های regression ناميده می­شوند.

هر مسير در درخت تصميم تا يک برگ معمولا قابل فهم است. از اين لحاظ يک درخت تصميم می­تواند پيش­بينی­های خود را توضيح دهد، که يک مزيت مهم است. با اين حال اين وضوح ممکن است گمراه­کننده باشد. برای مثال، جداسازی های سخت در درخت­های تصميم دقتی را نشان می­دهند که کمتر در واقعيت نمود دارند. (چرا بايد کسی که حقوق او 400001 است از نظر ريسک اعتبار خوب باشد درحاليکه کسی که حقوقش 40000 است بد باشد. بعلاوه، از آنجاکه چندين درخت می­توانند داده­های مشابه­ای را با دقت مشابه نشان دهند، چه تفسيری ممکن است از قوانين شود؟

درخت­های تصميم تعداد دفعات کمی از داده­ها گذر می­کنند(برای هر سطح درخت حداکثر يک مرتبه) و با متغيرهای پيش­بينی­کننده زياد بخوبی کار می­کنند. درنتيجه، مدلها بسرعت ساخته می­شوند، که آنها را برای مجموعه­داده های بسيار مناسب می­سازد. اگر به درخت اجازه دهيم بدون محدوديت رشد کند زمان ساخت بيشتری صرف می­­شود که غيرهوشمندانه است، اما مسئله مهمتر اينستکه با داده­ها overfit می­شوند. اندازه درخت­ها را می­توان از طريق قوانين توقف کنترل کرد. يک قانون معمول توقف محدود کردن عمق رشد درخت است.

راه ديگر برای توقف هرس کردن درخت است. درخت می­تواند تا اندازه نهايی گسترش يابد، سپس با استفاده از روش­های اکتشافی توکار يا با مداخله کاربر، درخت به کوچکترين اندازه­ای که دقت در آن از دست نرود کاهش می­يابد.

يک اشکال معمول درخت­های تصميم اينستکه آنها تقسيم­کردن را براساس يک الگوريتم حريصانه انجام می­دهند که در آن تصميم­گيری اينکه براساس کدام متغير تقسيم انجام شود، اثرات اين تقسيم در تقسيم­های آينده را درنظر نمی­گيرد.

بعلاوه الگوريتم­هايی که برای تقسيم استفاده می­شوند، معمولا تک­متغيری هستند: يعنی تنها يک متغير را در هر زمان در نظر می­گيرند. درحاليکه اين يکی از دلايل ساخت سري مدل است، تشخيص رابطه بين متغيرهای پيش­بينی کننده را سخت­تر می­کند.

۱۳۹۲-۸-۳ ۰۰:۰۹:۵۸ +۰۳:۳۰آبان ۳ام, ۱۳۹۲|متلب دسته بندی ها|بدون ديدگاه

ثبت ديدگاه

پرداخت

1-پرداخت آنلاین
برای پرداخت آنلاین از لینک زیر استفاده کنید
پرداخت آنلاین
2- پرداخت آفلاین
برای پرداخت آفلاین مبلغ مورد نظر را به یکی از شماره کارت
6037997245888723بانک ملی