محیط در اتوماتای یادگیر

//محیط در اتوماتای یادگیر

محیط در اتوماتای یادگیر

محیط را می توان توسط سه تایی نشان داد که در آن مجموعه ورودیهای محیط، مجموعه خروجیهای محیط و مجموعه احتمالهای جریمه می‌باشند.

ورودی محیط یکی از r اقدام انتخاب شده اتوماتا است. خروجی(پاسخ) محیط به هر اقدام i توسط مشخص می شود. اگر یک پاسخ دودویی باشد، محیط مدلP [1] نامیده می‌شود. در چنین محیطی  بعنوان پاسخ نامطلوب[۲] یا شکست[۳] و بعنوان پاسخ مطلوب[۴] یا موفقیت در نظر گرفته می‌شوند. در محیط مدلQ [5] ، شامل تعداد محدودی از مقادیر قرار گرفته در بازه [۱، ۰] می‌باشد. درحالیکه در محیط مدلS [6] مقادیر یک متغیر تصادفی در بازه [۱، ۰] می‌باشد (). مجموعه c احتمالات جریمه (شکست) پاسخهای محیط را مشخص می‌کند و بصورت زیر تعریف می‌شود.

 

که احتمال اینکه اقدام پاسخ نامطلوبی از محیط دریافت کند را نشان می‌دهد. مقادیر ها نامشخص هستند و فرض می‌شود که ها یک مینیمم یکتا دارند. بهمین صورت می‌توان محیط را توسط مجموعه احتمالات پاداش(موفقیت) نشان داد که در این حالت نشان‌دهنده احتمال دریافت پاسخ مطلوب به اقدام می‌باشد. در محیطهای ایستا[۷] مقادیر احتمال جریمه (ها) ثابت هستند. درحالیکه در محیطهای غیر ایستا[۸] احتمالات جریمه در طول زمان تغییر می‌کند.

[۱] P-model

[۲] Unfavorable

[۳] Failure

[۴] Favorable

[۵] Q-model

[۶] S-model

[۷] Stationary

[۸] Non-Stationary

۱۳۹۴-۸-۲۵ ۲۰:۳۴:۰۲ +۰۳:۳۰آبان ۲۵ام, ۱۳۹۴|Categories: عمومی|Tags: , , , |بدون ديدگاه

ثبت ديدگاه

پرداخت

1-پرداخت آنلاین
برای پرداخت آنلاین از لینک زیر استفاده کنید
پرداخت آنلاین
2- پرداخت آفلاین
برای پرداخت آفلاین مبلغ مورد نظر را به یکی از شماره کارت
6037997245888723بانک ملی