محیط را می توان توسط سه تایی نشان داد که در آن مجموعه ورودیهای محیط، مجموعه خروجیهای محیط و مجموعه احتمالهای جریمه می‌باشند.

ورودی محیط یکی از r اقدام انتخاب شده اتوماتا است. خروجی(پاسخ) محیط به هر اقدام i توسط مشخص می شود. اگر یک پاسخ دودویی باشد، محیط مدلP [1] نامیده می‌شود. در چنین محیطی  بعنوان پاسخ نامطلوب[۲] یا شکست[۳] و بعنوان پاسخ مطلوب[۴] یا موفقیت در نظر گرفته می‌شوند. در محیط مدلQ [5] ، شامل تعداد محدودی از مقادیر قرار گرفته در بازه [۱، ۰] می‌باشد. درحالیکه در محیط مدلS [6] مقادیر یک متغیر تصادفی در بازه [۱، ۰] می‌باشد (). مجموعه c احتمالات جریمه (شکست) پاسخهای محیط را مشخص می‌کند و بصورت زیر تعریف می‌شود.

 

که احتمال اینکه اقدام پاسخ نامطلوبی از محیط دریافت کند را نشان می‌دهد. مقادیر ها نامشخص هستند و فرض می‌شود که ها یک مینیمم یکتا دارند. بهمین صورت می‌توان محیط را توسط مجموعه احتمالات پاداش(موفقیت) نشان داد که در این حالت نشان‌دهنده احتمال دریافت پاسخ مطلوب به اقدام می‌باشد. در محیطهای ایستا[۷] مقادیر احتمال جریمه (ها) ثابت هستند. درحالیکه در محیطهای غیر ایستا[۸] احتمالات جریمه در طول زمان تغییر می‌کند.

[۱] P-model

[۲] Unfavorable

[۳] Failure

[۴] Favorable

[۵] Q-model

[۶] S-model

[۷] Stationary

[۸] Non-Stationary