اگر حالتی دارای خاصیت مارکوف باشد بدان معنا است که حالت فعلی تمام اطلاعات مربوط به گذشته و حال که جهت ادامه ی یادگیری نیاز است را در خود دارد. به عنوان مثال چیدمان مهره ها روی صفحه ی شطرنج دارای خاصیت مارکوف است. گرچه این چیدمان به ما نمی گوید که از اول بازی تا کنون چه حرکت هایی انجام شده است اما تمام اطلاعات مورد نیاز جهت ادامه ی بازی را در اختیار ما می گذارد. به مساله ی یادگیری که خاصیت مارکوف برای حالت های آن برقرار باشد، فرآیند تصمیم گیری مارکوف (Markov Decision Process یا MDP) می گویند.