در دهه 1960 ميلادي Y.Z. Tsypkin روشي براي ساده كردن مسائل فوق به مساله‌اي براي تشخيص پارامترهاي بهينه و بكاربردن روشهاي تپه نوردي براي حل آن معرفي كرد. Tsetlin و همكارانش در همان زمان كار بر روي اتوماتاي يادگير را آغاز كردند. مفهوم اتوماتاي يادگير نخستين بار توسط وي مطرح شد. Tsetlin به مدلسازي رفتارهاي سيستمهاي بيولوژيكي علاقمند بود و يك اتوماتاي قطعي كه در محيطي تصادفي فعاليت مي‌كرد را بعنوان مدلي براي يادگيري معرفي نمود. در تحقيقات انجام شده بعدي، استفاده از يادگيري در سيستمهاي مهندسي نيز در نظر گرفته شد. رويكرد ديگري كه توسط Narendra و Viswanatan ارائه شد، در نظر گرفتن مساله بصورت پيدا كردن اقدام بهينه از ميان مجموعه‌اي از اقدامهاي مجاز يك اتوماتاي تصادفي بود. تفاوت دو روش اخير در اينست كه در روش اول در هر تكرار فضاي پارامترها بِروز مي‌شود اما در روش دوم فضاي احتمال بِروز مي‌گردد. پس از آن اكثر كارهاي انجام شده در تئوري اتوماتاي يادگير، در ادامه مسير معرفي شده توسط Tsetlin انجام شدند. Varshavski و Vorontsova اتوماتاي يادگير با ساختار متغير را مطرح كردند كه احتمالات اقدامهاي خود را بِروز مي‌كرد و درنتيجه باعث كاهش تعداد حالات نسبت به اتوماتاي قطعي مي‌شد .

نخستين تلاشها براي استفاده از اتوماتاي يادگير در كاربردهاي كنترلي توسط Fu و همكارانش انجام شد. از جمله اين كارها مي‌توان به كاربردهايي از اتوماتاي يادگير در تخمين پارامترها[1]، تشخيص الگو[2] و تئوري بازي[3] اشاره كرد.  McLaren  روشهاي بِروز رساني خطي و ويژگيهاي آنها را بررسي نمود. و پس از آن Chandrasekar و Shen روشهاي بِروزرساني غير خطي را بررسي كردند . كتاب Narendra و  Thathachar تحت عنوان Learning Automata مقدمه‌اي به تئوري اتوماتا است كه كليه تحقيقات انجام شده تا اواخر دهه 1980 را در بر مي‌گيرد.  مثالها و كاربردهاي متعدد ديگري از اتوماتاي يادگير نيز توسط Najim و Pznyak در كتابي با عنوان Learning Automata: Theory and Application ارائه شده است.



[1]  Parameter estimation

[2]  Pattern recognition

[3]  Game theory