در دهه ۱۹۶۰ میلادی Y.Z. Tsypkin روشی برای ساده کردن مسائل فوق به مساله‌ای برای تشخیص پارامترهای بهینه و بکاربردن روشهای تپه نوردی برای حل آن معرفی کرد. Tsetlin و همکارانش در همان زمان کار بر روی اتوماتای یادگیر را آغاز کردند. مفهوم اتوماتای یادگیر نخستین بار توسط وی مطرح شد. Tsetlin به مدلسازی رفتارهای سیستمهای بیولوژیکی علاقمند بود و یک اتوماتای قطعی که در محیطی تصادفی فعالیت می‌کرد را بعنوان مدلی برای یادگیری معرفی نمود. در تحقیقات انجام شده بعدی، استفاده از یادگیری در سیستمهای مهندسی نیز در نظر گرفته شد. رویکرد دیگری که توسط Narendra و Viswanatan ارائه شد، در نظر گرفتن مساله بصورت پیدا کردن اقدام بهینه از میان مجموعه‌ای از اقدامهای مجاز یک اتوماتای تصادفی بود. تفاوت دو روش اخیر در اینست که در روش اول در هر تکرار فضای پارامترها بِروز می‌شود اما در روش دوم فضای احتمال بِروز می‌گردد. پس از آن اکثر کارهای انجام شده در تئوری اتوماتای یادگیر، در ادامه مسیر معرفی شده توسط Tsetlin انجام شدند. Varshavski و Vorontsova اتوماتای یادگیر با ساختار متغیر را مطرح کردند که احتمالات اقدامهای خود را بِروز می‌کرد و درنتیجه باعث کاهش تعداد حالات نسبت به اتوماتای قطعی می‌شد .

نخستین تلاشها برای استفاده از اتوماتای یادگیر در کاربردهای کنترلی توسط Fu و همکارانش انجام شد. از جمله این کارها می‌توان به کاربردهایی از اتوماتای یادگیر در تخمین پارامترها[۱]، تشخیص الگو[۲] و تئوری بازی[۳] اشاره کرد. McLaren روشهای بِروز رسانی خطی و ویژگیهای آنها را بررسی نمود. و پس از آن Chandrasekar و Shen روشهای بِروزرسانی غیر خطی را بررسی کردند . کتاب Narendra و Thathachar تحت عنوان Learning Automata مقدمه‌ای به تئوری اتوماتا است که کلیه تحقیقات انجام شده تا اواخر دهه ۱۹۸۰ را در بر می‌گیرد. مثالها و کاربردهای متعدد دیگری از اتوماتای یادگیر نیز توسط Najim و Pznyak در کتابی با عنوان Learning Automata: Theory and Application ارائه شده است.

یک اتوماتای یادگیر را می‌توان بصورت یک شئ مجرد که دارای تعداد متناهی اقدام است، در نظر گرفت. اتوماتای یادگیر با انتخاب یک اقدام از مجموعه اقدامهای خود و اِعمال آن بر محیط، عمل می‌کند. اقدام مذکور توسط یک محیط تصادفی ارزیابی می‌شود و اتوماتا از پاسخ محیط برای انتخاب اقدام بعدی خود استفاده می‌کند. در طی این فرآیند اتوماتا یاد می‌گیرد که اقدام بهینه را انتخاب نماید. نحوه استفاده از پاسخ محیط به اقدام انتخابی اتوماتا که در جهت انتخاب اقدام بعدی اتوماتا استفاده می‌شود، توسط الگوریتم یادگیری اتوماتا مشخص می‌گردد. در بخش بعد جزئیات قسمتهای یک اتوماتای با ساختار متغیر[۴] معرفی می‌شود.

[۱] Parameter estimation

[۲] Pattern recognition

[۳] Game theory

[۴] Variable Structure Learning Automata