قاعده فراگيري MLP

قاعده فراگیری پرسپترون چند لایه را «قاعده کلی دلتا[1]» یا «قاعده پس انتشار[2]» گویند.این عناوین در سال 1986 توسط رومل هارت،مک کللند و ویلیامز پیشنهاد شد. اين افتخار به آن ها تعلق مي گيرد كه اولين گروهي بودند كه نه تنها قاعده فراگيري پرسپترون را به طور مستقل كشف كردند بلكه با تركيب آن ها پرسپترون چند لايه اي را ايجاد كرده و مورد مطالعه قرار دادند كتاب آن ها به نام« پردازش توزيع شده موازي[3] » هنوز يكي از مهم ترين كتاب هاي اين حوزه علمي است.

نحوه عمل پرسپترون چند لايه اي مشابه پرسپترون تك لايه اي اس ت . بدين صورت كه الگويي به شبكه عرضه مي شود و خروجي آن محاسبه مي گردد، مقايسه خروجي واقعي و خروجي م طلوب باعث مي گردد كه ضرايب وزني شبكه تغي ي ر يابد به طوري كه در دفعات بعد خروجي درست تري حاصل شود. قاعده فراگيري روش ميزان كردن ضرايب وزني شبكه را بيان مي كند. وقتي به شبكه آموزش نديده اي الگويي را عرضه مي كنيم، خروجي هاي تصادفي توليد مي كند . ابتدا بايد تابع خطايي را تعريف كنيم كه تفاوت خروجي واقعي و خروجي مطلوب را نشان دهد . چون خروجي مطلوب را مي دانيم اين نوع فراگيري را« فراگيري با سرپرست[4] »مي ناميم . برايموفق شدن در آموزش شبكه بايد خروجي آن را به تدريج به خروجي مطلوب نزديك كنيم . به عبارت ديگر بايد ميزان تابع خطا را به طور دائم كاهش دهيم . براي اين منظور ضرايب وزني خطوط ارتباطي واحد ها با استفاده از قاعده كلي دلتا ميزان مي شود. قاعده دلتا مقدار تابع خطا را محاسبه و آن را به عقب از يك لايه به لايه پيشين انتشار مي دهد . عبارت« پس انتشار »به اين علت است. ضرايب وزني هر واحد جداگانه ميزان مي شود و بدين صورت ميزان خطا كاهش مي ياب د . اين عمل در مورد واحد هاي لاي ه خارجي ساده است زيرا خروجي واقعي و مطلوب آن ها را مي دانيم، ولي در مورد لايه مياني چندان روشن نيست . اين گمان مي رود كه ضرايب وزني واحدهاي پنهان كه به واحدهاي خروجي با ميزان خطايي بزرگ مرتبط هستند بايد بيش تر از واحدهاي پنهان كه به واحد هاي مرتبط آن ها خروج ي تقريباً صحيحي دارند تغيير ياب د . در واقع رياضيات نشان مي دهد كه ضرايب واحد ها بايد به تناسب ميزان خطاي واحدي كه به آ ن متصل اند تغيير كند . بنابراين مي توان با انتشار خطا به عقب ضرايب وزني خطوط ارتباطي تمام لايه ها را به درستي ميزان كرد. به اين طريق تابع خطا كاهش ، شبكه آموزش مي يابد

[1] Delta rule

[2] Backpropagation

[3] Parallel Distributed Processing

[4] Supervised learning