در فصل گذشته دیدیم که پرسپترون تک لایه‌ای قادر به حل مسئله یای حذفی XOR نیست. این مسئله که افشا کننده محدودیت پرسپترون تک لایه‌ای بود ، خود به صورت معیاری برای ارزیابی و قضاوت در مورد عملکرد مدل‌های مختلف شبکه‌های عصبی در آمده و بسیاری از ویژگی های پرسپترون چند لایه‌ای توسط آن نمایان شده است . به یاد داریم که در مسئله یای حذفی مقصود حل مسئله طبقه بندی زیر است :

اولین آزمون پرسپترون چند لایه‌ای این است که آیا می توانیم مدلی را بسازیم که مسئله یای حذفی را حل کند . شبکه ساختاری سه لایه‌ای دارد، دو واحد در لایه ورودی (چون بردارهای ورودی دو عنصردارند )، یک واحد درلایه پنهان و یک واحد خروجی. ضرایب وزنی بر روی خطوط ارتباطی و مقادیر آستانه در داخل هر واحد نوشته شده است . تا جایی که به واحد خروجی مربوط می شود واحد پنهان با سایر واحدهای ورودی تفاوتی ندارد و آن هم تنها یکی از ورودی‌ها محسوب می‌شود .

توجه کنید که مقدار آستانه ۵/۱ در واحد پنهان به این معنی است که این واحد نمی‌تواند فعال باشد مگر این که هر واحد و رودی فعال باشد . جالب است که رتفار شبکه را هنگام حل مسئله XOR مشاهده کنیم. وقتی هر دو ورودی خاموش باشد (۰ ۰)، واحد پنهان نیز خاموش است ، و هیچ مقدار ورودی خالص دریافت نمی‌کند. بنابراین خاموش می‌ماند در این حالت واحد خروجی ورودی خالص ۱+ را دریافت می‌کنند که از حد آستانه آن تجاوز می‌کند . در نتیجه واحد خروجی فعال می‌شود . همین حالت نیز در صورتی که تنها واحد ورودی سمت راست فعال باشد (۱ ۰) ، اتفاق می‌افتد . وقتی هر دو واحد ورودی فعال باشند (۱ ۱) واحد پنهان مقدار ورودی خالص ۲+ دریافت می کند . این مقدار از آستانه واحد پنهان تجاوز می‌کند. در نتیجه واحد پنهان فعال می شود . در این صورت واحد خروجی از هر کدام از واحدهای ورودی مقدار ۱+ (مجموعاً ۲+) و از واحد پنهان مقدار۲- را دریافت می‌کند. در نتیجه مجموع ورودی‌های خالص واجد خروجی صفر می شود که از مقدار آستانه آن کم تر است و در نتیجه خاموش می ماند خلاصه نتایج در جدول زیرآمده است :

با بررسی خروجی واحد پنهان در جدول فوق مشاهده می‌کنیم که این واحد به درستی تشخیص می‌دهد که در چه زمانی هر دو واحد ورودی فعال هستند ، چه تنها در این زمان است که این واحد فعال می شود . چون واحدهای ورودی شبکه مقدار ورودی های شبکه را عیناً تکرار می‌کنند بنابراین مجموع اطلاعاتی که به واحد خروجی ارسال می شود از سه ناحیه است . واحد ورودی سمت راست نشان می دهد که آیا آن ورودی فعال است یا نه، واحد ورودی سمت چپ نیز نشان می‌دهد که آیا آن ورودی فعال است یا نه، در این هنگام واحد پنهان بیان می‌کند که آیا آن‌ها فعال‌اند یا نه. چون واحد خروجی واحد پنهان را همانند یکی از ورودی ها می‌پندارند الگوی ورودی ظاهری آن برای هر طبقه به اندازه کافی متمایز خواهد بود .

واحد پنهان مانند یک مشخصه یاب عمل می‌کند . او می‌یابد که در چه زمانی هر دو واحد ورودی فعال‌اند . به نظر می‌رسد که واحد پنهان بردارهای ورودی را کدگذاری مجددی می کند،‌به طریقی که شبکه بتواند ارتباط ورودی‌ها را باخروجی‌ها به درستی فراگیرد. این کدگذاری یا بازنمایی داخلی در نحوه عمل شبکه بسیار حیاتی است . با تعداد کافی واحدهای پنهان می‌توان بازنمایی داخلی هر الگوی ورودی را به طریقی در شبکه شکل داد که واحدهای خروجی بتوانند در مقابل هر ورودی مورد نظر خروجی مطلوب آن را تولید کنند . قاعده کلی دلتا شیوه‌ای را برای آ‌موزش پرسپترون چند لایه فراهم می‌کند ، و با استفاده از واحدهای پنهان بازنمایی داخلی لازم را در شبکه ایجاد می‌کند . البته بعید است که ضرایب وزنی تولید شده توسط شبکه آموزش دیده به سادگی مثال فوق باشد ، لیکن اصول کار همان است. راه حل دیگری را برای مسئله XOR نشان می‌دهد .

پر سپترون‌های چند لایه‌ای در اندازه ها و شکل‌های متفاوت ساخته می شوند ، در حالی که تماماً از قاعده فراگیری یکسانی پیروی می کند . به عبارت دیگر برای حل مسئله واحد می‌توان ساختارهای متفاوتی را طراحی کرد، یکی از ساختارهای جالب هنگامی است که برخلاف مثال فوق ارتباط مستقیمی بین واحدهای ورودی و واحدهای خروجی نباشد . این حالت و حل نهایی مسئله XOR با این ساختار در شکل آ‌مده است . واحد پنهانی سمت راست ابتدا تمیز می‌دهد که آیا هر دوواحد ورودی فعال هستند. در این صورت باعث می‌گردد که مقدار خروجی واحد خروجی صفر گردد . وقتی که تنها یکی از واحدهای ورودی فعال باشند ، واحد تنهایی سمت چپ باعث می‌گردد که مقدار خروجی واحد خروجی ۱ شود . وقتی که هر دو واحد ورودی خاموش (۰) باشند ، هر دو واحد پنهان خاموش می‌مانندو در نتیجه مقدار خروجی واحد خروجی صفر می‌شود .

متأسفانه قاعده فراگیری لزوماً همگرایی شبکه را تضمین نمی‌کند . فرآیند آموزش ممکن است . به حالتی در آید که نتواند به درستی خروجی های مطلوب را فراگیرد .

. واحد ورودی سمت راست هر دو واحد پنهان را فعال می‌کند . در نتیجه مقدار ورودی خالص واحد خارجی ۰٫۸ یعنی درست برابر با مقدار آستانه آن می‌شود . چون تابع آستانه سیگموید است خروجی آن دقیقاً برابر با ۵/۰ خواهد شد . این وضعیت پایدار است و با آموزش‌های بیش‌تر تغییر نمی کند . چنین نقطه کمینه موضعی به ندرت (تقریباً در ۱% موارد) در حل مسئله XOR پیش می‌آید.

مسئله جزئی دیگری ممکن است در آموزش شبکه‌ها با استفاده از قاعده کلی دلتا پیش آید . چون تغییر ضرایب وزنی متناسب با خود ضرایب است اگر در ابتدای شروع آموزش مقادیر ضرایب تماماً‌مساوی تعیین شود هرگز ضرایب نامساوی ایجاد نشده و شبکه به حالت نامتقارنی که احتمالاً مورد نیاز است منتهی نخواهد شد.