سیگنال گفتار سریعترین و طبیعی ترین راه ارتباطی بین انسانها است. این حقیقت انگیزه محققان را بر انگیخت تا به فکر استفاده از گفتار به عنوان سریعترین و موثرترین راه تعامل بین انسان و ماشین بیفتد. اگر چه این مستلزم این است که ماشین ها باید به قدر کافی برای تشخیص صداهای انسان هوشمند باشند. از اواخر دهه پنجاه تحقیقات زیادی بر روی تشخیص گفتار صورت گرفته است, که به فرایند تبدیل کردن گفتار انسان به یک مجموعه از کلمات بر می گردد. اگر چه, با وجود پیشرفت های خوبی که در بازشناسی گفتار صورت گرفته, ما همچنان با داشتن یک تعامل طبیعی بین بشر و ماشین فاصله بسیار داریم زیرا ماشین حالت های احساس گوینده را درک نمی کند. این موضوع به عنوان یک زمینه تحقیقاتی نسبتا جدید با عنوان بازشناسی احساس گفتار معرفی شده است, که به عنوان استخراج کننده حالت احساسی گوینده از گفتارش تعریف می شود.اعتقاد بر این است که شناخت احساس گفتار می تواند برای استخراج معانی مفیدی از گفتار استفاده شود و بنابراین عملکرد سیستمهای بازشناسی گفتار را بهبود می دهد.

بازشناسی احساس گفتار خصوصا برای کاربردهای مفید است که به تعامل طبیعی انسان-ماشین مانند فیلم های وب و برنامههای کامپیوتری آموزشی که پاسخ آن سیستم ها به کاربر وابسته به احساس درک شده است[۱۱۶] . آن همچنین برای سیستم های بکار گرفته شده در اخل ماشین نیز مفید است که اطلاعات حالت روحی راننده ممکن است برای سیستم فراهم شود تا امنیتی راننده بررسی شود.آن همچنین می تواند به عنوان ابزار تشخیص روان درمانگر ها به کار گرفته شود. [۴۱] همچنین آن ممکن است در سیستم های مترجم اتوماتیک که حالت احساسی گوینده نقش مهمی را در ارتباط طرفین بازی می کند مفید واقع شود. در کابین هواپیما, مشخص شده است که سیستم های بازشناسی گفتار که آموزش داده شده اند با گفتار استرس دار عملکرد بهتری نسبت به آنهایی داشتند که با گفتار نرمال آموزش دیده اند[۴۹] . بازشناسی احساس گفتار همچنین در مراکز تماس و ارتباطات مبایل استفاده می شود[۸۶].هدف اصلی از بکارگیری بازشناسی احساس گفتار تطبیق پاسخ سیستم برای تشخیص احساس ناامیدی و ناراحتی در صدای گوینده است.

کار بازشناسی احساس گفتار به دلایل زیر بسیار چالش برانگیز است. اولا, واضح نیست کدام ویژگی های گفتار در تشخیص احساسات قدرتمند تر هستند.تنوع صوتی بوجود آمده با وجود جملات متفاوت,گوینده های متفاوت, سبک های گفتاری, نرخ های گفتار مانع دیگری را بوجود می آورد چرا که این ویژگی ها به طور مستقیم بر روی بیشتر ویژگی های گفتاری استخراج شده مانند گام و تابع انرژی اثر دارند[۷]. علاوه بر آن, ممکن است بیش از یک احساس در یک سخن وجود داشته باشد و هر احساس وابسته به یک بخش متفاوت سخن گوینده است. به علاوه, مشخص کردن مرزهای بین این قسمت ها بسیار مشکل است. موضوع چالش بر انگیز دیگر این است که

 

بیشتر کارها بر روی طبقه بندی احساسات مربوط به یک زبان تمرکز کرده اندو فرض کرده اند که هیچ تفاوت فرنگی بین گوینده ها وجود ندارد. با این حال, کار طبقه بندی چندزبانهمورد بررسی قرار گرفته است[۵۳].مسئله دیگر این است که شخصی ممکن است برای روزها, هفته ها یا حتی ماهها دچار حالت احساس خاصی مانند غم و اندوه شود. در چنین حالتی , احساسات دیگر گذرا خواهند بود و بیشتر از چند دقیقه طول نمی کشند. در نتیجه, واضح نیست که کدام احساس را تشخیص دهنده احساس به طور خودکار تشخیص خواهد داد. احساس طولانی مدت یا گذرا. احساس یک تعریف نظری مورد توافق ندارد[۶۲]. گرچه افراد احساسات را هنگامی که احساس می کنند درک می کنند. به همین دلیل محققان قادر به مطالعه و تعریف جنبه های متفاوت احساسات بودند.بیشتر تصور بر این است کهاحساسات می توانند به دو بعد تقسیم شوند: برانگیختگی,جاذبه. برانگیختگی به میزان انرژی مورد نیاز برای بیان یک احساس خاص بر می گردد. با توجه به برخی مطالعات فیزیولوژیکی که توسط ویلیامز و استیون درباره سازوکار تولید احساس انجام شد, مشخص شد که سیستم عصبی سمپاتیک با احساسات لذت, عصبانیت و ترس تحریک می شود. این مسئله موجب افزایش ضربان قلب, بالارفتن فشار خون,تغییر در عمق حرکات تنفسی,فشار بیشتر روی دهانه نای,خشکی دهان, گهگاهی لرزش عضلانی می شود. گفتار حاصل نسبتا بلند و سریع است و با انرژی قوی فرکانس بالا و یک گام متوسط به بالا و محدوده گام عریضتر مطرح می شود. از طرف دیگر, همراه با تحریک سیستم عصبی پاراسمپاتیک , با غم و اندوه, ضربان قلب و فشار خون کاهش پیدا می کند و ایجاد بزاق افزایش پیدا می کند, گفتار تولید شده آهسته, با گام پایین و با انرژی کم فرکانس بالا همراه است. بنابراین, ویژگی های صوتی مانند گام, زمانبندی, کیفیت صدا و بیان سیگنال گفتار به شدت به احساسات موجود در آن وابسته است[۲۰]. با این حال, احساسات نمی توانند فقط با استفاده از برانگیختگی تشخیص داده شوند.برای مثال, هم احساس عصبانیت و هم احساس خوشحالی به برانگیختگی زیاد مرتبط می شوند اما آنها احساسات متفاوتی را انتقال می دهند. این تفاوت توسط بعد جاذبه مشخص می شود. متاسفانه, توافقی بین محققان در مورد اینکه چطور ویژگی های صوتی با این بعد مرتبط می شوند یا حتی آیا ویژگی های صوتی با این بعد ارتباط دارند وجود ندارد[۷۹]. بنابراین در حالیکه طبقه بندی بین احساسات با برانگیختگی بالا و با برانگیختگی پایین به دقت بالایی رسیده است, طبقه بندی بین احساسات متفاوت هنوز چالش برانگیز است.

یک مسئله مهم در بازشناسی احساس گفتار نیاز به تعیین یک مجموعه از احساسات مهم برای دسته بندی شدن توسط یک تشخیص دهنده خودکار احساس است. زبانشناسان فهرست حالت های احساسی را که در زندگی بیشتر با آنها مواجه هستیم تعریف نموده اند. یک مجموعه معمولی توسط شوبایگر[۱۱۱] و اکانر و آرنولد [۹۵] ایجاد شد که شامل ۳۰۰ حالت احساسی بود.ضمن اینکه, دسته بندی تعداد زیادی از احساسات بسیار مشکل است. بسیاری از محققان با تئوری صفحه موافق بودند که بیان می کند که هر احساسی می تواند تجزیه شود به احساسات اولیه مشابه با اینکه هر رنگی ترکیبی از برخی رنگ های اولیه می باشد. احساسات اصلی عصبانیت, تنفر, ترس, لذت, ناراحتی و تعجب [۲۹]. این احساسات بارزترین و واضح ترین احساسات در زندگی ما هستند. آنها احساسات اولیه نامیده میشوند[۲۹] .

در این مقاله ما یک بررسی جامع از سیستم های بازشناسی عاطفی گفتار با هدف بازشناسی الگوی محققانی که لزوما پس زمینه قوی در آنالیز گفتار ندارند ارائه دادیم. ما سه جنبه مهم را در بازشناسی احساسی گفتار بررسی کردیم: (۱) معیار مهم طراحی (۲)تاثیر ویژگی های گفتار روی کارایی طبقه بندی بازشناسی احساسی گفتار و (۳) سیستم های طبقه بندی به کار گرفته شده در بازشناسی احساسی گفتار. اگرچه, بررسی های زیادی بر روی بازشناسی عاطفی گفتار انجام شده است مانند [۱۲۹,۵,۱۲], بررسی ما در بررسی ویژگی های گفتار و تکنیک های طبقه بندی که در بازشناسی احساسی گفتار استفاده می شوند خیلی جامع تر است. ما انواع متفاوت ویژگی ها ومزیت ترکیب اطلاعات صوتی موجود با دیگر منابع اطلاعاتی مانند اطلاعات زبانی, گفتمانو ویدئویی را بررسی کردیم. ما از نظر تئوری برخی جزییات تکنیک های طبقه بندی های متفاوت را که معمولا در بازشناسی احساسی گفتار استفاده می شوند پوشش دادیم. ما همچنین سیستم های بازشناسی گفتار بسیاری را که در دیگر مقالات تحقیقاتی پیاده سازی شدند برای ارایه یک بینش از کارایی بازشناسی کننده های عاطفی گفتار موجود در این بررسی گنجاندیم. با این وجود,از آن جاییکهپیکره های گفتارعاطفی و تنظیمات آزمایشگاهی متفاوتی برای هر یک از آنها استفاده شده است ,خواننده باید میزان بازشناسی آن سیستم ها را با دقت تفسیر کند.

این مقاله به پنج بخش تقسیم می شود. در بخش ۲, موضوعات مهم در طراحی یک پایگاه داده گفتار عاطفی مورد بحث قرار می گیرد. بخش ۳ به طور دقیق روش های استخراج ویژگی گفتار را به طور دقیق بررسی می کند.و اعمال تکنیک های طبقه بندی به بازشناسی احساسی گفتار در بخش ۴ شرح داده شده است. در نهایت, نتایج مهمی در گرفته شده است.