یک موضوع مهم در طراحی سیستم بازشناسی گفتار استخراج ویژگی های مناسب است که به طور موثری احساسات متفاوت را مشخص کند.از آنجاییکه تکنیک های بازشناسی الگو اغلب مستقل از حوزه مسئله هستند, اعتقاد بر این است که یک انتخاب صحیح ویژگی ها به طور موثری بر کارایی طبقه بندی تاثیر می گذارد.

چهار مسئله در استخراج ویژگی باید مدنظر قرار گیرد. اولین موضوع ناحیه تجزیه وتحلیل استفاده شده برای استخراج ویژگی است. در حالیکه برخی محققان چارچوب عادی تقسیم سیگنال گفتار به ناحیه های کوچکی به نام فریم را دنبال می کنند که از هر یک از آنها یک بردار ویژگی محلی استخراج می شود, دیگر محققان ترجیح می دهند که ثابت های کلی را از کل کلام بیان شده استخراج کنند. سوال مهم دیگر این است که کدام نوع ویژگی برای انجام این کار بهتر است برای مثال گام, انرژی,عبور از صفر و غیره؟ سوال سوم این است که تاثیر پردازش گفتار معمولی مانند post-filtering و حذف سکون بر روی کارایی کلی طبقه بندی کننده چیست؟ و در آخر, آیا کافی است که از ویژگی های صوتی برای مدل کردن احساسات استفاده کنیم یا لازم است که آنها را با دیگر ویژگی ها مانند زبانی, اطلاعات گفتمانی یا ویژگی های صورت ترکیب کنیم.

موضوعات فوق به طور دقیق در پنج بخش زیر بحث می شوند. در بخش ۳٫۱, یک مقایسه بین ویژگی های محلی و ویژگی های کلی صورت می گیرد. بخش ۳٫۲ انواع متفاوت ویژگی های گفتار استفاده شده در بازشناسی عواطف گفتار را شرح می دهد. این بخش شامل پیشنهادات ما برای انتخاب ویژگی های گفتار می شود. بخش ۳٫۳ مراحل پیش پردازش و پس پردازش برای ویژگی های استخراج شده گفتار را شرح می دهد و در نهایت, بخش ۳٫۴ دیگر منابع اطلاعاتی که می توانند برای بهبود کارایی طبقه بندی با یک صوت ادغام شوند را شرح می دهد.