باید چندین معیار برای کارشناسی این که یک پایگاه داده احساسی چقدر خوب محیط دنیای حقیقی را شبیه سازی کرده, وجود داشته باشد. بر اساس برخی مطالعات [۶۹,۲۲], موارد زیر مهمترین مسائل مرتبط با پایگاه داده احساسی هستند که باید مورد توجه قرار گیرند:

احساسات دنیای واقعی یا مدل اجرا شده (توسط یک یا چند بازیگر)؟: خیلی واقع بینانه تر است که از داده های گفتاری که از موقعیت های بوجود آمده در زندگی واقعی جمع آوری شده استفاده کنیم. یک مثال مشخص ظبط کردن اخبارهای رادیو از وقایع مهم مانند سقوط هیندربورگ. [۲۲] چنین صداهای ظبط شده ای شامل سخنانی با احساسات انتقالی طبیعی هستند. متاسفانه, ممکن است بعضی موضوعات حقوقی و اخلاقی وجود داشته باشند که استفاده از آنها را برای تحقیقات علمی ممنوع سازد. روش دیگر,ایجاد و اجرای جملات احساسی در آزمایشگاههای صوتی است مانند آنچه در اکثر پایگاه داده های موجود انجام شده است. این مسئله همیشه مورد انتقاد بوده است که احساسات اجرا شده مانند احساسات حقیقی نیستند. ویلیامز و استیونز [۱۳۵]نشان دادند که احساسات اجرا شده اغراق آمیزتر از انواع حقیقیشان هستند. با این حال, ارتباط بین همبستگی صوتی و احساسات اجرا شده در تضاد نیست با

 

چه کسی کلام ها را ادا می کند؟ در بیشتر پایگاه داده های عاطفی گفتار, بازیگران حرفه ای برای بیان جملات از پیش تعیین شده با احساسات مورد نیاز دعوت می شوند. با این وجود, در بعضی از آنها مانند پایگاه داده عاطفی گفتار دانمارک (DES)[38]بازیگران نیمه حرفه ای بکار گرفته شده است تا از اغراق در بیان احساسات جلوگیری شود و نزدیکتر به موقعیت های جهان واقعی باشد.

 

 

چطور کلام را شبیه سازی کنیم؟ سخنان ضبط شده در اکثر پایگاه داده های عاطفی گفتار در قالب محاوره ای تولید نمی شوند[۶۹]. بنابراین,

 

عموما,دو رویکرد برای استخراج سخنان عاطفی وجود دارد. در اولین روش,گویندگان با تجربه آنچنان سخنان را بیان می کنند که در آن حالت احساسی خاص بودند, مانند, شاد بودن,عصبانی یا ناراحت بودن. در بسیاری از مجموعه های توسعه یافته[۱۵,۳۸], چنین بازیگران با تجربه ای در دسترس نبودند و بازیگران نیمه حرفه ای یا مبتدی برای ادای سخنان احساسی دعوت شدند.

 

به منظور کمک به بازیگر که به حالت عاطفی مورد نظر برسد.

 

در یکی از مطالعات اخیر [۵۹], استفاده از بازیهای کامپیوتری برای دریافت گفتار احساسی طبیعی پیشنهاد شده بود. نمونه های صوتی در جریان وقایع بازی چه می برد یا می باخت بازی را گرفته می شد و با صداهای خوشایند یا ناخوشایند همراه می شد.

سخنان متعادل یا غیر متعادل؟

در حالیکه سخنان متعادل برای تجزیه و تحلیل و آزمایش کنترل شده علمی مفید هستند, آنها ممکن است اعتبار داده را کاهش دهند. به عنوان یک جایگزین,یک مجموعه بزرگی از سخنان غیر متعادل و معتبر ممکن است استفاده شود.

 

از طرف دیگر, بسیاری از محققان دیگر ترجیح می دهند که توزیع احساسات در پایگاه داده

برای مثال, احساس خنثی, شایع ترین احساس در زندگی روزمره ما است. بنابراین تعداد سخنان با احساس طبیعی باید بیشترین تعداد را در مجموعه گفتار احساسی داشته باشد.

عبارت های مشابه با احساسات متفاوت؟ به منظور مطالعه اثر صریح احساسات برروی ویژگی های صوتی سخنان گفتار,در بیشتر پایگاه داده ها معمول است که عبارات مشابهی را با احساسات متفاوت ضبط کنند. یکی از مزیت های چنین پایگاه داده ای مطمئن شدن از این مسئله است که قضاوت انسان در احساس درک شده صرفا بر اساس محتوای احساسی جمله و نه محتوای واژگانی است.