از جمله مواردي که به همراه مباحث شناسايي گوينده يا شناسايي گفتار مطرح مي شود، همپوشاني گفتار است. منظور از گفتار داراي همپوشاني گفتار گوينده اي است که توسط گفتار يک گوينده ديگر مخدوش شده است و به اين دليل در برخي مراجع از آن به عنوان گفتار کانال مشترک[1] ياد مي شود. در اين حالت سيگنال گفتاري گوينده اصلي را گفتار هدف[2] و سيگنال گوينده دوم را گفتار مزاحم[3] گويند.

در پردازش گفتار اگر در هر لحظه بيش از يک گوينده صحبت کرده باشند، کارآيي سيستمهاي مختلف پردازش گفتار کاهش مي يابد. يک سيستم مجهز به تشخيص همپوشاني در اين مواقع مي تواند از پردازش قطعات داراي همپوشاني صرف نظر کند يا آنها را در گروه خاصي از سيگنالها قرار دهد، که براي قابل استفاده بودن نياز به پيش پردازش بيشتري دارند.

سيستم شنوايي انسان براي تشخيص و شناسايي گفتار يک فرد در بين گويندگان مختلف بسيار قدرتمند است. روشهايي که سعي کرده اند از سيستم شنوايي انسان الهام بگيرند تنها تا حدودي موفق بوده اند[1]. در مقابل عمده روشهايي که در اين زمينه پيشنهاد شده اند از خصوصياتي طيفي و سيگنالي فريمهاي گفتاري براي اين منظور استفاده مي نمايند. اين روشها را عمدتا روشهاي ساختاري مي گويند. در اين روشها از تناوبي بودن و يا ساختار فريمهاي گفتاري استفاده مي شود و گفتار بدون همپوشاني، که در بيشتر مراجع از آن با نام گفتار قابل استفاده[4] ياد مي شود، تعيين مي گردد[2, 3, 4, 5]. در [6] نشان داده شده است که نسبت انرژي بين گفتار هدف و گفتار مزاحم[5] نيز معيار مناسبي براي شناسايي نواحي گفتاري قابل استفاده و بدون همپوشاني است.

در [7] نيز از طبقه بندي کننده نزديکترين همسايه[6] براي دسته بندي قطعات و تعيين محلهاي همپوشاني استفاده شده است. کارآيي نهايي که براي روش مبتني بر KNN گزارش شده است در حدود 78 درصد مي باشد. يکي ديگر از معيارهايي که براي تشخيص گفتار داراي همپوشاني پيشنهاد شده است، روش مقايسه تناوب گام مجاور[7](APPC) است، که طبق مقايسه انجام شده در [7] ميزان شناسايي آن در حدود 73 درصد و ميزان خطاي شناسايي آن در حدود 38 درصد بوده است. در نتيجه کارآيي نهايي اين روش در حدود 67 است.

يک کار قبلي مبتني بر استفاده از روشهاي ساختاري و تناوب طيف نيز در [8] ارائه شده است که کارآيي نسبتا قابل قبولي نيز داشته است، اما در اين پروژه قصد براي اين است که اين مساله از ديدگاه روشهاي يادگيري ماشين بررسي شود. مهمترين ضعف روشهاي مبتني بر ساختار اين است که تعيين ويژگيهاي ساختاري مانند تناوب طيفي بسيار سخت است و معمولا اين روشها داراي ميزان تشخيص نادرست (False Alarm) نسبتا زيادي مي باشند. از طرفي روشهاي مبتني بر ياگيري به دليل نياز به دادگان متنوع، زمان زيادي نياز دارند و تعيين ويژگيهاي مناسسب براي آنها نيز نسبتا سخت است.

 

2- روش پيشنهادي و زمينه هاي فعاليت

هدف از اين پروژه ارائه الگوريتمي براي تقطيع يک گفتار پيوسته به قطعاتي شامل گفتار تنها يک گوينده و قطعات گفتار داراي همپوشاني مي باشد. براي اين کار از روشهاي مختلف يادگيري استفاده خواهد شد و کارآيي هر يک بررسي مي گردد.

در اين پروژه قصد بر اين است که در ابتدا ويژگيهاي مناسب از سيگنال گفتار داراي همپوشاني استخراج شوند. براي مثال به نظر مي رسد ويژگيهايي که براي مسائل مرتبط با شناسايي گوينده استفاده مي شوند، مثل ويژگيهاي کپسترال و گام و ويژگيهايي که در روشهاي تقطيع ساختاري استفاده مي شوند، مثل همواري طيف و تناوب طيف گفتار، براي اين منظور مناسب باشند. لازم به ذکر است که مهمترين قدم در آموزش داده ها به هر دسته بندي کننده اي استخراج ويژگيها مي باشد که در براي تمام دسته بندي کننده ها نيز يکسان انجام مي شود.

قدم بعدي مانند ساير روشهاي شناسايي و دسته بندي، آموزش مجموعه اي از گفتارهاي داراي همپوشاني و فاقد همپوشاني به يک دسته بندي کننده مشخص است. براي اين منظور مي توان کارآيي هر يک از روشهاي تمايزي مثل دسته بندي کننده KNN و ماشين بردار پشتيبان و روشهاي دسته بندي توليدي مثل مدل مخفي ماکوف و شبکه عصبي را مورد بررسي قرار داد.

اين تنوع روشها به دو دليل استفاده مي شوند. اولين دليل که از همه مهمتر است اين است که تا کنون کمتر از روشهاي يادگيري ماشين براي اين منظور استفاده شده است و هيچگونه افق و ديدگاه مشخصي در مورد روش بهينه و يا اصولا امکان پذير بودن يکي از اين روشها وجود ندارد. دوم اينکه به اين طريق مي توان مقايسه جامعتري در اين زمينه انجام داد. همانطور که قبلا گفته شده است، يک کار مبتني بر استفاده از دسته بندي کننده KNN قبلا در مقالات ارائه شده است.

[1] Co-Channel Speech

[2] Target Speech

[3] Interferer Speech

[4] Usable Speech

[5] Target-to-Interferer Ratio (TIR)

[6] K Nearest Neighbor (KNN)

[7] Adjacent Pitch Period Comparison (APPC)