Acoustic Database of Persian Syllables

 

۱ـ مقدمه

برنامه‌های رایانه‌ای بازسازی گفتار (تبدیل نوشتار به گفتار: TTS) با این هدف طراحی می‌شوند که بتوانند نوشتار را به گفتار تبدیل کنند. نزدیکتر کردن گفتار بازسازی‌شده به گفتار طبیعی آرمانی هدف پژوهشگران در بازسازی گفتار به حساب می‌آید. برنامه‌های تولید گفتار به دو گروه تعاملی (interactive) و غیرتعاملی (non-interactive) تقسیم می‌شوند و میزان رابطه کاربر با برنامه تولید گفتار نوع آن را مشخص می‌کند. اگر کاربر با برنامه تولید گفتار در تعامل و ارتباط باشد و انتظار داشته باشد که برنامه هر نوع نوشته او را به گفتار تبدیل کند، در آن صورت این نوع برنامه را برنامه تولید گفتار تعاملی می‌نامند. از طرف دیگر اگر هیچ نوع رابطه‌ای بین کاربر و برنامه تولید گفتار وجود نداشته باشد و برنامه تنها مجموعه جملات و عبارات کلیشه‌ای را تولید کند، به آن برنامه غیرتعاملی می‌گویند. بازسازی گفتار از نوع برنامه‌های تعاملی تولید گفتار است و تولید خودکار جمله‌های نو، آن را از دیگر برنامه‌های تولید گفتار متمایز می‌کند.

بازسازی گفتار به دو روش هم‌گذاری (concatenation) و پارامتری (parametric) صورت می‌گیرد. در روش هم‌گذاری برابرهای آوایی متن ورودی برنامه که واحدهای بازسازی محسوب می‌شوند با قواعد و اصول خاصی از دادگان گفتاری برنامه بازسازی‌کننده گفتار احضار و کنار هم چیده می‌شوند و شرایط برای تبدیل به گفتار فراهم می‌شود. در تهیه واحدهای بازسازی، ابتدا پیکره زبانیِ لازم تهیه می‌شود و سپس پیکره زبانی مورد نظر از سوی یک اهل زبان در یک محیط آزمایشگاهی خوانده و ضبط می‌گردد. بعد از انجام پردازش‌های لازم واحدهای بازسازی از پیکره استخراج و در قالب یک دادگان گفتاری در چارچوب برنامه بازسازی گنجانده می‌شود. در روش پارامتری بازسازی گفتار که به آن روش مبتنی بر قاعده (rule-based) گفته می‌شود، همه پارامترهای انتزاعی گفتار مانند سایش (friction)، سازه‌ها (formants) و دامنه نوسان (amplitude) صداها کنارهم گذاشته می‌شود و برنامه این پارامترها را در چارچوب قواعد خاص بازسازی می‌کند. در این روش (مانند بازسازی‌کننده Klatt) ابتدا واحد واجی به چند مشخصه صوت‌شناختی تقسیم می‌شود و هر کدام از این واحدهای صوت‌شناختی براساس ” توالی علائم کنترلی “ (sequence of control signals) بازتولید می‌شوند. در این روش ویژگی‌های آوایی مربوط به هم تولیدی و گذر از صدایی به صدای دیگر به خوبی لحاظ می‌شود.

در تقسیم‌بندی دیگر، برنامه‌های بازسازی گفتار را می‌توان به دو گروه نامحدود (unrestricted) و محدود (restricted) تقسیم کرد. بازسازی‌کننده‌های عام با هدف تبدیل هر نوع نوشته‌ای به گفتار طراحی می‌شوند، ولی بازسازی‌کننده‌های خاص نوشته‌های تخصصی را با هدف خاص‌تر بازسازی می‌کنند و دارای ساختار ساده‌تر نسبت به بازسازی‌کننده‌های نامحدود هستند. از طرف دیگر برنامه بازسازی‌کننده می‌تواند یک یا بیش از یک زبانه باشد. بازسازی‌کننده‌های بیش از یک زبانه برخلاف برنامه‌های یک زبانه می‌توانند به طور همزمان نوشته‌های مربوط به چند زبان را در درون نوشته واحد به گفتار تبدیل کنند.

در روش هم‌گذاری از واحدهای زبانی متفاوتی جهت بازسازی گفتار استفاده می‌شود که در زیر به توصیف مختصر هر کدام از آنها می‌پردازیم. در بازسازی‌کننده‌های با کاربرد محدود، از جملات و عبارت‌ها می‌توان به عنوان واحدهای بازسازی استفاده کرد که این‌گونه برنامه‌ها مناسب محل‌هایی مانند پایانه‌ها، فرودگاه‌ها، بازارهای بورس و اعلان وضع هوا و غیره است که در آن پیام‌های زبانی به صورت تقریباً کلیشه‌ای تولید می‌شوند و ارتباط کاربر با برنامه بازسازی‌‌کننده بسیار محدود است. کلمه واحد زبانی کوچکتر از جمله و عبارت است که می‌تواند به عنوان واحد بازسازی گفتار مورد استفاده قرار گیرد (مانند Buron, 1968 ؛ Chapman, 1971 ؛ Eady et al, 1987 و . . .). در طراحی برنامه‌ای جامع برای بازسازی گفتار، کلمه واحد مناسبی نیست؛ چرا که ذخیره کردن اطلاعات دیجیتالی برای همه کلمه‌های زبان عملاً غیرممکن است. به همین دلیل پژوهشگران در بازسازی گفتار از واحدهای کوچکتری استفاده می‌کنند که هم اقتصادی است و هم می‌توان به لحاظ آوایی در استفاده از آنها به تعمیم‌هایی دست پیدا کرد و کیفیت گفتار بازسازی‌شده را بهبود بخشید. این واحدهای کوچکتر عبارتند از واج، دایاد (dyad)، دایفون (diphone)، نیم‌هجا (demisyllable) و هجا که در ادامه به شرح مختصر هرکدام می‌پردازیم.

واج به عنوان یک واحد انتزاعی ممیز معنا در زبان به خاطر داشتن فهرست محدود ظاهراً مناسبترین واحد بازسازی است، ولی همه تلاش‌ها در هم‌گذاری واج‌ها در بازسازی گفتار با شکست مواجه شده است و علت اصلی این شکست از این واقعیت ناشی می‌شود که مرز واج‌ها در زنجیره گفتار با توجه به بافت آوایی به لحاظ صوت‌شناختی متغیر است. واقعیت هم‌تولیدی بین صداهای مجاور در گفتار و واقعیت پروزدی در مفهوم فرثی (firthian) بین صداها باعث می‌شود که استفاده از واج به عنوان واحد بازسازی گفتار با موفقیت همراه نباشد. حتی استفاده از واجگونه‌ها نیز نمی‌تواند به رفع این مشکل کمک کند، چرا که واجگونه‌ها هم مانند واج‌ها فاقد بسیاری از ویژگی‌های هم‌تولیدی هستند. بنابراین گفتار بازسازی‌شده با استفاده از واج‌ها و حتی واجگونه‌ها به زحمت قابل درک خواهد بود (Sivertsen 1961). بنابراین پژوهشگران به واحدهای دیگری روی آوردند و در انتخاب واحد دو ملاک را مد نظر داشتند؛ اول اینکه این واحدها قابل پردازش با رایانه باشند و به گونه‌ای انتخاب شوند که استفاده از آنها در رایانه امکان‌پذیر باشد و دوم اینکه این واحدها حائز شرایط هم‌تولیدی و گذر از صدایی به صدای دیگر باشند. دایاد، دایفون، نیم‌هجا و هجا حائز شرایط فوق هستند. دایاد از بخش پایانی یک واحد (واج) و از بخش آغازی واحد بعدی تشکیل می‌شود. اصطلاح دایفون معادلی برای اصطلاح دایاد است؛ اگر چه در مفهوم دقیق‌تر این دو متفاوت از هم هستند (klatt 1987). در اصل دایفون ناظر بر ناحیه گذر بین صداهای مجاور است، ولی دایاد بخش پایدار (steady state) صدا را نیز شامل می‌شود. نیم‌هجا بیشتر شبیه به دایفون است، با این تفاوت که در هجای CVC مرز دایفون وسط واکه است، در حالیکه در نیم‌هجا پایان ناحیه گذر و آغاز بخش پایدار واکه، مرز تلقی می‌شود. ترایفون (triphone) واحد دیگری در بازسازی گفتار است که در آن دو گذر واکه به همخوان و همخوان به واکه و یا بالعکس دیده می‌شود (مثلاً VCV یا CVC). هجا یکی از واحدهای مهم در بازسازی گفتار به شیوه هم‌گذاری است که در آن فهرست هجاهای بالفعل زبان جمع‌آوری می‌شود و بعد از فراهم کردن پیکره گفتاری لازم، برابرهای آوایی هر کدام از هجاها از پیکره استخراج و سپس در دادگان گفتاری برنامه قرار می‌گیرد. وجود ساختمان هجایی ساده و آسان بودن تشخیص مرز هجاها در زبانی مانند زبان فارسی می‌تواند دو عامل تعیین‌کننده در انتخاب هجا به عنوان واحد بازسازی گفتار باشد.

دادگان گفتاری حاضر برای یک برنامه بازسازی گفتار فارسی از نوع بازسازی گفتار به شیوه هم‌گذاری طراحی شده است و این دادگان برای بازسازی‌کننده‌های عام و تک زبانه مناسب و واحد بازسازی در آن هجا است.

۲ـ هجا و انواع آن در زبان فارسی

هجا در زبان فارسی عبارت از یک رشته آوایی پیوسته است که از یک واکه و یک تا سه همخوان تشکیل می‌یابد. منظور از ” رشته آوایی پیوسته ” آن است که اجزای سازنده هجا طی یک فرآیند تولید بدون مکث تولید می‌گردند. واکه به منزله مرکز یا هسته یا محور هجاست و همخوان در حکم حاشیه یا دامنه آن است (ثمره، ۱۳۷۸).

در فارسی سه نوع هجا وجود دارد که با قرار دادن C و V به ترتیب به جای همخوان و واکه می‌توان این سه نوع را به صورت CV، CVC و CVCC ذکر نمود. مثالهای این سه نوع /gu/ ، /gu./ و /gu.t/ می‌باشد.

 

۳ـ تعیین مرزهای هجایی در رشتههای آوایی

از آنجا که در گفتار فارسی رسمی، در یک هجا بیش از یک واکه نمی‌تواند وجود داشته باشد، از اینرو، تعداد هجاها در هر رشته آوایی می‌تواند با شمارش واکه‌ها مشخص شود. اما تعیین مرز بین دو هجا بستگی به شمارش همخوان‌های بین دو واکه دارد. حداقل تعداد همخوان بین هر دو واکه یک و حداکثر آن سه تاست. به این ترتیب آرایش همخوانی بین هر دو واکه در هر رشته آوایی به یکی از سه شکل زیر خواهد بود (ثمره، ۱۳۷۸):

۱ـ VCV     ۲ـ VCCV     ۳ـ VCCCV

محل برش هجایی در مورد اول بین V اول و C است، چون هجا می‌تواند با واکه پایان پذیرد، اما نمی‌تواند با واکه آغاز گردد. مثال این مورد، رشته آوایی /dav// می‌باشد که به ترتیب گفته شده دو هجای /da , v// به دست می‌آید.

در مورد دوم، محل برش هجایی بین دو C خواهد بود زیرا اولاً واکه در آغاز هجا قرار نمی‌گیرد و ثانیاً خوشه دوهمخوانی در آغاز هجا مجاز نیست. نمونه این مورد، رشته آوایی /doxtar/ است که در آن دو هجای/dox , tar/ حاصل می‌شود.

در مورد سوم، مرز دو هجا با دلایل ذکر شده در بالا، بین C دوم و سوم است. این نقطه برش، رشته آوایی مذکور را به دوهجای CVCC و CV تقسیم می‌کند. نمونه این مورد، رشته آوایی /,ang,u/ است که در آن سه همخوان در میان دو واکه واقع شده‌اند. در اینجا محل برش هجایی بین /g , ,/ می‌باشد و در نتیجه دو هجای /,ang , ,u/ به‌دست می‌آید.

با توجه به اطلاعات فوق می‌توان گفت در هر رشته آوایی همخوان قبل از هر واکه بیانگر ابتدای هجا است. بر مبنای این قانون می‌توان مرزهای هجایی را در هر رشته آوایی به آسانی و بدون کمترین شک و ابهامی مشخص کرد . از این امر در تقطیع سیگنال‌های صوتی برای استخراج معادل صوتی هجاهای فارسی استفاده شده است.

 

۴ـ نحوه تعیین هجاهای دادگان هجایی

واجگان زبان فارسی از ۶ واکه و ۲۳ همخوان تشکیل شده است و بدون در نظر گرفتن محدودیت‌های همنشینی واج‌ها در درون هجا، شمار بالقوه هجاها در زبان فارسی ۷۶۳۱۴ خواهد بود. ولی از این تعداد، کمتر از ۶۰۰۰ هجا فعلیت می‌یابند و بقیه ساخت‌های هجایی غیرممکن و یا دارای خلاء هستند. لازم به ذکر است که در دادگان هجایی موجود، واکه مرکب /ou/ را به صورت /ow/ یعنی ترکیبی از یک واکه و همخوان بازنمایی کرده‌ایم. بنابراین کلمه ” جوهر ” به صورت /,owhar/ و نه /,ohar/ نمایش داده می‌شود. این مسأله کار شناخت مرز هجاها را نیز راحت‌تر می‌کند. بنابراین تعداد همخوان‌ها در دادگان صوتی هجاهای فارسی (با احتساب /w/) 24 همخوان است.

بخش اعظم هجاها از صورت واج‌نویسی شده دادگان بزرگ زبان فارسی گفتاری ” فارس‌دات بزرگ ” به دست آمده است و بخش دیگر با مراجعه به شش جلد فرهنگ فارسی معین و استخراج کلمه‌های تک‌هجایی، جمع‌آوری و به فهرست هجاها اضافه شده‌اند.

 

۵ـ شیوه تعیین جایگاه مناسب استخراج هجاها

جایگاه برابرهای آواییِ هجاها در زنجیره گفتار و در درون کلمه حائز اهمیت فراوان است و تأثیر چشمگیری در کیفیت گفتار بازسازی شده دارد. برای این منظور جهت تهیه دادگان صوتی هجاهای فارسی، ما ابتدا به‌طور آزمایشی پنج جایگاه مختلف را برای هجاها در گفتار فارسی درنظر گرفتیم و هجاهای یکسانی از داده‌ها را در جایگاه‌های پنج‌گانه قرار دادیم و پس از تولید داده‌ها (به‌صورت کلمات گفتاری)، هجاهای مورد نظر را از داده‌های گفتاری استخراج و در گروه‌های جداگانه مرتب کردیم. سپس عبارت‌های یکسانی را با استفاده از هجاهای هر کدام از گروه‌ها تولید کردیم تا بتوانیم کیفیت بازسازی گفتار با استفاده از هر کدام از گروه‌های هجایی در محل‌های پنج‌گانه مذکور را ارزیابی کنیم. جایگاه هجاها به ترتیب عبارت بودند از:

۱ـ هجای بی‌تکیه از اول کلمه مجزا مانند /pa/ در کلمه ” پذیرفته “.

۲ـ هجای بی‌تکیه از اول کلمه دارای تکیه زیروبمی (pitch accent) در جمله مانند /pa/ در جمله” پذیرفته شدم “.

۳ـ هجای بی‌تکیه از اول کلمه فاقد تکیه زیروبمی در جمله، مانند/pa/ در جمله ” پذیرفته خاص و عام شد “.

۴ـ هجای تکیه‌‌بر (stressed) فاقد تکیه زیروبمی مانند /pe/ در کلمه /kupe/ در بافت ” این کوپه کوچک است”.

۵ـ هجای تکیه‌بر در کلمه مجزا، مانند /pe/ در کلمه /kupe/ .

جمله‌های یکسانی با استفاده از هجاهای هر کدام از گروه‌ها درست شد و بدون هیچ‌گونه پردازشی و تنها صورت هم‌گذاری شده آنها، شبیه به روش آزمون MOS ، در معرض قضاوت هفده نفر اهل زبان با تخصص و تحصیلات مختلف قرار گرفت و آنها با دادن نمره ۱ الی ۵ به هر کدام از گونه‌های بازسازی شده نظر خودشان را درباره کیفیت آنها اعلام کردند. از بین گروه‌های فوق به ترتیب گروه اول بیشترین و گروه پنجم کمترین امتیاز را از نظر کیفیت گفتار بازسازی شده به دست ‌آورند و بر پایه همین آزمایش، ۶۰۰۰ هجای دادگان مورد نظر همگی در آغاز کلمات، ولو کلمات بی‌معنی قرار داده شدند و بعد از تولید کلمات طراحی شده در یک محیط آزمایشگاهی (اتاقک آکوستیک) و بعد از انجام فعالیت‌های لازم (تقطیع و برچسب‌دهی هجایی) برابرهای آوایی هجاها به‌دست آمد و در دادگان صوتی هجاها قرار گرفت.

 

۶ـ نحوه ضبط کلمات حاوی عناصر دادگان و ملزومات سختافزاری و نرمافزاری آن

در قدم بعدی، برای تهیه دادگان مورد نظر، حدود ۶۰۰۰ کلمه که البته بعضی از آنها بی‌‌معنی هستند، توسط یک گویشور مذکر با لهجه فارسی تهرانی قرائت و از طریق کارت صوتی Creative Sound Blaster (Live) ضبط گردید. از آنجا که در یکسری از روشهای بازسازی گفتار از پردازش‌های همزمان با گام (pitch) استفاده می‌شود و از لوازم این پردازش‌ها، معین بودن محل آغازه‌های دوره تناوب گام می‌باشد، ضبط سیگنال را به صورت دوکاناله انجام داده‌ایم که یکی از آن دو کانال، گفتار و دیگری منحنی ارتعاش تارآواها است. سخت‌افزار مورد استفاده به‌منظور ضبط سیگنال عبارت است از:

  • یک دستگاه کامپیوتر با کارت صوتی Creative Sound Blaster (Live)
  • یک میکروفون سونی کاردیوئید (Cardioid) دینامیک با مقاومت ورودی ۶۰۰ اهم و پاسخ فرکانس ۱۶۰۰۰ـ۸۰ هرتز و سطح خروجی مؤثر dBm8/61-
  • دستگاه لارینژوگراف به همراه گردنبند حسگرها (sensors necklace) : این دستگاه دارای حسگرهایی بوده که بر روی گلوی گوینده نصب شده و خروجی آن براساس میزان ارتعاش تارهای صوتی معین می‌گردد. این دستگاه، منحنی ارتعاش تارآواها را برای ضبط به یکی از کانال‌های ورودی کارت صوتی می‌دهد.

نکات زیر در هنگام ضبط رعایت گردیده است:

  • ضبط کلمات در یک اتاقک اکوستیک صورت گرفته است. عایق‌بندی صوتی اتاقک مانع از اثر صداهای ناخواسته یا منابع نویزی مانند لامپ فلورسنت، کامپیوتر و . . . گشته است.
  • نرخ نمونه‌برداری در هر یک از کانال‌ها، ۲۲۰۵۰ نمونه بر ثانیه می‌باشد و هر یک از نمونه‌ها با ۱۶ بیت یا ۲ بایت بیان می‌گردد.
  • نرم‌افزار مورد استفاده برای ضبط سیگنال‌ها نرم‌افزار Wave Studio است.
  • در هنگام ضبط سعی گردیده فاصله بین دهان گوینده تا میکروفون ثابت بماند و این فاصله حدود ۲۰ سانتی‌متر بوده است.

 

۷ـ مسئله همزمانی سیگنال صحبت با منحنی ارتعاش تارآواها

در عمل، سیگنال گفتار در مقایسه با منحنی ارتعاش تارآواها، دارای قدری تأخیر بوده و دلیل این مسأله نیز فاصله حدوداً ۲۸ سانتی‌متری محل نصب حسگرهای اندازه‌گیری ارتعاش تارآواها تا محل میکروفون (دریافت‌کننده گفتار) می‌باشد. این فاصله با توجه به سرعت صوت (m/s 340) موجب تفاوت زمانی معادل ۸۲۴/۰ میلی‌ثانیه (و یا با توجه به فرکانس نمونه‌برداری ۲۲۰۵۰ هرتز، تأخیری حدود ۳۶ بایت) بین دو سیگنال می‌گردد. این مسأله باید برای استفاده از سیگنال تارآواها لحاظ شود.

 

۸ـ تقطیع کلمات و ایجاد بانک هجاها

تقطیع فایل‌های صوتی مربوط به هجاهای زبان فارسی توسط متخصصین این امر به‌صورت دستی انجام شده است و این کار در محیط نرم‌افزار Wave Studio صورت گرفته است.

در تقطیع هجایی نکات ذیل رعایت شده است:

  • محل قطع به گونه‌ای است که عدم پیوستگی و اعوجاج طیفی بین قطعات متوالی حداقل گردد. برای کاهش میزان ناپیوستگی سعی شده که محل قطع در جاهایی باشد که دامنه شکل موج چندان زیاد نیست. کم بودن دامنه در مرزها تا حدودی، ناپیوستگی در محل‌های اتصال را کاهش می‌دهد. به‌طور خاص در مورد هجاهایی که با واج‌های واکدار آغاز شده و یا به پایان می‌رسند، مرز هجاها در محل عبور سیگنال از خط صفر گذارده شده و دوره‌های تناوب گام به صورت کامل در محدوده هجا قرار می‌گیرد. به عبارتی، مرز در ابتدای اولین و انتهای آخرین دوره تناوب گام واقع گشته است. این نحوه تعیین ابتدا و انتها باعث می‌گردد هنگامی که در سنتز گفتار، واج‌های مرزی، واکدار می‌باشند، مسئله عدم تطابق (phase mismatch) در سیگنال رخ ندهد و مشکلی از این لحاظ در کیفیت پیش نیاید.
  • در مورد هجاهایی که واج انتهایی آنها واکدار است، نقطه‌ای به عنوان پایان هجا در نظر گرفته شده که در آن زمان در سیگنال ارتعاش تارآواها، حالت واکداری به پایان رسیده باشد.

منابع و مؤاخذ

۱‌ـ ابوطالبی، حمیدرضا. (۱۳۷۷). ” بررسی و پیاده‌سازی سنتزکننده‌ای مناسب برای گفتار فارسی “، پایان‌نامه کارشناسی ارشد مهندسی مخابرات، دانشگاه صنعتی شریف، تهران، ایران.

۲ـ اسلامی، محرم. و همکاران. (۱۳۸۳). ” تبدیل رایانه‌ای متن به گفتار فارسی “، اولین کارگاه پژوهشی زبان فارسی و رایانه، دانشکده ادبیات و علوم انسانی دانشگاه تهران، تهران، ایران.

۳ـ ثمره، یداله. (۱۳۷۸). ” آواشناسی زبان فارسی “. ویرایش دوم، مرکز نشر دانشگاهی، تهران، ایران.

 

  1. Buron, R.H. (1968). “Generation of a 1000-word vocabulary for a pulse-excited vocoder
    operating as a audio response unit”. IEEE Transactions on Audio and Electroacoustics.
    AU-16, 21-5.
  2. Chapman, W.D. (1971). ” Techniques for computer voice response “. IEEE International
    conference Record, 98-90.
  3. Eady,S.J. et al., 1987. ” pitch assignment rules for speech synthesis by word concatenation “.
    Proceedings of ICASSP 1987. 1473-6.
  4. Klatt, D.H. (1987). ” Review of text-to-speech conversion for English “. JASA, 82:3, 636-93.
  5. Samareh, Yadollah (1977): The Segmental Arrangement of Phoneme in Farsi, Tehran: Tehran
    University Publication Association.
  6. Sivertsen, E. (1961). ” Segment inventories for speech synthesis “. Language and Speech, 4,
    ۲۷- ۹۰٫