برای تبدیل صدا باید از 2 پارامتر فرکانس و مدت زمان استفاده کنید اما مبحث tts که مبحثیه که امروزه با deep learning پیاده سازیش می کنن کمی پیچیده تر از سوال اولتون هست یک سری مفاهیم هستند که شما باید در حوزه tts به آنها آشنا باشید به شرح زیر است:
Prosody: از اینجا مطالعه کنید.
واج ها: واحدهای صدایی ، وقتی صحبت می کنیم تلفظ می کنیم. لازم است از آنجا که کلمات بسیار مشابه در نامه ممکن است بسیار متفاوت تلفظ شود
Vocoder یا voice encoder : این بخش وظیفه انتقال ویژگی ها به سیگنال های صوتی را برعهده داره. از کتابخانه معروف در این زمینه کتابخانه deep voice و waveNet می باشد.
fundamental frequency یا فرکانس بنیادی - F0: پایینترین فرکانس یک شکل موج متناوب که آهنگ صدا را توصیف میکندبه تعبیری دقیق تر سیگنالهای دورهای در بسیاری از کاربردهای دنیای واقعی مانند پردازش موسیقی, پردازش گفتار, ردیاب صوتی, آنالیز سفارش, و electrocardiography (ECG) دیده میشوند. چنین سیگنالهایی را میتوان به صورت مجموع وزنی of مدلسازی کرد که فرکانسهای آن مضرب صحیحی از فرکانس اساسی مشترک هستند که در کاربردهای صوتی و گفتار اغلب به عنوان گام شناخته میشود. بنابراین, یک مشکل مهم و اساسی در کاربردهای فوق, تخمین این فرکانس اساسی از مجموعه دادههای مشاهدهشده (و اغلب پر سر و صدا) است.
Autoregression Model: یک مدل را به صورت خطی بر روی خروجیهای خود و یک مجموعه پارامتر مشخص میکند که میتواند تقریب زده شود.
Query، Key، Value: کلید توسط ماژول توجه برای محاسبه وزن توجه مورد استفاده قرار می گیرد. مقدار بردار تعیین شده توسط وزنهای مخصوص برای محاسبه خروجی ماژول است. وکتور پرس و جو حالت مخفی رمزگشایی است.
Grapheme: روش جالب برای گفتن شخصیت.
حالت های خطا: وضعیت زیر مطلوب برای بلوک توجه که در آن قادر به فرار نیست.
توجه یکنواخت: فقط از محدوده محدودی از گرههای نزدیک به مرحله خروجی استفاده کنید. این عملکرد را برای TTS بهبود می بخشد زیرا یک رابطه خاص بین خروجی در زمان t و ورودی در زمان t وجود دارد. با این حال ، برای مسئله ترجمه این معقول نیست زیرا دستورات کلمات ممکن است یکسان نباشند.
MOS: میانگین امتیازات. جمعیت ارزیابی فرآیند ارزیابی با بلندگوهای بومی. اندازه گیری آسان نیست ، به خصوص برای افراد غیرمستقیم.
وکتور متن: خروجی یک ماژول توجه که خلاصه ای از خروجی های مرحله ای چند بعد از رمزگذار است.
عملکرد پنجره هان: https://en.wikipedia.org/wiki/Window_function#Hann_window
Teacher Forcing : ارائه خروجی پیشبینیشده مدل در زمان t به عنوان ورودی در زمان t + ۱. یک بازخورد بر روی زمین کنترل میشود - بازخورد حقیقتی است به عنوان یک معلم برای یک دانشآموز.
نتیجه گیری تصادفی: کانولوشن که واحدهای آینده را پیشبینی نمیکند، مرحله زمان مرجع T را معین میکند که ما میخواهیم بعد از آن پیشبینی کنیم. در عمل، این روش با تنظیم سمت راست شیب به لایههای نرمال کانولوشن اجرا میشود.