تبدیل متن به صدا

برای تبدیل صدا باید از 2 پارامتر فرکانس و مدت زمان استفاده کنید اما مبحث tts که مبحثیه که امروزه با deep learning پیاده سازیش می کنن کمی پیچیده تر از سوال اولتون هست یک سری مفاهیم هستند که شما باید در حوزه tts به آنها آشنا باشید به شرح زیر است:

Prosody: از اینجا مطالعه کنید.

واج ها: واحدهای صدایی ، وقتی صحبت می کنیم تلفظ می کنیم. لازم است از آنجا که کلمات بسیار مشابه در نامه ممکن است بسیار متفاوت تلفظ شود

Vocoder یا voice encoder : این بخش وظیفه انتقال ویژگی ها به سیگنال های صوتی را برعهده داره. از کتابخانه معروف در این زمینه کتابخانه deep voice و waveNet می باشد.

fundamental frequency یا فرکانس بنیادی - F0: پایین‌ترین فرکانس یک شکل موج متناوب که آهنگ صدا را توصیف می‌کندبه تعبیری دقیق تر سیگنال‌های دوره‌ای در بسیاری از کاربردهای دنیای واقعی مانند پردازش موسیقی, پردازش گفتار, ردیاب صوتی, آنالیز سفارش, و electrocardiography (ECG) دیده می‌شوند. چنین سیگنال‌هایی را می‌توان به صورت مجموع وزنی of مدل‌سازی کرد که فرکانس‌های آن مضرب صحیحی از فرکانس اساسی مشترک هستند که در کاربردهای صوتی و گفتار اغلب به عنوان گام شناخته می‌شود. بنابراین, یک مشکل مهم و اساسی در کاربردهای فوق, تخمین این فرکانس اساسی از مجموعه داده‌های مشاهده‌شده (و اغلب پر سر و صدا) است.

Autoregression Model: یک مدل را به صورت خطی بر روی خروجی‌های خود و یک مجموعه پارامتر مشخص می‌کند که می‌تواند تقریب زده شود.

Query، Key، Value: کلید توسط ماژول توجه برای محاسبه وزن توجه مورد استفاده قرار می گیرد. مقدار بردار تعیین شده توسط وزنهای مخصوص برای محاسبه خروجی ماژول است. وکتور پرس و جو حالت مخفی رمزگشایی است.

Grapheme: روش جالب برای گفتن شخصیت.

حالت های خطا: وضعیت زیر مطلوب برای بلوک توجه که در آن قادر به فرار نیست.

توجه یکنواخت: فقط از محدوده محدودی از گرههای نزدیک به مرحله خروجی استفاده کنید. این عملکرد را برای TTS بهبود می بخشد زیرا یک رابطه خاص بین خروجی در زمان t و ورودی در زمان t وجود دارد. با این حال ، برای مسئله ترجمه این معقول نیست زیرا دستورات کلمات ممکن است یکسان نباشند.

MOS: میانگین امتیازات. جمعیت ارزیابی فرآیند ارزیابی با بلندگوهای بومی. اندازه گیری آسان نیست ، به خصوص برای افراد غیرمستقیم.

وکتور متن: خروجی یک ماژول توجه که خلاصه ای از خروجی های مرحله ای چند بعد از رمزگذار است.

عملکرد پنجره هان: https://en.wikipedia.org/wiki/Window_function#Hann_window

Teacher Forcing : ارائه خروجی پیش‌بینی‌شده مدل در زمان t به عنوان ورودی در زمان t + ۱. یک بازخورد بر روی زمین کنترل می‌شود - بازخورد حقیقتی است به عنوان یک معلم برای یک دانش‌آموز.

نتیجه گیری تصادفی: کانولوشن که واحدهای آینده را پیش‌بینی نمی‌کند، مرحله زمان مرجع T را معین می‌کند که ما می‌خواهیم بعد از آن پیش‌بینی کنیم. در عمل، این روش با تنظیم سمت راست شیب به لایه‌های نرمال کانولوشن اجرا می‌شود.

وبـــلاگ هــفت خــط کــد

تبدیل متن به صدا

لطفا وارد شوید یا ثبت نام کنید برای اضافه کردن دیدگاه .

پاسخ شما

1 پاسخ

لطفا وارد شوید یا ثبت نام کنید برای اضافه کردن دیدگاه .

سوالات مرتبط

وبـــلاگ هــفت خــط کــد

تبدیل متن به صدا

لطفا وارد شوید یا ثبت نام کنید برای اضافه کردن دیدگاه .

پاسخ شما

1 پاسخ

لطفا وارد شوید یا ثبت نام کنید برای اضافه کردن دیدگاه .