Нові експресивні моделі синтезу мовлення в режимі реального часу (TTS) підтримують високоточне клонування голосу

Нові експресивні моделі синтезу мовлення в режимі реального часу (TTS) підтримують високоточне клонування голосу

Zyphra, компанія, розташована в Пало-Альто, штат Каліфорнія, створює нову мультимодальну агентську систему штучного інтелекту та оголосила про випуск Zonos-v0.1 beta, пари надзвичайно виразних моделей перетворення тексту в мову (TTS) із високоточним клонуванням голосу. Компанія випускає трансформерну та гібридну моделі TTS з ліцензією Apache 2.0, що фактично робить їх доступними для розповсюдження.

Відвідування веб-сайту Zyphra дозволяє поекспериментувати з двома новими моделями перетворення тексту в мову (TTS) і перевірити унікальну здатність генерувати високоточне клонування голосу, яке потім можна застосувати для читання будь-якого тексту з видатними виразними властивостями. Веб-сайт також показує, що Zonos працює краще, ніж провідні постачальники TTS, у якості та виразності.

Навіщо людству потрібне клонування голосу (або створення музики штучного інтелекту) — це питання, яке ми всі маємо поставити, але, як і у всьому, що стосується штучного інтелекту, дослідження просуваються набагато швидше, ніж у нас є час обдумати наслідки. А моделі Zonos чітко показують, що визнаним акторам голосу та дикторам потрібно буде використовувати свою унікальну голосову «модель», а не лише свою роботу. І те, що дипфейки стануть набагато більшою проблемою, ніж можна собі уявити, враховуючи нашу залежність від медіаконтенту.

За словами Zyphra, Zonos пропонує гнучкий контроль швидкості голосу, емоцій, тону та якості звуку, а також миттєве необмежене клонування високоякісного голосу. Zonos генерує мову на частоті 44 кГц і може клонувати будь-який голос від 5 до 30 секунд мовлення. Zonos дозволяє генерувати дуже виразну та природну мову з текстових підказок із вбудованим динаміком або звуковим префіксом. Зони також можна обумовлювати на основі швидкості мовлення, стандартного відхилення висоти, якості звуку та таких емоцій, як смуток, страх, гнів, щастя та здивування.

Моделі навчаються на основі приблизно 200 000 годин мовних даних, що охоплюють як нейтральне мовлення (наприклад, розповідь аудіокниги), так і дуже експресивне мовлення. Більшість даних англійською мовою, хоча є значні обсяги китайської, японської, французької, іспанської та німецької лише для покращення зручності використання.

«Ми віримо, що відкритий випуск моделей такого калібру суттєво просуне дослідження TTS. Наразі Zonos — це бета-версія. Незважаючи на те, що Zonos дуже експресивний, інколи ненадійний протягом багатьох поколінь, що призводить до цікавих артефактів. Ми раді продовжувати розширювати межі продуктивності, надійності та ефективності розмовного агента протягом наступних місяців», — повідомляє компанія у своєму блозі.

«Наш високооптимізований механізм логічного висновку працює як з Zonos API, так і з ігровим майданчиком, досягаючи вражаючих показників часу до першого аудіо (TTFA). Гібридна модель демонструє особливо ефективні характеристики продуктивності зі зниженою затримкою та накладними витратами на пам’ять порівняно з аналогом-трансформером завдяки своїй архітектурі на основі Mamba2, яка меншою мірою покладається на блоки уваги».

«У майбутніх випусках моделі ми прагнемо значно підвищити надійність моделі, її здатність обробляти конкретні вимови, кількість підтримуваних мов і рівень контролю над емоціями та іншими голосовими характеристиками, наданими користувачеві. Ми також будемо працювати над подальшими архітектурними інноваціями, щоб підвищити якість моделі та продуктивність висновків», — заявляють вони.

На даний момент доступність цих моделей Zonos за ліцензією Apache 2.0, включаючи першу гібридну аудіо модель SSM з відкритим вихідним кодом, дозволяє аудіоіндустрії тестувати та випробувати технологію та API моделі, які зараз доступні.