Компанія ElevenLabs презентувала оновлену модель озвучки — Eleven v3 (alpha), яку вже називають найвиразнішою серед існуючих TTS-рішень.
Чим вражає Eleven v3:
- 70+ мов: тепер ще більше голосів та акцентів.
- Мультирежим: підтримка багатоголосої озвучки для створення природних діалогів.
- Аудіо-теги: новинка, яка дозволяє задавати емоції, інтонації й навіть паузи безпосередньо у тексті.
Інновації та особливості
Модель побудована на новій архітектурі, завдяки якій система краще «розуміє» контекст і зміст тексту. Завдяки цьому озвучення звучить максимально живо, із природними емоційними переходами та зміною тону прямо під час діалогу.
Тепер можна вказати в тексті спеціальні теги:
- Емоції:
[sad]
,[angry]
,[happily]
- Подача:
[whispers]
,[shouts]
- Реакції:
[laughs]
,[sighs]
,[clears throat]
Що вже вміє Eleven v3:
- Генерувати реалістичні багатоголосі діалоги
- Вловлювати та відтворювати емоційні переходи
- Динамічно змінювати тон відповідно до контексту тексту
Як спробувати та що ще важливо знати
Зараз Eleven v3 доступна у вигляді альфа-версії. Для роботи з нею варто уважніше підбирати промпти, оскільки від налаштувань залежить якість результату. Однак те, як звучить новий TTS — дійсно вражає.
- API: Публічний API обіцяють відкрити найближчим часом.
- Знижка: Весь червень діє знижка 80% на генерацію аудіо!
- Промпт-гайд для v3: Посібник з промптів
- Спробувати Eleven v3: Офіційна сторінка
Залишити коментар