Ну, що тут скажеш. Microsoft знову всіх здивувала (і трохи налякала) — вони щойно викатили свою нову модель під назвою VibeVoice. Це просто шалений прорив у сфері штучного інтелекту, серйозно.
По суті, VibeVoice — це інструмент для перетворення тексту на мовлення (Text-to-Speech), але працює вона не просто швидко, а миттєво, майже в режимі прямої трансляції. Ти пишеш, а вона одразу говорить, без отих незграбних пауз.
Але найцікавіше — це не швидкість, а можливості. Бо ця штука вміє те, що звичайні TTS-системи просто не тягнуть.
По-перше, вона генерує діалоги. І не просто так, а з купою різних голосів одночасно! Уявіть собі, більше не треба вручну зводити 10 різних доріжок для подкасту чи аудіокниги. Модель сама розкидає ролі, створюючи складні, багатоперсональні розмови. Це ж скільки часу економиться, просто божевілля.
По-друге, ці віртуальні голоси… вони можуть СПІВАТИ! Так, справжній музичний вокал, що відкриває двері в музичну індустрію. Можна зробити голосового помічника, який нарешті не буде звучати як робот-поліцейський, а додасть емоцій.

Ну і останнє, але не менш важливе: масштаби. Завдяки високій швидкості та якості, користувачі можуть взяти буквально тонну тексту — хоч цілий роман чи якийсь там багаточасовий мануал — і за лічені хвилини отримати повноцінний, якісний аудіоматеріал. Це реально змінює правила гри для всіх, хто працює з контентом.
Модель VibeVoice-Realtime-0.5B вже доступна для тестування та ознайомлення на платформі Hugging Face за цим посиланням, протестити можна тут.







