За останні кілька тижнів ми побачили безліч нових інструментів для перетворення тексту на відео та зображень на відео, як-от Google Veo, Kling від Kuaishou, Dream Machine від Luma Lab і нещодавно анонсований Runway Gen-3 Alpha.
Ці ШІ-відеоінструменти дають вражаючі результати, але у них є загальне обмеження – всі вони генерують відео без звуку. Ні діалогів, ні саундтрека, ні звукових ефектів.
Сьогодні Google поділилася інформацією про розроблювану технологію, яка може генерувати звук із відео.
Що таке Google V2A?
Технологія Google Video-to-audio (V2A) об’єднує відеопікселі з текстовими промптами природною мовою для створення багатого звукового супроводу дій на екрані.
V2A не тільки створює реалістичні звукові ефекти та діалоги, що відповідають персонажам і тону відео, а й може генерувати саундтреки для різних традиційних матеріалів, включно з архівними матеріалами, німими фільмами та багато іншого.
Приклади
Ось п’ять прикладів, якими команда Google Deepmind поділилася у своєму блозі:
- Барабани:
Промпт: A drummer on a stage at a concert surrounded by flashing lights and a cheering crowd
2. Автомобілі:
cars skidding, car engine throttling, angelic electronic music
3. Вовк:
Wolf howling at the moon
4. Підводна медуза:
jellyfish pulsating under water, marine life, ocean
5. Сцена жаху:
Cinematic, thriller, horror film, music, tension, ambience, footsteps on concrete
Це вражає!
Хоча є й обмеження, як-от артефакти та спотворення, загальна якість вихідного сигналу все ж таки достатня, щоб значно поліпшити враження від відео.
Давно пора доповнити відео, створені ШІ, генератором звуку, і V2A – багатообіцяючий крок у цьому напрямку.
Як працює V2A
Google експериментував з різними підходами, щоб знайти найбільш масштабовану архітектуру ШІ для створення аудіо, і метод, заснований на дифузії, забезпечив найреалістичніші результати для синхронізації відео та аудіо.
Дифузія – це процес, під час якого модель ШІ навчається складати візуальні (нерухомі або рухомі) концепції з піксельного “шуму”, ґрунтуючись на вивченні цих концепцій на основі анотованих зображень або пар відео і тексту.
Система V2A починає з кодування вхідного відео в стислому вигляді. Використовуючи дифузійну модель, звук ітеративно очищається від випадкового шуму, орієнтуючись на візуальні дані та промпти природної мови, щоб створити синхронізований реалістичний звук. Потім кінцевий аудіосигнал декодується, перетворюється на аудіоформат і об’єднується з відео.

Щоб поліпшити якість звуку і зорієнтувати модель на конкретні звуки, дослідники додали до процесу навчання створені ШІ анотації з докладними звуковими описами та розшифровками розмовних діалогів. Це дає змогу технології асоціювати конкретні звукові події з різними візуальними сценами на основі наданих анотацій або розшифровок.
Більш детальну інформацію можна знайти в блозі Google тут.
Обмеження
Незважаючи на досягнуті успіхи, Google все ще працює над усуненням низки обмежень:
- Залежність від якості відео: Якість вихідного аудіосигналу сильно залежить від якості вихідного відео. Артефакти або спотворення у відео, які перебувають за межами навчального розподілу моделі, можуть призвести до помітного зниження якості звуку.
- Проблеми із синхронізацією губ: Для відео з мовленням V2A намагається генерувати мовлення із вхідних транскриптів і синхронізувати його з рухами губ персонажів. Однак модель генерації парного відео може не враховувати транскрипти, що призводить до розбіжності, яка часто спричиняє нечітку синхронізацію губ.
- Поєднання аудіо- та відеоелементів: Хоча V2A не вимагає поєднання згенерованого звуку і відео вручну, синхронізація різних звукових елементів, візуальних ефектів і таймінгу залишається складним завданням.
Команда, що працює над цією технологією, каже, що ведуться подальші дослідження, щоб усунути ці обмеження і розширити можливості системи V2A.
Залишити коментар