Meta представила Movie Gen – свою модель генерації відео- та аудіоконтенту

Основна особливість моделі – можливість змінювати деталі ролика відповідно до текстового запиту, а також генерувати аудіопідкладку для відео.

Meta представила кілька 10-секундних прикладів роботи своєї нової моделі MovieGen. Модель здатна вносити в наявний ролик цілеспрямовані зміни, наприклад, додавати в руки людини якийсь предмет або змінювати зовнішній вигляд поверхні. В одному із прикладів відео від Meta жінку в гарнітурі VR було змінено так, щоб виглядати так, ніби на ній бінокль у стилі стімпанк.

За допомогою MovieGen можна генерувати аудіофрагменти разом із відеороликами.

Meta надала додаткову інформацію про MovieGen у науковій статті. MovieGen Video складається з 30 мільярдів параметрів, а MovieGen Audio – з 13 мільярдів параметрів. MovieGen може створювати відео високої чіткості довжиною до 16 секунд, і Meta стверджує, що вона перевершує конкуруючі моделі за загальною якістю відео.

Представники компанії повідомили, що модель навчалася на ліцензованих даних, а також загальнодоступних датасетах із мережі.

Буде цікаво подивитися, скільки часу знадобиться Meta, щоб зробити MovieGen широкодоступним. У блозі анонса згадується «потенційний майбутній реліз».

Для порівняння, компанія OpenAI анонсувала свою відеомодель ШІ під назвою Sora на початку цього року, але досі не виклала її у відкритий доступ і не повідомила про дату виходу.

З огляду на спадщину Meta як компанії, що спеціалізується на соціальних мережах, цілком можливо, що інструменти на базі MovieGen з часом з’являться у Facebook, Instagram і WhatsApp.