MTVCraft — перший публічний генератор відео зі звуком від BAAI

Пекінська академія штучного інтелекту (BAAI) презентувала MTVCraft — відкритий інструмент нового покоління, що вміє генерувати відео зі синхронізованим аудіо та сюжетом одразу, без жодних додаткових інтеграцій.

Huge drops in open AI past week! Some of the picks 🫡
⏯️ BAAI released MTVCraft, Veo3-like text-to-video model
🧑🏻‍💻 Apple dropped Diffucoder-7B base and instruct diffusion LLMs for coding
🗣️ kyutai released new small TTS model tts-1.6b-en_fr
👀 AllTracker is a new pixel tracking… pic.twitter.com/HdhCCyGqrB
— merve (@mervenoyann) July 7, 2025

🔧 Що під капотом?

MTVCraft поєднує потужність:

Qwen3 — сучасної мовної моделі від Alibaba Group, що відповідає за генерацію змістовного сценарію та розкадровки;
ElevenLabs — одного з найреалістичніших рушіїв для синтезу голосу, який надає озвучку для відео на льоту.

Результат — повноцінне відео з текстовою логікою, візуальним рядом і голосовим супроводом. Без монтажу, без окремих голосових доріжок — все генерується “під ключ”.

📽️ Чим MTVCraft відрізняється?

🔹 Відео одразу зі звуком — більше не потрібно окремо створювати аудіо чи підключати сторонні сервіси.

🔹 Історії замість випадкових сцен — модель не просто генерує ролик, а розгортає сюжет із послідовністю подій, подібно до кліпу або короткого фільму.

🔹 Відкритий доступ через HuggingFace — кожен може протестувати інструмент онлайн уже зараз, без реєстрації та безкоштовно.

🧠 Чому це важливо?

Більшість сучасних генераторів відео обмежені візуальним рядом — вони створюють “німі” сцени, які користувачам доводиться самостійно озвучувати. MTVCraft змінює парадигму: це перший відкритий інструмент, що поєднує AI-наратив, зображення і голос в єдиному процесі.

Це великий крок у бік автоматичного створення мультимедійного контенту — реклам, пояснювальних відео, трейлерів чи навіть коротких навчальних кліпів.