Пекінська академія штучного інтелекту (BAAI) презентувала MTVCraft — відкритий інструмент нового покоління, що вміє генерувати відео зі синхронізованим аудіо та сюжетом одразу, без жодних додаткових інтеграцій.
🔧 Що під капотом?
MTVCraft поєднує потужність:
- Qwen3 — сучасної мовної моделі від Alibaba Group, що відповідає за генерацію змістовного сценарію та розкадровки;
- ElevenLabs — одного з найреалістичніших рушіїв для синтезу голосу, який надає озвучку для відео на льоту.
Результат — повноцінне відео з текстовою логікою, візуальним рядом і голосовим супроводом. Без монтажу, без окремих голосових доріжок — все генерується “під ключ”.

📽️ Чим MTVCraft відрізняється?
🔹 Відео одразу зі звуком — більше не потрібно окремо створювати аудіо чи підключати сторонні сервіси.
🔹 Історії замість випадкових сцен — модель не просто генерує ролик, а розгортає сюжет із послідовністю подій, подібно до кліпу або короткого фільму.
🔹 Відкритий доступ через HuggingFace — кожен може протестувати інструмент онлайн уже зараз, без реєстрації та безкоштовно.
🧠 Чому це важливо?
Більшість сучасних генераторів відео обмежені візуальним рядом — вони створюють “німі” сцени, які користувачам доводиться самостійно озвучувати. MTVCraft змінює парадигму: це перший відкритий інструмент, що поєднує AI-наратив, зображення і голос в єдиному процесі.
Це великий крок у бік автоматичного створення мультимедійного контенту — реклам, пояснювальних відео, трейлерів чи навіть коротких навчальних кліпів.
🔗 Де протестувати?
Спробувати MTVCraft можна безкоштовно тут:
👉 https://huggingface.co/spaces/BAAI/MTVCraft
Залишити коментар