Нещодавно компанія Alibaba офіційно представила Wan 2.5 Preview, нову версію мультимодальної моделі, яка об’єднує зображення, відео, аудіо та текст у єдину систему. Цей реліз означає значний стрибок у розвитку генеративного медіа контенту — тепер модель одразу створює відео зі звуком, без додаткової обробки.
Що нового в Wan 2.5 Preview
🔊 Нативне генерування аудіо та синхронізація
- Генерація мови, фонового шуму та музики, які синхронізуються з відео.
- Персонажі можуть говорити з природною артикуляцією, а фон відтворюється відповідно до сцени (шум міста, природа, музика).
- Можна завантажити власний аудіофайл і отримати відео з синхронізованим звуком.
🎞 Поліпшене відео: якість та плавність
- Роздільність до 1080p із частотою ~24 fps.
- Тривалість роликів 5–10 секунд.
- Краще відпрацювання руху, зменшені артефакти, плавна анімація.
- Точніше виконання інструкцій у промптах.
🖼 Робота з фото та редагування
- Можна «оживляти» статичні зображення, перетворюючи їх на короткі відео.
- Доступна зміна кольорів, матеріалів чи окремих деталей у кадрі.
- Генерація інфографіки, текстур та навіть якісного тексту на картинках.
Варіанти моделей Wan 2.5
Alibaba Cloud інтегрувала чотири варіанти Wan 2.5 у Model Studio:
- wan2.5-i2v-preview — image → video
- wan2.5-t2v-preview — text → video
- wan2.5-t2i-preview — text → image
- wan2.5-i2i-preview — image → image
Порівняння з конкурентами
- Wan 2.5 позиціонується як прямий конкурент Google Veo 3, оскільки вміє створювати відео з синхронним голосом.
- У сфері e-commerce модель може генерувати UGC-відео для товарів, віртуальні демонстрації та рекламні ролики.
- Є перспективи використання в анімації, кіно, рекламі та соціальних мережах.
Обмеження та виклики
- Поки що відео обмежене 5–10 секундами.
- Аудіо іноді звучить «роботично» при складних сценах.
- Доступність у версії Preview може бути лише через API або платформи на кшталт Fal.ai.
➡️ Спробувати модель можна тут: wan.video
Залишити коментар