Wan 2.5 Preview — революційна мультимодальна модель з інтегрованим аудіо-відео та новими можливостями

Нещодавно компанія Alibaba офіційно представила Wan 2.5 Preview, нову версію мультимодальної моделі, яка об’єднує зображення, відео, аудіо та текст у єдину систему. Цей реліз означає значний стрибок у розвитку генеративного медіа контенту — тепер модель одразу створює відео зі звуком, без додаткової обробки.

🚨 WAKE UP!! WAN 2.5 SPEAKS!🚨

You read that right, just released tonight, Wan 2.5 has native audio just like VEO3! Capable of 1080p and 10 seconds and Image To Video at launch.

Text To Video Prompt:
camera natural light, 8K. cinematic realistic dramatic zoom in on a a… pic.twitter.com/dK9mrBAHFr
— Brent Lynch (@BrentLynch) September 24, 2025

Що нового в Wan 2.5 Preview

🔊 Нативне генерування аудіо та синхронізація

Генерація мови, фонового шуму та музики, які синхронізуються з відео.
Персонажі можуть говорити з природною артикуляцією, а фон відтворюється відповідно до сцени (шум міста, природа, музика).
Можна завантажити власний аудіофайл і отримати відео з синхронізованим звуком.

🎞 Поліпшене відео: якість та плавність

Роздільність до 1080p із частотою ~24 fps.
Тривалість роликів 5–10 секунд.
Краще відпрацювання руху, зменшені артефакти, плавна анімація.
Точніше виконання інструкцій у промптах.

🖼 Робота з фото та редагування

Можна «оживляти» статичні зображення, перетворюючи їх на короткі відео.
Доступна зміна кольорів, матеріалів чи окремих деталей у кадрі.
Генерація інфографіки, текстур та навіть якісного тексту на картинках.

Варіанти моделей Wan 2.5

Alibaba Cloud інтегрувала чотири варіанти Wan 2.5 у Model Studio:

wan2.5-i2v-preview — image → video
wan2.5-t2v-preview — text → video
wan2.5-t2i-preview — text → image
wan2.5-i2i-preview — image → image

Порівняння з конкурентами

Wan 2.5 позиціонується як прямий конкурент Google Veo 3, оскільки вміє створювати відео з синхронним голосом.
У сфері e-commerce модель може генерувати UGC-відео для товарів, віртуальні демонстрації та рекламні ролики.
Є перспективи використання в анімації, кіно, рекламі та соціальних мережах.

Обмеження та виклики

Поки що відео обмежене 5–10 секундами.
Аудіо іноді звучить «роботично» при складних сценах.
Доступність у версії Preview може бути лише через API або платформи на кшталт Fal.ai.

➡️ Спробувати модель можна тут: wan.video