ByteDance представили Waver 1.0: новітню модель для генерації зображень і відео

ByteDance анонсували Waver 1.0 — універсальну foundation-модель, що об’єднує три режими генерації:

Text-to-Video (T2V) — відео із текстових запитів
Image-to-Video (I2V) — відео на основі зображень
Text-to-Image (T2I) — генерація картинок із тексту

New Drop from @BytedanceTalk : Waver 1.0

ByteDance has just released Waver 1.0, their new foundation model for unified image & video generation, and it’s already making waves in the benchmarks.

Here’s what makes it stand out:
🔹 All-in-One: Supports Text-to-Video,… pic.twitter.com/9zztC0hwco
— Eugenio Fierro (@EugenioFierro3) August 26, 2025

Можливості та переваги

Генерація відео тривалістю 5–10 секунд у роздільності 720p, з подальшим масштабуванням до 1080p через каскадний Refiner.
Нова архітектура Hybrid Stream DiT та Rectified Flow Transformers для кращої узгодженості й оптимізації.
Гнучкий контроль: роздільність, довжина відео, стилі, кут огляду.
У рейтингу Text-to-Video Arena — у TOP-3 серед T2V та I2V моделей станом на липень 2025.

Оцінювання

У тестах Waver-Bench 1.0 (304 приклади: спорт, тварини, пейзажі, сюрреалізм) і Hermes Motion Testset (96 промптів зі спортивними рухами) модель продемонструвала високу якість руху, узгодженість та візуальну завершеність.

Корисні посилання

Володимир Дрозд

Володимир Дрозд — засновник та головний редактор AiNews UA. Автор понад 700 публікацій про штучний інтелект, великі мовні моделі (LLM), AI-агентів та сучасні AI-сервіси. Спеціалізується на новинах OpenAI, Google, Anthropic, xAI, Meta та локальних AI-моделях.