ByteDance анонсували Waver 1.0 — універсальну foundation-модель, що об’єднує три режими генерації:
- Text-to-Video (T2V) — відео із текстових запитів
- Image-to-Video (I2V) — відео на основі зображень
- Text-to-Image (T2I) — генерація картинок із тексту
Можливості та переваги
- Генерація відео тривалістю 5–10 секунд у роздільності 720p, з подальшим масштабуванням до 1080p через каскадний Refiner.
- Нова архітектура Hybrid Stream DiT та Rectified Flow Transformers для кращої узгодженості й оптимізації.
- Гнучкий контроль: роздільність, довжина відео, стилі, кут огляду.
- У рейтингу Text-to-Video Arena — у TOP-3 серед T2V та I2V моделей станом на липень 2025.
Оцінювання
У тестах Waver-Bench 1.0 (304 приклади: спорт, тварини, пейзажі, сюрреалізм) і Hermes Motion Testset (96 промптів зі спортивними рухами) модель продемонструвала високу якість руху, узгодженість та візуальну завершеність.
Залишити коментар