Tencent випустила HunyuanVideo 1.5: легка та відкрита модель для текстової генерації відео з підтримкою запуску на звичайних GPU

Компанія Tencent представила оновлену модель для генерації відео за текстовими підказками — HunyuanVideo 1.5. Найголовніше: модель офіційно викладена у відкритий доступ, суттєво знижує вимоги до обладнання та відзначається високою якістю відтворення рухів.

We are excited to unveil HunyuanVideo 1.5, the strongest open-source video generation model. Built upon DiT architecture, it redefines the open-source SOTA for accessibility and performance.🚀🚀🚀

HunyuanVideo 1.5 delivers state-of-the-art visual quality and motion coherence… pic.twitter.com/ygGgh2qfRh
— Hunyuan (@TencentHunyuan) November 21, 2025

Що нового у HunyuanVideo 1.5

8.3 млрд параметрів — оптимізована архітектура з високою ефективністю.
Працює на GPU з 14 GB VRAM, що робить модель доступною для широкого кола користувачів.
Попередні версії вимагали професійні карти на 60–80 GB VRAM.
Генерація відео 5–10 секунд у 480p / 720p з можливістю апскейлу до 1080p.
Покращена стабільність анімації, рухів та композиції кадру.

Технічні особливості

HunyuanVideo 1.5 побудована на трансформерній архітектурі DiT із 3D-каузальним VAE та механізмом SSTA (Selective and Sliding Tile Attention). Такий підхід допоміг суттєво знизити обчислювальне навантаження, зберігши при цьому плавність рухів і якість відео.

Модель підтримує два режими роботи:

Text-to-Video (T2V)
Image-to-Video (I2V)

Після генерації відео у 480p або 720p можна застосувати вбудований суперроздільник для підвищення якості до 1080p.

Переваги для творців контенту

Можливість запуску на середніх GPU робить модель доступною для інді-розробників, дизайнерів та блогерів.
Відкритий код дозволяє модифікувати модель та інтегрувати її у власні проєкти.
Висока якість рухів і стабільність анімації підходять для створення коротких роликів, рекламних вставок, cinematic-сцен та YouTube-контенту.

Практичні поради

Для найкращої роботи рекомендується GPU з 14 GB VRAM або підтримка offloading.
Створюйте відео у 480p–720p та робіть апскейл до 1080p для збереження ресурсів.
У текстових підказках описуйте: рух камери, стиль, композицію, атмосферу, освітлення — модель добре реагує на деталізацію.

➡️ Спробувати можна тут.