Tencent презентував HunyuanImage-2.1 — проривну модель генерації зображень у 2К

Tencent випустив нову версію свого текст-до-зображення генератора — HunyuanImage-2.1, яка відкриває значні можливості для креативників, дизайнерів та AI-дослідників.

We've officially released and open-sourced HunyuanImage 2.1, our latest text-to-image model.

The new model delivers on our commitment to balancing performance and quality. With native 2K image generation, HunyuanImage 2.1 is an advanced open-source text-to-image model.🎨

✨ New… pic.twitter.com/8VlM9Q4cDZ
— Hunyuan (@TencentHunyuan) September 9, 2025

Основні можливості

Рідна 2К роздільна здатність — підтримка зображень 2048×2048 та різних співвідношень сторін (1:1, 16:9, 4:3 тощо).
Складні промпти до 1000 токенів — багатошарові сцени, кілька об’єктів, деталізація.
Два текстових кодувальники — MLLM та символ-орієнтований енкодер для коректного відтворення тексту.
PromptEnhancer — автоматичне переписування підказок для кращого результату.
Прискорене навчання та інференс — стисла VAE (32×), FP8 квантована модель, менші вимоги до відеопам’яті.
Кращий контроль композиції — точніші пози, вирази, взаємодія об’єктів у кадрі.

Технічні особливості

Архітектура на базі Diffusion Transformer (~17 млрд параметрів).
Оптимізація пам’яті через FP8 quantization та offloading.
Підтримка багатьох форматів: 1:1, 16:9, 9:16, 4:3, 3:4, 3:2, 2:3.
Для 2K генерації потрібно від 24 ГБ GPU VRAM.
Вбудовані інструменти: OCR-агент, верифікація підписів, багатомовна підтримка.

Офіційний сайт: hunyuan.tencent.com

Володимир Дрозд

Володимир Дрозд — засновник та головний редактор AiNews UA. Автор понад 700 публікацій про штучний інтелект, великі мовні моделі (LLM), AI-агентів та сучасні AI-сервіси. Спеціалізується на новинах OpenAI, Google, Anthropic, xAI, Meta та локальних AI-моделях.