Tencent випустив нову версію свого текст-до-зображення генератора — HunyuanImage-2.1, яка відкриває значні можливості для креативників, дизайнерів та AI-дослідників.
Основні можливості
- Рідна 2К роздільна здатність — підтримка зображень 2048×2048 та різних співвідношень сторін (1:1, 16:9, 4:3 тощо).
- Складні промпти до 1000 токенів — багатошарові сцени, кілька об’єктів, деталізація.
- Два текстових кодувальники — MLLM та символ-орієнтований енкодер для коректного відтворення тексту.
- PromptEnhancer — автоматичне переписування підказок для кращого результату.
- Прискорене навчання та інференс — стисла VAE (32×), FP8 квантована модель, менші вимоги до відеопам’яті.
- Кращий контроль композиції — точніші пози, вирази, взаємодія об’єктів у кадрі.
Технічні особливості
- Архітектура на базі Diffusion Transformer (~17 млрд параметрів).
- Оптимізація пам’яті через FP8 quantization та offloading.
- Підтримка багатьох форматів: 1:1, 16:9, 9:16, 4:3, 3:4, 3:2, 2:3.
- Для 2K генерації потрібно від 24 ГБ GPU VRAM.
- Вбудовані інструменти: OCR-агент, верифікація підписів, багатомовна підтримка.
Офіційний сайт: hunyuan.tencent.com







