Alibaba представила Qwen-Image-Edit, редакцію моделі Qwen-Image — 20-мільярдного мультимодального дифузійного трансформера (MMDiT). Вона поєднує VAE-енкодер, що відповідає за зовнішній вигляд, і Qwen2.5-VL, який забезпечує сенсове управління. Такий підхід дозволяє досягати точного редагування — від стилізації до корекції деталей і поз.
Особливості Qwen-Image-Edit
- Редагування на рівні смислу й зовнішнього вигляду: підтримується як appearance editing (додавання чи видалення деталей), так і semantic editing (зміна концепції, стилізація, IP-генерація).
- Двомовне редагування тексту: англійською та китайською з повним збереженням шрифту, стилю й розміру.
- Передові результати: демонструє SOTA на багатьох відкритих бенчмарках у сфері редагування зображень.
- Опенсорс: модель доступна під ліцензією Apache 2.0 для досліджень і комерційного використання.
- Доступність: працює через Qwen Chat, а також доступна на GitHub і Hugging Face.
- Попередження: можливі проблеми зі збереженням ідентичності та виконанням інструкцій. Рекомендується оновлювати diffusers до останньої версії.
Ключові відмінності
| Особливість | Опис |
|---|---|
| Архітектура | 20B параметрів, мультимодальний трансформер, Apache 2.0 |
| Редагування | Appearance + Semantic + робота з текстом |
| Точність | Збереження стилю, шрифту, розміру |
| Результати | SOTA на відкритих бенчмарках |
| Доступність | Qwen Chat, GitHub, Hugging Face |
| Рекомендації | Оновлювати diffusers для стабільної роботи |







