Alibaba представила Qwen-Image-Edit, редакцію моделі Qwen-Image — 20-мільярдного мультимодального дифузійного трансформера (MMDiT). Вона поєднує VAE-енкодер, що відповідає за зовнішній вигляд, і Qwen2.5-VL, який забезпечує сенсове управління. Такий підхід дозволяє досягати точного редагування — від стилізації до корекції деталей і поз.
Особливості Qwen-Image-Edit
- Редагування на рівні смислу й зовнішнього вигляду: підтримується як appearance editing (додавання чи видалення деталей), так і semantic editing (зміна концепції, стилізація, IP-генерація).
- Двомовне редагування тексту: англійською та китайською з повним збереженням шрифту, стилю й розміру.
- Передові результати: демонструє SOTA на багатьох відкритих бенчмарках у сфері редагування зображень.
- Опенсорс: модель доступна під ліцензією Apache 2.0 для досліджень і комерційного використання.
- Доступність: працює через Qwen Chat, а також доступна на GitHub і Hugging Face.
- Попередження: можливі проблеми зі збереженням ідентичності та виконанням інструкцій. Рекомендується оновлювати diffusers до останньої версії.
Ключові відмінності
Особливість | Опис |
---|---|
Архітектура | 20B параметрів, мультимодальний трансформер, Apache 2.0 |
Редагування | Appearance + Semantic + робота з текстом |
Точність | Збереження стилю, шрифту, розміру |
Результати | SOTA на відкритих бенчмарках |
Доступність | Qwen Chat, GitHub, Hugging Face |
Рекомендації | Оновлювати diffusers для стабільної роботи |
Залишити коментар