Qwen-Image-Edit: від Alibaba — новий відкритий інструмент для точного мультимодального редагування зображень

Alibaba представила Qwen-Image-Edit, редакцію моделі Qwen-Image — 20-мільярдного мультимодального дифузійного трансформера (MMDiT). Вона поєднує VAE-енкодер, що відповідає за зовнішній вигляд, і Qwen2.5-VL, який забезпечує сенсове управління. Такий підхід дозволяє досягати точного редагування — від стилізації до корекції деталей і поз.

🚀 Excited to introduce Qwen-Image-Edit!
Built on 20B Qwen-Image, it brings precise bilingual text editing (Chinese & English) while preserving style, and supports both semantic and appearance-level editing.

✨ Key Features
✅ Accurate text editing with bilingual support
✅… pic.twitter.com/p21KUXoC50
— Qwen (@Alibaba_Qwen) August 18, 2025

Особливості Qwen-Image-Edit

Редагування на рівні смислу й зовнішнього вигляду: підтримується як appearance editing (додавання чи видалення деталей), так і semantic editing (зміна концепції, стилізація, IP-генерація).
Двомовне редагування тексту: англійською та китайською з повним збереженням шрифту, стилю й розміру.
Передові результати: демонструє SOTA на багатьох відкритих бенчмарках у сфері редагування зображень.
Опенсорс: модель доступна під ліцензією Apache 2.0 для досліджень і комерційного використання.
Доступність: працює через Qwen Chat, а також доступна на GitHub і Hugging Face.
Попередження: можливі проблеми зі збереженням ідентичності та виконанням інструкцій. Рекомендується оновлювати diffusers до останньої версії.

Ключові відмінності

Особливість	Опис
Архітектура	20B параметрів, мультимодальний трансформер, Apache 2.0
Редагування	Appearance + Semantic + робота з текстом
Точність	Збереження стилю, шрифту, розміру
Результати	SOTA на відкритих бенчмарках
Доступність	Qwen Chat, GitHub, Hugging Face
Рекомендації	Оновлювати diffusers для стабільної роботи