Qwen Image — нова флагманська модель генерації та редагування зображень від Alibaba

Alibaba представила Qwen Image — відкриту багатофункціональну візуальну модель, що поєднує генерацію, редагування та роботу з текстом на зображеннях. Вона вже доступна для дослідників та розробників, і поєднує найсучасніші підходи в архітектурі моделей ШІ.

🚀 Meet Qwen-Image — a 20B MMDiT model for next-gen text-to-image generation. Especially strong at creating stunning graphic posters with native text. Now open-source.

🔍 Key Highlights:
🔹 SOTA text rendering — rivals GPT-4o in English, best-in-class for Chinese
🔹 In-pixel… pic.twitter.com/zT9CFLzWkV
— Qwen (@Alibaba_Qwen) August 4, 2025

🔧 Основні характеристики

Архітектура: MMDiT (Multi-Modal Diffusion Transformer) — використовується також у FLUX-1 та Stable Diffusion 3.
Кількість параметрів: 20B — модель орієнтована на серверне або клаудне виконання, а не домашні ПК.
Редагування зображень: модель враховує контекст і структуру оригінального зображення при зміні об’єктів або деталей.
Вбудований OCR: розпізнає текст і може генерувати нові зображення з урахуванням стилістики текстових блоків.
Positional Encoding: власна реалізація кодування позицій для точнішої просторової логіки.

📄 Доступ до моделі

Alibaba виклала повний стек для дослідницького використання:

👉 Hugging Face: https://huggingface.co/Qwen/Qwen-Image
📄 Технічний звіт (PDF): Qwen_Image.pdf
🧪 Демонстрації та API: доступні через Hugging Face Transformers

📌 Приклади використання

Створення маркетингових зображень із текстом
Редагування товарних фото для e-commerce
Генерація портретів і змін за запитом
Обробка зображень у сфері медицини

Qwen Image — це серйозний конкурент GPT-4o Vision, який ще й доступний безкоштовно та відкрито. Ідеальний варіант для розробників і дослідників, які хочуть повноцінний контроль над візуальними задачами.