Alibaba представила Qwen Image — відкриту багатофункціональну візуальну модель, що поєднує генерацію, редагування та роботу з текстом на зображеннях. Вона вже доступна для дослідників та розробників, і поєднує найсучасніші підходи в архітектурі моделей ШІ.
🔧 Основні характеристики
- Архітектура: MMDiT (Multi-Modal Diffusion Transformer) — використовується також у FLUX-1 та Stable Diffusion 3.
- Кількість параметрів: 20B — модель орієнтована на серверне або клаудне виконання, а не домашні ПК.
- Редагування зображень: модель враховує контекст і структуру оригінального зображення при зміні об’єктів або деталей.
- Вбудований OCR: розпізнає текст і може генерувати нові зображення з урахуванням стилістики текстових блоків.
- Positional Encoding: власна реалізація кодування позицій для точнішої просторової логіки.
📄 Доступ до моделі
Alibaba виклала повний стек для дослідницького використання:
- 👉 Hugging Face: https://huggingface.co/Qwen/Qwen-Image
- 📄 Технічний звіт (PDF): Qwen_Image.pdf
- 🧪 Демонстрації та API: доступні через Hugging Face Transformers
📌 Приклади використання
- Створення маркетингових зображень із текстом
- Редагування товарних фото для e-commerce
- Генерація портретів і змін за запитом
- Обробка зображень у сфері медицини
Qwen Image — це серйозний конкурент GPT-4o Vision, який ще й доступний безкоштовно та відкрито. Ідеальний варіант для розробників і дослідників, які хочуть повноцінний контроль над візуальними задачами.
Залишити коментар