Alibaba представила Qwen Image — відкриту багатофункціональну візуальну модель, що поєднує генерацію, редагування та роботу з текстом на зображеннях. Вона вже доступна для дослідників та розробників, і поєднує найсучасніші підходи в архітектурі моделей ШІ.
🔧 Основні характеристики
- Архітектура: MMDiT (Multi-Modal Diffusion Transformer) — використовується також у FLUX-1 та Stable Diffusion 3.
- Кількість параметрів: 20B — модель орієнтована на серверне або клаудне виконання, а не домашні ПК.
- Редагування зображень: модель враховує контекст і структуру оригінального зображення при зміні об’єктів або деталей.
- Вбудований OCR: розпізнає текст і може генерувати нові зображення з урахуванням стилістики текстових блоків.
- Positional Encoding: власна реалізація кодування позицій для точнішої просторової логіки.
📄 Доступ до моделі
Alibaba виклала повний стек для дослідницького використання:
- 👉 Hugging Face: https://huggingface.co/Qwen/Qwen-Image
- 📄 Технічний звіт (PDF): Qwen_Image.pdf
- 🧪 Демонстрації та API: доступні через Hugging Face Transformers
📌 Приклади використання
- Створення маркетингових зображень із текстом
- Редагування товарних фото для e-commerce
- Генерація портретів і змін за запитом
- Обробка зображень у сфері медицини
Qwen Image — це серйозний конкурент GPT-4o Vision, який ще й доступний безкоштовно та відкрито. Ідеальний варіант для розробників і дослідників, які хочуть повноцінний контроль над візуальними задачами.
Залишити коментар
Штучний інтелект розумнішає, навчаючи інші моделі
Microsoft представила учасникам програми Windows Insider нові АІ-функції для Paint і Notepad
Hume AI – перший штучний інтелект з емпатією
Дослідники Meta* випустили VFusion3D – ші для генерації 3D-моделей за фотографією
Нові публікації
Qwen Image — нова флагманська модель генерації та редагування зображень від Alibaba
Genspark запускає мультиагентну систему — ШІ-оркестр для складних завдань
Image 3.1 від CapCut — фотореалістична генерація зображень для креаторів і бізнесу
Режим Study and Learn у ChatGPT: новий підхід, щоб навчатися, а не списувати
Wan 2.2 — оновлений відеогенератор з відкритим кодом від Alibaba
Midjourney розширює можливості відеогенерації — більше контролю та зручності
Runway представив Aleph — AI-модель для повного контролю над відео
GPT‑5 стане проривом у програмуванні: що відомо
Microsoft запустила GitHub Spark — AI‑інструмент для створення додатків за описом
Mirage — новий рівень творчої анімації через ШІ
OpenAI обробляє 2,5 млрд запитів щодня: статистика використання ChatGPT у 2025 році
Google Gemini отримав золоту медаль на Міжнародній математичній олімпіаді