Alibaba презентує три проривні моделі Qwen: від TTS до мультимодального інтелекту

Alibaba Qwen представили одразу три нові моделі, кожна з яких робить значний крок у своїй галузі:

🚀 Introducing Qwen3-Omni — the first natively end-to-end omni-modal AI unifying text, image, audio & video in one model — no modality trade-offs!

🏆 SOTA on 22/36 audio & AV benchmarks
🌍 119L text / 19L speech in / 10L speech out
⚡ 211ms latency | 🎧 30-min audio… pic.twitter.com/qGn34N7Xvd
— Qwen (@Alibaba_Qwen) September 22, 2025

🔊 Qwen3-TTS-Flash

Модель для перетворення тексту у голос з акцентом на мінімальну затримку.
Підтримує 10 мов і має 14 голосових варіантів.
Затримка першого “пакету” складає лише 97 мс.
Ідеально підходить для інтерактивних систем: чат-асистентів, голосових ботів, голосового керування.

🎨 Qwen-Image-Edit-2509

Підтримка мультизображень (до 2–3 одночасно).
Покращена консистентність обличчя, об’єктів та фону.
Інтегрований ControlNet для точнішого контролю пози та структури сцени.
Приріст швидкості на 5-10 % у новому текстовому енкодері.
Демо доступне у Hugging Face Spaces.

🌐 Qwen3-Omni — мультимодальна універсальна модель

Флагманський проєкт Alibaba, що об’єднує роботу з текстом, зображеннями, аудіо та відео.

119 текстових мов, 19 мов розпізнавання мовлення, 10 мов для генерації голосу.
У 36 аудіо/відео-бенчмарках здобула лідерство у більшості випадків.
Архітектура Thinker–Talker (Mixture-of-Experts) — поєднання логіки та генерації голосу.
Обробляє аудіофайли до 30–40 хв у безперервному режимі.
“Холодний старт” забезпечує першу відповідь за ~234 мс.

Доступні три open-source версії:

Qwen3-Omni-30B-A3B-Instruct — повнофункціональна модель (текст, аудіо, відео, зображення, відповіді текстом і голосом).
Qwen3-Omni-30B-A3B-Thinking — аналітична версія, відповіді лише текстом.
Qwen3-Omni-30B-A3B-Captioner — спеціалізація на текстових описах аудіо.

🔗 Де спробувати та завантажити

🌍 Значення для індустрії AI

Qwen3-Omni став відкритою альтернативою закритим системам на кшталт OpenAI чи Google, оскільки доступний під ліцензією Apache 2.0. Нова архітектура пропонує довший контекст, ширші мультимодальні можливості та баланс між продуктивністю і швидкістю. Це робить Qwen3 важливим етапом у розвитку відкритих моделей штучного інтелекту.