Alibaba Qwen представили одразу три нові моделі, кожна з яких робить значний крок у своїй галузі:
🔊 Qwen3-TTS-Flash
- Модель для перетворення тексту у голос з акцентом на мінімальну затримку.
- Підтримує 10 мов і має 14 голосових варіантів.
- Затримка першого “пакету” складає лише 97 мс.
- Ідеально підходить для інтерактивних систем: чат-асистентів, голосових ботів, голосового керування.
🎨 Qwen-Image-Edit-2509
- Підтримка мультизображень (до 2–3 одночасно).
- Покращена консистентність обличчя, об’єктів та фону.
- Інтегрований ControlNet для точнішого контролю пози та структури сцени.
- Приріст швидкості на 5-10 % у новому текстовому енкодері.
- Демо доступне у Hugging Face Spaces.
🌐 Qwen3-Omni — мультимодальна універсальна модель
Флагманський проєкт Alibaba, що об’єднує роботу з текстом, зображеннями, аудіо та відео.
- 119 текстових мов, 19 мов розпізнавання мовлення, 10 мов для генерації голосу.
- У 36 аудіо/відео-бенчмарках здобула лідерство у більшості випадків.
- Архітектура Thinker–Talker (Mixture-of-Experts) — поєднання логіки та генерації голосу.
- Обробляє аудіофайли до 30–40 хв у безперервному режимі.
- “Холодний старт” забезпечує першу відповідь за ~234 мс.
Доступні три open-source версії:
- Qwen3-Omni-30B-A3B-Instruct — повнофункціональна модель (текст, аудіо, відео, зображення, відповіді текстом і голосом).
- Qwen3-Omni-30B-A3B-Thinking — аналітична версія, відповіді лише текстом.
- Qwen3-Omni-30B-A3B-Captioner — спеціалізація на текстових описах аудіо.
🔗 Де спробувати та завантажити
🌍 Значення для індустрії AI
Qwen3-Omni став відкритою альтернативою закритим системам на кшталт OpenAI чи Google, оскільки доступний під ліцензією Apache 2.0. Нова архітектура пропонує довший контекст, ширші мультимодальні можливості та баланс між продуктивністю і швидкістю. Це робить Qwen3 важливим етапом у розвитку відкритих моделей штучного інтелекту.
Залишити коментар