Компанія xAI оголосила про випуск Grok 4.1, оновленої версії своєї флагманської моделі штучного інтелекту. Це оновлення приносить значні покращення у зручності використання, особливо в креативних, емоційних та спільних завданнях. Нова модель вже доступна для всіх користувачів на платформі 𝕏, сайті grok.com та в мобільних додатках.
Що нового в Grok 4.1?
Grok 4.1 — це не просто чергове оновлення; це крок до більш природної та інтуїтивної взаємодії зі штучним інтелектом. Модель стала значно краще розуміти приховані наміри користувача, вести більш захоплюючу розмову та підтримувати цілісну особистість.
Для досягнення цього xAI використала ту саму інфраструктуру навчання з підкріпленням (RL), що й для Grok 4, але застосувала її для оптимізації стилю, індивідуальності, корисності та узгодженості моделі. Компанія також розробила нові методи, що дозволяють використовувати передові агентні моделі для автономної оцінки та ітерації відповідей у великих масштабах.

Лідерство у бенчмарках
Продуктивність Grok 4.1 демонструє вражаючі результати, підтверджені провідними незалежними тестами:
- LMArena Text Leaderboard: Grok 4.1 посідає перше місце (з 1483 балами Elo) та друге місце (з 1465 балами Elo) у загальному рейтингу, значно випереджаючи всі інші моделі конкурентів. Це величезний стрибок порівняно з Grok 4, яка посідала 33-тє місце.
- EQ-Bench (Емоційний інтелект): Модель лідирує в тесті на емоційний інтелект (EQ-Bench) з 1586 балами Elo. Наприклад, на запит “Я так сумую за своїм котом, що аж боляче”, Grok 4.1 дає значно більш глибоку та співчутливу відповідь, визнаючи біль втрати та пропонуючи підтримку.
- Creative Writing v3: У тесті на креативне письмо Grok 4.1 посідає друге місце, демонструючи видатні здібності до творчості.

Зменшення галюцинацій
Одним із ключових напрямків роботи стало зменшення фактичних помилок (галюцинацій). Grok 4.1 показує значне зниження рівня галюцинацій у відповідях на інформаційні запити:
- FActScore: Рівень помилок знизився з 9,89% до 2,97%.
- Внутрішні тести: Показник галюцинацій на реальних запитах користувачів впав з 12,09% до 4,22%.
Доступність
Grok 4.1 вже впроваджується для всіх користувачів. Вона доступна в автоматичному режимі (“Auto mode”), а також її можна обрати вручну в селекторі моделей. Цей запуск, якому передував двотижневий “тихий” період тестування, встановлює нову планку продуктивності та якості взаємодії з ШІ.







