Штучний інтелект нового покоління: як Grok 3 Маска випередив провідні AI

Ілон Маск представив нову модель штучного інтелекту Grok 3 від стартапу xAI, стверджуючи, що вона перевершує провідних конкурентів за ключовими технічними показниками. Цей крок суттєво посилює перегони за створення більш потужних AI-систем.

Запуск Grok 3 відбувся лише через кілька днів після невдалої спроби Маска придбати OpenAI за $97,4 мільярда. Під час трансляції на платформі X, Маск заявив, що Grok 3 «на порядок потужніша, ніж Grok 2», і виділив її здатність вирішувати складні завдання.

Ранні тести підтверджують деякі заяви xAI. Модель очолила рейтинг Chatbot Arena, перевершивши GPT-4o від OpenAI, Google Gemini та V3 від DeepSeek у сліпих тестах користувачів. Згідно з опублікованими даними, Grok 3 показує найкращі результати в математиці (AIME ’24), науковому мисленні (GPQA) і завданнях програмування.

Grok 3 очолює рейтинг Chatbot Arena з оцінкою близько 1400, значно перевершуючи інші великі AI-моделі в сліпому тестуванні користувачів. (Джерело: xAI)

«Grok 3 демонструє передові здібності до логічного мислення. Мало які моделі справляються з цим стабільно. Моделі OpenAI з цим справляються, але DeepSeek-R1, Gemini 2.0 Flash Thinking і Claude – ні», – написав колишній дослідник OpenAI Андрій Карпаті на X після тестування.

I was given early access to Grok 3 earlier today, making me I think one of the first few who could run a quick vibe check.

Thinking
✅ First, Grok 3 clearly has an around state of the art thinking model ("Think" button) and did great out of the box on my Settler's of Catan… pic.twitter.com/qIrUAN1IfD
— Andrej Karpathy (@karpathy) February 18, 2025

Створення моделі вимагало величезних обчислювальних потужностей. xAI подвоїла кластер GPU до 200 000 чипів Nvidia, розташованих у новому дата-центрі в Мемфісі. Це підкреслює зростаючі вимоги до обчислювальних ресурсів для розробки передових AI-систем.

Одним із ключових нововведень Grok 3 стала функція «DeepSearch», яка поєднує веб-пошук із можливостями аналізу, даючи змогу моделі витягувати й обробляти інформацію з різних джерел. Також є режими для вирішення складних завдань, як-от «Think», що показує хід міркувань моделі, і режим «Big Brain», що виділяє більше ресурсів на складні завдання.

«Найважливіше в AI – це швидкість навчання. А @xai вчиться швидше за всіх», – написав ветеран техіндустрії Роберт Скобл, посилаючись на розмову зі співзасновником Apple Siri Томом Грубером.

Однак тести виявили й недоліки. Карпаті зазначив, що модель іноді вигадує посилання і зазнає труднощів із гумором і завданнями, пов’язаними з етичними питаннями. Ці проблеми характерні для більшості сучасних AI-систем і підкреслюють складність створення штучного інтелекту, який мислить на рівні людини.

У ключових показниках продуктивності Grok 3 і його зменшена версія показали кращі результати в тестах з математики, науки та програмування порівняно з конкурентами від Google, OpenAI, Anthropic і DeepSeek. Повнорозмірна модель Grok 3 (темно-синій) особливо відзначилася в наукових міркуваннях. (Джерело: xAI)

Генеральний директор Scale.ai Олександр Ванг високо оцінив Grok 3, заявивши в Twitter: Це нова найкраща модель у світі від команди @xai Він відзначив її перевагу в низці тестів і висловив бажання співпрацювати з xAI.

Grok 3 is a new best model in the world from the @xai team!

Grok 3 ranks #1 on Chatbot Arena w/a big gap, and scores impressively on pretraining and reasoning evals.

congrats to @elonmusk @ibab @jimmybajimmyba @Yuhu_ai_

looking forward to more partnership on grok4 & beyond 🚀 pic.twitter.com/BrPGz17P51
— Alexandr Wang (@alexandr_wang) February 18, 2025

Grok 3 буде доступна за передплатою Premium+ на платформі X за $40 на місяць, а також через новий сервіс SuperGrok за $30 на місяць. Найближчими тижнями планується запуск API для корпоративних клієнтів.

Цей запуск посилює конкуренцію на ринку AI, особливо в світлі того, що китайський стартап DeepSeek нещодавно представив порівнянну модель із меншими обчислювальними вимогами. Це також порушує питання про те, наскільки стійкі поточні перегони за обчислювальні потужності, оскільки компанії вкладають мільярди доларів в обладнання для розвитку AI.

Маск наголосив, що Grok 3 все ще перебуває на стадії бета-тестування, і поліпшення очікуються «майже щодня». Найближчими тижнями компанія планує додати голосову взаємодію, а попередня модель Grok 2 стане доступною з відкритим кодом після стабілізації нової версії.

Однак найприкметнішим у запуску Grok 3, можливо, є не її технічні характеристики або результати тестів, а те, що вона символізує: зростаючу напругу між Маском і його колишніми колегами з OpenAI. Лише через кілька днів після невдалої спроби придбати OpenAI за $97,4 мільярда, Маск представив модель, яка кидає виклик її лідерству – довівши, що навіть знехтуваний співзасновник може стати серйозним конкурентом у перегонах за домінування у сфері AI.

Джерело