Що таке Google Gemini?

Google повністю вступив в «Gemini era» – тож пристебніть ремені та приготуйтеся до заплутаних ребрендингів. Gemini ai – це назва, яку Google дав сімейству мультимодальних моделей штучного інтелекту нового покоління, запущених минулого року, але в типовій для Google манері компанія тепер застосовує її практично до всього іншого.

Джерело: Google

Джеміні, сімейство мультимодальних моделей ШІ. Це те, що Google використовує у власних додатках, але розробники також можуть інтегрувати його у свої програми.

Google Gemini, чат-бот, який працює на основі сімейства моделей Gemini. (Це чат-бот, який раніше називався Bard).
Гугл геміні – майбутня заміна Google Assistant, яка, ймовірно, буде інтегрована з чат-ботом, але ми ще не знаємо напевно.
Gemini для Google Workspace – функції штучного інтелекту, інтегровані в Gmail, Google Docs та інші додатки Workspace для платних користувачів.
І ще кілька функцій Gemini, які я точно пропустив.

Всі ці нові Geminis базуються на базовій сімейці мультимодальних моделей ШІ, тож давайте почнемо з них.

Що таке Геміні?

Наприклад, ви можете дати Gemini запит на «що відбувається на цій картинці?» і прикріпити зображення, і він опише зображення і відповість на подальші запити, що вимагають більш складної інформації.

Google Gemini – це сімейство моделей штучного інтелекту, подібних до GPT від OpenAI. Всі вони є мультимодальними моделями, що означає, що вони можуть розуміти і генерувати текст, як звичайні великі мовні моделі (LLM), але вони також можуть розуміти, оперувати і комбінувати інші види інформації, такі як зображення, аудіо, відео та код.

Оскільки ми вступили в еру корпоративної конкуренції в галузі штучного інтелекту, більшість компаній не розголошують подробиць того, як працюють і чим відрізняються їхні моделі. Проте Google підтвердила, що моделі Gemini використовують архітектуру-трансформер і покладаються на такі стратегії, як попереднє навчання та точне налаштування, так само, як і інші основні моделі штучного інтелекту.

Як і GPT-4o, остання модель OpenAI, Google Gemini також навчався на зображеннях, аудіо та відео одночасно з навчанням на тексті. Здатність Gemini обробляти їх не є результатом окремої моделі, прикрученої в кінці, – це все закладено з самого початку.

Теоретично це має означати, що Google Gemini розуміє речі більш інтуїтивно. Візьмемо, наприклад, фразу «мавпячий бізнес»: якщо штучний інтелект натренований на зображеннях з тегами «мавпа» і «бізнес», він, швидше за все, просто намалює мавп у костюмах, коли його попросять намалювати щось, пов’язане з цим поняттям. З іншого боку, якщо ШІ для розуміння зображень і ШІ для розуміння мови тренуються одночасно, вся модель повинна мати більш глибоке розуміння пустотливого і оманливого підтексту фрази. Мавпам можна носити костюми, але краще б вони кидалися какашками.

Тренуючи всі свої модальності одночасно, Google стверджує, що Близнюки можуть «легко розуміти і міркувати про всі види вхідних даних з нуля». Наприклад, він може розуміти графіки і підписи, що їх супроводжують, читати текст з вивісок та іншим чином інтегрувати інформацію з різних модальностей. Хоча це було відносно унікальним минулого року, коли Gemini вперше запустили, і Claude 3, і GPT-4o мають багато однакових мультимодальних функцій.

Інша ключова відмінність, яку любить підкреслювати Google, полягає в тому, що Google Gemini має «довге контекстне вікно». Це означає, що підказка може містити більше інформації, щоб краще сформувати відповіді, які може дати модель, і з якими ресурсами їй доведеться працювати. Зараз Gemini 1.5 Pro має контекстне вікно розміром до мільйона токенів, а незабаром Google розширить його до двох мільйонів токенів. Цього, очевидно, достатньо для 1500-сторінкового PDF-файлу, тож теоретично ви можете завантажити величезний документ і поставити Gemini запитання про те, що в ньому міститься.

Моделі Google Gemini бувають різних розмірів

Різні моделі Gemini призначені для роботи практично на будь-якому пристрої, саме тому Google інтегрує його абсолютно скрізь. Google стверджує, що різні версії здатні ефективно працювати на всьому, від центрів обробки даних до смартфонів.

Наразі Google пропонує наступні моделі Gemini.

Gemini 1.0 Ultra

Gemini 1.0 Ultra – найбільша модель, призначена для найскладніших завдань. У LLM-тестах, таких як MMLU, Big-Bench Hard і HumanEval, вона перевершила GPT-4, а в мультимодальних тестах, таких як MMMU, VQAv2 і MathVista, вона перевершила GPT-4V. Він все ще проходить тестування і має бути випущений цього року.

Gemini 1.5 Pro

Gemini 1.5 Pro пропонує баланс між масштабованістю та продуктивністю. Він розроблений для виконання різноманітних завдань і має контекстне вікно до двох мільйонів токенів. Це основна модель Gemini, яку Google розгортає у своїх додатках. Спеціально навчену версію цієї моделі використовує чат-бот Google Gemini (раніше називався Bard).

Gemini 1.5 Flash

Gemini 1.5 Flash – це легка, швидка, економічно ефективна модель, призначена для високочастотних завдань. Вона менш потужна, ніж Gemini Pro, але дешевша в експлуатації та має контекстне вікно до одного мільйона токенів.

Gemini 1.0 Nano

Gemini 1.0 Nano призначена для локальної роботи на смартфонах та інших мобільних пристроях. Теоретично, це дозволить вашому смартфону реагувати на прості підказки і виконувати такі дії, як підсумовування тексту, набагато швидше, ніж якби йому довелося підключатися до зовнішнього сервера. Наразі Gemini Nano доступний лише на Google Pixel 8 Pro та працює з такими функціями, як розумні відповіді в Gboard.

Кожна модель Gemini відрізняється за кількістю параметрів і, як наслідок, за тим, наскільки добре вона може відповідати на більш складні запити, а також за кількістю обчислювальної потужності, необхідної для її роботи. На жаль, такі цифри, як кількість параметрів тієї чи іншої моделі, часто тримаються в секреті – якщо тільки у компанії немає приводу похвалитися.

Щоб ще більше ускладнити ситуацію, моделі Pro і Flash належать до серії Gemini 1.5, в той час як Ultra і Nano все ще належать до Gemini 1.0. Імовірно, вони обидва будуть оновлені в якийсь момент цього року.

Як Google Gemini порівнюється з іншими LLM?

Зараз ми підходимо до того моменту, коли пряме порівняння моделей ШІ починає здаватися недоречним. Найкращі моделі від OpenAI, Anthropic та Google є неймовірно потужними – і те, як ви їх налаштовуєте та застосовуєте, зараз має значно більше значення, ніж те, яку модель ви обираєте.

Аналогічно, компроміси між швидкістю та потужністю стають все більш важливими. Google Gemini Ultra – одна з найпотужніших моделей штучного інтелекту, але є причина, чому Google просуває Gemini Pro, Flash і Nano. Лише в кількох виняткових випадках додаткові витрати на запуск будуть варті додаткових обчислювальних витрат.

Джерело: artificialanalysis.ai

При цьому різні бенчмарки показують, що Gemini 1.5 Pro трохи відстає від найкращих пропрієтарних моделей, таких як GPT-4o і Claude 3 Opus, і знаходиться на одному рівні з найкращими відкритими моделями, такими як Llama 3 70B і Mixtral 8x22B. Gemini 1.5 Flash трохи випереджає менш потужні пропрієтарні моделі, такі як Claude 3 Haiku та GPT-3.5 Turbo.

Оскільки Gemini 1.0 Ultra і 1.0 Nano ще не є широкодоступними, порівнювати їхню продуктивність складніше, але можна екстраполювати дані, отримані від Google в минулому. Ultra конкурував з GPT-4, коли був анонсований минулого року, тож яка б версія не була на стадії тестування, вона, ймовірно, все ще схожа на найсучасніші моделі. Nano, з іншого боку, розроблений для ефективної роботи на пристроях, тому він буде значно гіршим у бенчмарках, але, ймовірно, досить корисним у реальному світі.

Як Google використовує Gemini?

Google стверджує, що Gemini тепер інтегрований з усіма її «продуктами для двох мільярдів користувачів», що, як я розумію, означає, що він використовується у всіх сервісах Google, які мають два мільярди або більше користувачів. Це, ймовірно, Google Search, Android, Chrome, YouTube і Gmail як мінімум, але Google також інтегрує Gemini і в інші сервіси.

Google Gemini (чат-бот). Найбільш очевидне місце, де Google впроваджує Gemini, – це чат-бот, раніше відомий як Бард. Зараз він також називається Gemini і є скоріше прямим конкурентом ChatGPT, ніж заміною Пошуку.
Google One. Преміум-план зі штучним інтелектом Google One за $20 на місяць надає доступ до більш просунутих моделей, а також до Gemini в Gmail, Docs та інших додатках Google.
Google Search. Пошук також отримає багато оновлень на базі Gemini. Огляди штучного інтелекту – це, по суті, вікна швидких відповідей на більш складні запити. Незабаром ви зможете запитувати у Google простіші або детальніші зведення інформації, і навіть зможете використовувати Пошук для планування багатоденних поїздок і харчування.
Google Workspace. Корпоративна версія Workspace від Google також починає отримувати багато зручних функцій на базі Gemini – хоча більшість з них доступні лише за додаткову підписку Gemini вартістю $20 за користувача в місяць.
Google Astra. Google Astra – це бачення Google того, якими будуть майбутні мультимодальні агенти штучного інтелекту. Весь проект побудований на основі моделей Gemini. Після того, як минулого року, по суті, було підроблено розрекламоване відео запуску Gemini Ultra, остання демонстрація Astra була дуже чітко описана як демонстрація в реальному часі з одним дублем.

Існує незліченна кількість інших місць, де Google або використовує Gemini, або планує це зробити. Однією з найбільш захоплюючих новин є те, що незабаром вона буде вбудована безпосередньо в Google Chrome. Коли генеральний директор Google Сундар Пічаї каже, що Google перебуває в ері Близнюків, він дійсно має це на увазі.

Як отримати доступ до Google Gemini

Найпростіший спосіб ознайомитися що таке Геміні – через чат-бот. Якщо ви підпишетеся на план Gemini, ви також зможете використовувати його в різних додатках Google.