Компанія Google офіційно представила Gemini Embedding 2 — свою першу повністю мультимодальну модель векторних представлень (embeddings). Це значне оновлення архітектури Gemini, яке дозволяє розробникам працювати з різними типами контенту в межах одного векторного простору. Новинка вже доступна у форматі Public Preview через Gemini API та платформу Vertex AI.

Що таке Gemini Embedding 2 та чому це важливо?
Традиційні моделі векторних представлень зазвичай фокусувалися лише на тексті. Gemini Embedding 2 змінює правила гри, пропонуючи нативну підтримку тексту, зображень, відео, аудіо та документів. Це означає, що модель здатна розуміти семантичний зв’язок між різними типами медіа без необхідності використовувати окремі інструменти для кожного формату.
Завдяки підтримці понад 100 мов, модель значно спрощує створення складних систем, таких як архітектура RAG (Retrieval-Augmented Generation), семантичний пошук та аналіз тональності даних.
Ключові технічні можливості моделі
Нова модель демонструє високу продуктивність завдяки глибокому розумінню контексту. Ось основні характеристики Gemini Embedding 2:
- Текст: підтримує розширений контекст до 8192 вхідних токенів.
- Зображення: можливість обробки до 6 зображень в одному запиті (формати PNG та JPEG).
- Відео: підтримка роликів тривалістю до 120 секунд у форматах MP4 та MOV.
- Аудіо: пряма обробка звукових даних без потреби у попередній текстовій транскрипції.
- Документи: здатність вкладати PDF-файли обсягом до 6 сторінок.
Однією з головних переваг є робота з комбінованими вхідними даними. Розробники можуть передавати запити, що містять одночасно текст і зображення, що дозволяє моделі вловлювати складні нюанси та взаємозв’язки між різними типами медіа.

Ефективність та масштабування: Технологія Matryoshka
Google інтегрувала у Gemini Embedding 2 метод Matryoshka Representation Learning (MRL). Ця технологія дозволяє динамічно змінювати розмірність вихідних векторів без суттєвої втрати якості.
За замовчуванням модель використовує 3072 виміри, проте розробники можуть зменшувати цей показник до 1536 або 768. Це допомагає значно економити місце у векторних базах даних та знижувати витрати на зберігання, зберігаючи при цьому високу точність пошуку.
Сфери застосування для бізнесу та розробників
Gemini Embedding 2 встановлює новий стандарт продуктивності, перевершуючи попередні моделі в тестах на обробку тексту, відео та зображень. Основні сценарії використання включають:
- Просунутий RAG: покращення точності відповідей AI за рахунок швидкого пошуку у мультимодальних базах знань.
- Інтелектуальні медіа-архіви: створення пошукових систем, які можуть знаходити конкретні моменти у відео або аудіо за текстовим описом.
- Кластеризація даних: автоматичне групування великих обсягів різнорідної інформації (чеки, звіти, фото, записи розмов).
Як почати роботу?
Модель вже доступна для тестування. Розробники можуть використовувати її безпосередньо через Google AI Studio або інтегрувати у свої проєкти за допомогою популярних бібліотек, таких як LangChain, LlamaIndex, Haystack та векторних БД на кшталт Pinecone або Qdrant.
З появою Gemini Embedding 2 Google робить важливий крок до створення універсального штучного інтелекту, здатного сприймати світ так само цілісно, як і людина.





