Революція в медичному ШІ: Google випускає MedGemma 1.5 та MedASR

Сфера охорони здоров’я демонструє чи не найвищі темпи впровадження штучного інтелекту. На фоні цього стрімкого прогресу Google Research презентував масштабне оновлення свого інструментарію для розробників — MedGemma 1.5 4B та спеціалізовану модель для розпізнавання мовлення MedASR.

Нові можливості MedGemma 1.5

Оновлена модель MedGemma 1.5 4B стала значно розумнішою у роботі з візуальними даними. Тепер вона здатна аналізувати складні медичні зображення, які раніше були викликом для відкритих моделей. Основні напрямки покращень включають:

Робота з 3D-скануванням: Якісна інтерпретація результатів КТ та МРТ.
Гістопатологія: Аналіз повнокадрових зображень тканин.
Динамічне спостереження: Порівняння серій рентгенівських знімків у часі для відстеження стану пацієнта.
Аналіз документації: Автоматичне вилучення структурованої інформації з лабораторних звітів та медичних карток.

Завдяки оптимізації, модель розміром 4 мільярди параметрів (4B) може працювати навіть на локальних пристроях без постійного доступу до інтернету, що критично важливо для конфіденційності медичних даних.

Короткий опис колекції моделей MedGemma та їхніх можливостей.

MedASR: Коли ШІ чує лікаря

Окрім візуальної складової, Google приділив увагу і голосовому введенню. Нова модель MedASR спеціально налаштована на медичну термінологію. Вона демонструє вражаючі результати порівняно зі стандартними системами розпізнавання мовлення:

На 82% менше помилок під час загального медичного диктування.
На 58% вища точність при описі радіологічних знімків.

Це дозволяє автоматизувати заповнення карток та описів, звільняючи час лікарів для роботи з пацієнтами.

MedGemma 1.5 4B покращує підтримку медичної візуалізації, перевершуючи продуктивність MedGemma 1 4B у високорозмірній інтерпретації зображень, локалізації анатомії та поздовжній оцінці захворювань на рентгенівських знімках грудної клітки, загальній інтерпретації медичних зображень та вилученні вмісту з медичних лабораторних звітів.

Стимул для спільноти: $100,000 за інновації

Щоб прискорити розвиток екосистеми, Google запускає MedGemma Impact Challenge на платформі Kaggle. Це хакатон із призовим фондом у 100 тисяч доларів, де розробники з усього світу зможуть запропонувати власні сценарії використання цих моделей для реальних потреб медицини.

Доступ до нових інструментів уже відкритий на Hugging Face та через платформу Vertex AI. Хоча ці моделі є потужною базою для розробки, автори наголошують: вони створені як фундамент для спеціалізованих рішень і потребують ретельної валідації перед використанням у реальній клінічній практиці.

Блок-схема, що описує передбачуване використання MedGemma як інструменту для розробників.

Читайте також: Рекомендуємо ознайомитися з іншими інноваціями у сфері генеративних моделей: Runway представляє Gen-4.5: новий рівень відеогенерації.

Володимир Дрозд

Володимир Дрозд — засновник та головний редактор AiNews UA. Автор понад 700 публікацій про штучний інтелект, великі мовні моделі (LLM), AI-агентів та сучасні AI-сервіси. Спеціалізується на новинах OpenAI, Google, Anthropic, xAI, Meta та локальних AI-моделях.