Нове дослідження припускає, що система штучного інтелекту o1-preview від OpenAI може бути кращою в діагностиці складних медичних випадків, ніж людські лікарі. Команда дослідників з Гарвардської медичної школи та Стенфордського університету провела всебічні тести медичної діагностики для o1-preview. Їхні результати показують, що система AI зробила чудові успіхи порівняно з попередніми версіями.

Згідно з дослідженням, o1-preview правильно діагностувала 78,3% усіх обстежених випадків. У прямому порівнянні 70 конкретних випадків система показала ще кращі результати, правильно діагностувавши 88,6% випадків, що значно перевершує її попередника GPT-4, який впорався з 72,9%.
Що стосується медичного мислення, продуктивність o1-preview була ще більш вражаючою. Використовуючи шкалу R-IDEA, стандартну міру для оцінки якості медичного мислення, система ШІ досягла ідеальних результатів у 78 з 80 випадків. Для порівняння, досвідчені лікарі досягли ідеальних результатів лише у 28 випадках, а медичні резиденти – лише у 16.
Дослідники визнають, що деякі тестові випадки могли бути включені в навчальні дані o1-preview. Однак, коли вони протестували систему на нових випадках, з якими вона ніколи не стикалася, її продуктивність знизилася лише незначно.
Один з авторів дослідження, доктор Адам Родман, наголошує на виняткових результатах в X: «Це перший раз, коли я просуваю один з наших препринтів (а не повне рецензоване дослідження), тож caveat emptor. Але я дійсно вважаю, що наші результати мають значення для медичної практики, тому я хотів представити їх якнайшвидше.»
Система AI дійсно проявила себе під час вирішення складних управлінських випадків, які 25 фахівців спеціально розробили, щоб бути важкими. «Люди, природно, зазнавали труднощів. Але o1 – вам не потрібні статистичні дані, щоб побачити, наскільки добре вона впоралася,» пояснює Родман.
У цих складних випадках o1-preview набрала 86% можливих балів. Це більш ніж удвічі більше, ніж лікарі досягли за допомогою GPT-4 (41%) або традиційних інструментів (34%).
Система, однак, не ідеальна. Вона зазнає труднощів з оцінкою ймовірностей, не показуючи реального поліпшення порівняно зі старішими моделями. Наприклад, при оцінці ймовірності пневмонії o1-preview припустила 70% – значно вище наукового діапазону 25-42%.
Дослідники виявили закономірність: у той час як система перевершує в завданнях, що вимагають критичного мислення, як-от постановка діагнозів і рекомендації щодо лікування, вона має проблеми з більш абстрактними викликами, як-от оцінка ймовірностей.
Вони також зазначають, що o1-preview схильна давати докладні відповіді, що могло підвищити її результати. Крім того, дослідження розглядало тільки роботу o1-preview поодинці, але не те, як вона може працювати разом із людськими лікарями.
Деякі критики стверджують, що запропоновані діагностичні тести від o1-preview часто занадто дорогі та непрактичні для використання в реальному світі.
Відтоді OpenAI випустила повну версію o1 та її наступника o3, які демонструють значно покращену продуктивність у задачах складного мислення, значно перевершуючи можливості o1-preview у тестах, що вимагають глибокого аналітичного мислення. Проте, навіть ці більш потужні моделі не вирішують основні проблеми, які критики піднімали щодо практичної реалізації та вартості. Наявність більш здібної системи AI не автоматично вирішує завдання її застосування в реальних умовах охорони здоров’я.
Родман застерігає від надмірного роздування результатів: «Це дослідження бенчмаркінгу. Хоча це ‘золоті стандарти’ оцінки мислення, які ми використовуємо для людських клініцистів, це, очевидно, не є реальним медичним обслуговуванням. Не позбувайтеся свого лікаря на користь o1.»
Дослідники кажуть, що нам потрібні кращі способи оцінки медичних систем AI. Множинний вибір питань не може вловити складність реального медичного прийняття рішень.
Вони закликають до розробки нових, більш практичних методів тестування, реальних клінічних випробувань, поліпшеної технічної інфраструктури та поліпшених способів спільної роботи людей і AI.
Залишити коментар