Meta* випускає модель штучного інтелекту, яка може перевіряти роботу інших ШІ-моделей

У п’ятницю компанія Meta* представила нову серію моделей штучного інтелекту (ШІ) від свого дослідницького підрозділу, включно з інструментом під назвою «Оцінювач, що самонавчається» (Self-Taught Evaluator). Цей інструмент може істотно скоротити участь людини в процесі розробки ШІ, пише Reuters.

Новий випуск послідував за серпневою статтею компанії, де докладно описувалося, як цей інструмент використовує техніку «ланцюжка міркувань» (chain of thought), що застосовується в моделях OpenAI, для надійної оцінки відповідей ШІ. Суть техніки полягає в тому, щоб розбивати складні завдання на послідовні логічні кроки. Це підвищує точність відповідей на складні запитання в таких галузях, як наука, програмування і математика.

Відмінною особливістю підходу компанії стало те, що вони використовували повністю згенеровані ШІ дані для навчання моделі-оцінювача, виключивши участь людини на цьому етапі. Така можливість, оцінювати ШІ за допомогою іншого ШІ, відкриває перспективу створення автономних агентів, які зможуть вчитися на власних помилках і розвиватися без втручання людини.

Багато хто в галузі ШІ бачить у таких агентах майбутнє: цифрові помічники, які будуть досить розумні, щоб виконувати широке коло завдань без участі людей. Моделі, що самонавчаються, можуть виключити необхідність у дорогому і трудомісткому процесі, відомому як «Навчання з підкріпленням з використанням людського зворотного зв’язку» (Reinforcement Learning from Human Feedback, RLHF). Цей метод вимагає участі експертів для маркування даних і перевірки відповідей на складні запити.

«Ми сподіваємося, що в міру розвитку ШІ він буде ставати дедалі кращим у самоперевірці, і зрештою його здібності перевершать людські,» – каже Джейсон Вестон, один із дослідників Meta*. «Здатність до самонавчання і самооцінки – ключ до досягнення надлюдського рівня ШІ.»

Інші компанії, як-от Google та Anthropic, також займаються дослідженнями в галузі RLAIF (Reinforcement Learning from AI Feedback), але, на відміну від Meta*, вони не публікують свої моделі для публічного використання.