Що таке Open Source AI: нова версія визначення OSI

Open Source Initiative уже якийсь час працює над визначенням того, що можна називати Open Source AI. Днями вийшла оновлена версія документа – v. 0.0.9. У ній з’явилися абзац, що пояснює термін «ШІ-система», та уточнення того, що відкритість даних для навчання – параметр необов’язковий, але вкрай корисний.

Передумови появи документа

На поточний момент немає зафіксованої домовленості щодо того, що вважати за Open Source стосовно ШІ (Open Source AI Definition). Золоте правило з маніфесту GNU, що говорить «якщо мені подобається програма, то я повинен обмінюватися нею з іншими людьми, яким вона подобається», смутно підходить сучасним AI-системам. Що має бути «відкрито», щоб АІ-продукт вважався Open Source? Чи достатньо доступу до вже навченої моделі, як у випадку з Llama 2? Чи потрібно публікувати дані, на яких навчалася модель?

Розробникам і користувачам ШІ-інструментів важливі безперешкодне перевикористання вже готових рішень, можливість їхнього спільного поліпшення та інші переваги Open Source. Наявність чіткого визначення, що підходить під цю характеристику, а що ні, допоможе забезпечити потрібну індустрії ясність.

У OSI вже є документ, що визначає термін Open Source, і добірка ліцензій, які йому відповідають. Але Open Source AI Definition визначено не до кінця. Для розробки терміна OSI залучила велику групу дослідників, активістів, юристів та представників великих технологічних компаній. Також ідеї для кожної ітерації обговорюються зі спільнотою на конференціях і відкритих зустрічах.

Як OSI визначає ШІ-системи

Команда OSI вирішила, що Open Source-спільнота не повинна вигадувати своє визначення терміна «AI-система». Після розгляду наявних варіантів було обрано формулювання Організації економічного співробітництва та розвитку (OECD):

Система штучного інтелекту – це машинна система, здатна впливати на навколишнє середовище, створюючи рекомендації, прогнози або інші результати для певного набору цілей. Вона використовує машинне та/або людське введення/дані для:
сприйняття навколишнього середовища;
перетворення цього сприйняття в моделі;
формулювання варіантів результатів за допомогою моделі.
2022 OECD Framework for the Classification of AI systems

Головні зміни нової версії

З’явився детальний опис компонентів, які входять до «AI-моделі» та «AI-ваги». А в розділ «Що таке Open Source AI» додали два уточнення

Слово «система» тепер означає не тільки повноцінну структуру, а й окремі її частини – моделі, ваги та параметри.

Вимоги до того, щоб вважатися Open Source, однакові як для системи в цілому, так і для окремих її частин.

Після довгих обговорень обрали та підхід до того, чи обов’язково відкривати використовувані для навчання дані, щоб оцінити систему як Open Source. Вирішили, що найкращим виходом буде зробити цей параметр необов’язковим. А в FAQ з’явився поділ видів даних для навчання на відкриті, публічні та такі, що не підлягають поширенню.

Одна з проблем у тому, що часто закони, які дозволяють навчання на основі даних, часто обмежують їхнє повторне використання (наприклад, через авторське право або конфіденційність інформації про здоров’я).

Звичайно, у вимогах до Open Source AI прописано, що потрібно розкрити щонайменше «детальну інформацію про дані, використані для навчання системи». Ця інформація має поширюватися за однією з ліцензій, які відповідають вимогам OSI до Open Source. Такий підхід не суперечитиме законодавству і водночас дасть змогу охочим відтворити еквівалентну систему, використовуючи ті самі або аналогічні дані.

Думка спільноти

Найгарячіші суперечки у спільноті викликає саме частина про розкриття даних навчання.

Одні вважають, що визначення OSI навіть у поточному вигляді добре вплине на індустрію і дасть змогу «позначати» невідповідність моделі, що просувається як Open Source, реальним очікуванням інженерів і розробників. Інші знаходять документ «помилковим» і просять організацію не забирати поточні формулювання про дані для навчання в стабільну версію. Адже вони дозволять вендорам просто надавати «інформацію про дані», а не самі дані.

Що далі

OSI планує зарелізити стабільну версію документа до конференції All Things Open, яка відбудеться наприкінці жовтня цього року. До цього дискусія з Open Source-спільнотою та доопрацювання чернетки триватимуть. Ви можете зробити свій внесок в оновлення визначення: думкою можна поділитися на одній із майбутніх онлайн-зустрічей або на форумі.

Схожою діяльністю займається та Open Model Initiative, яка нещодавно приєдналася до Linux Foundation. Її команда теж запрошують інженерне співтовариство до діалогу, щоб у світі з’явилося більше моделей з відкритою ліцензією.