Дослідники з Google розробили метод, що дає змогу створювати мовні моделі AI, які водночас швидші та кращі, використовуючи незвичний підхід: надаючи меншим моделям навчання для більших.
Спільна команда з Google Research і DeepMind розробила метод навчання під назвою SALT (Small model aided large model training), який скорочує час навчання до 28 відсотків і водночас покращує продуктивність. То в чому ключова інновація? Використання менших мовних моделей як помічників-викладачів.

Процес відбувається у два етапи. Спочатку більша модель навчається у меншої моделі через процес, званий дистиляцією знань, за якого одна AI-модель навчає іншу, надаючи як свої відповіді, так і впевненість у цих відповідях. Зазвичай дистиляція знань передбачає, що більші моделі навчають менші, але команда Google виявила, що цей процес може працювати та навпаки – принаймні, на певних етапах навчання. На другому етапі більша модель переходить до звичайних методів навчання.
Менша модель особливо корисна в тих галузях, де вона вже робить надійні прогнози. Для цих простіших завдань велика модель навчається швидше і надійніше, перш ніж перейти до традиційного навчання для складніших завдань.
SALT може зробити навчання моделей AI доступнішим Команда протестувала SALT, використовуючи модель з 1,5 мільярдами параметрів для навчання моделі з 2,8 мільярдами параметрів. Результати були вражаючими: велика модель досягла своїх цільових показників продуктивності лише за 70 відсотків звичайного часу навчання, а потім продемонструвала найкращі результати на різних тестах.
Покращення особливо проявилися після донавчання для конкретних завдань. Для математичних завдань моделі, навчені за допомогою SALT, досягли точності 34,87 відсотка порівняно з 31,84 відсотка у моделей, навчених традиційним способом. Оцінки з розуміння прочитаного зросли з 63,7 відсотка до 67 відсотків.
Дослідники також створили вдосконалену версію під назвою SALTDS, яка ретельно відбирає тренувальні дані, фокусуючись на прикладах, в яких менша модель показує хороші результати.
Хоча SALT може допомогти створювати потужніші великі мовні моделі, він може бути особливо цінним для організацій з обмеженими ресурсами. Замість необхідності доступу до найбільших AI-моделей установи можуть використовувати SALT для розроблення спроможних мовних моделей з більш скромними обчислювальними потужностями, зазначила команда.
Залишити коментар