Штучний інтелект Llama3 отримала покращене розуміння мови

Розробники Llama3-s v0.2 поділилися поліпшеннями, які модель продемонструвала в тестах розуміння мови та здатності «слухати». У llama3-s v0.1 почали впроваджувати акустичні токени. У v0.2 реалізували злиття із семантичними токенами, які мають такі переваги, як простота, краще стиснення та послідовне вилучення ознак мови.

Спочатку модель пройшла попереднє навчання на прикладах реальної мови за допомогою експериментів із грубою абляцією. Це підвищило здатність llama3 узагальнювати семантичні токени.

Потім було використано набір даних MLS-10k, який включає 10 годин немаркованої багатомовної людської мови. За допомогою нього llama3.1 8b навчили передбачати наступний токен у послідовності.

Попереднє навчання включало 5 тисяч кроків і зайняло понад 30 годин. Розробники використовували повністю сегментовані паралелі даних Torchtune, оптимізатор AdamW Fused, а також такі параметри:

Після 5 тисяч кроків втрати сходилися на рівні трохи нижче за 2, після чого розробники перейшли на наступний етап.

Для навчання використовували один вузол 10x RTX A6000.

Для другого етапу навчання llama3 налаштовували за допомогою чергування синтетичних даних. Для цього було використано синтетично згенерований набір мовленнєвих даних, які семантично кодувалися за допомогою WhisperVQ з WhisperSpeech. Набір містив 70% підказок для мовних інструкцій і 30% підказок для транскрипції.

Налаштування виконання інструкцій виконували за допомогою оптимізатора AdamW Fused і планувальника навчання Cosine. Цей етап зайняв 32 години та включав 7261 крок. Його проводили із застосуванням Nvidia H100.

Обидва етапи навчання обійшлися менш ніж у $600, а весь експеримент коштував менш ніж $2800, враховуючи невдалі запуски через помилки та збої інфраструктури.

У тесті AudioBench для оцінки великих мовних моделей аудіо (AudioLLM), який вимірює мовні можливості, llama3-s v.02 досягла середнього бала 3,53 в оцінці ALPACA-Audio.

Модель усе ще перебуває на ранній стадії розроблення і чутлива до поганого стиснення вхідного звуку, не може слухати аудіо тривалістю понад 10 с, поки не навчена на шумі.