Stability AI опублікувала відкриту модель Stable Audio для генерації музики

Stability AI опублікувала у відкритому доступі модель Stable Audio, призначену для генерації музики, звукових ефектів і оточення. Модель і ваги опублікували на платформі Hugging Face.

Stable Audio Open – відкрита модель у форматі Text-to-Audio, яка генерує 47-секундні музичні семпли та звукові ефекти. Наприклад, можна попросити нейромережу створити партію на фортепіано, барабанний біт, гітарний риф, спів солов’я чи шум дощу. Для генерації треба надіслати текстовий запит. Примітно, що користувачі можуть генерувати музику на своїх даних. Наприклад, барабанщик може завантажити записи своїх бітів і на їхній основі створювати нові.

У блозі компанії розповіли, що відкрита модель відрізняється від однойменної комерційної. Закрита версія Stable Audio може генерувати трихвилинні треки з проробленою структурою. Також підтримується режим Audio-to-Audio, в якому як запит можна передати вже готовий трек.

Відкриту модель Stable Audio Open навчили на даних сервісів FreeSound і Free Music Archive, що дало змогу дотриматися всіх вимог до авторських прав. При цьому для доступу до нейромережі все одно необхідно ознайомитися з ліцензією використання. Модель і вагу опубліковано на Hugging Face.