Дані для тренування ШІ називають «новою нафтою». За прогнозами дослідницької групи Epoch AI, у період з 2026 по 2032 рік у розробників можуть закінчитися дані для навчання генеративних моделей ШІ. Можлива альтернатива – синтетичні дані, розмір ринку яких до 2030 року може становити $2,34 млрд.
Що це таке ❓
Синтетичні дані – це дані, згенеровані алгоритмами, що симулюють процеси реального світу. CEO OpenAI Сем Альтман вважає, що ШІ має з часом сам навчитися створювати якісні синтетичні дані для самонавчання.
⚙️ Для чого вони потрібні?
Синтетичні дані корисні для навчання ШІ в галузях, де складно отримати достатній датасет з причин обмежень конфіденційності або безпеки: розробка безпілотного транспорту, фінанси, охорона здоров’я. За допомогою синтетичних даних можна знизити упередженість ШІ-моделей. Синтетичні дані можна створювати за запитом, швидко і практично в необмеженому масштабі.
📎 Хто їх уже використовує?
Модель Llama 3.1 від Мета генерує синтетичні дані та використовує їх для розв’язання задач із програмування та математики. Синтетичні дані застосовують Toyota, Waymo, Amazon. Малі мовні моделі Phi від Microsoft і Gemma від Google також частково навчалися на таких даних. Nvidia нещодавно випустила модель Nemotron-4 340B Instruct, яка створює синтетичні дані, що імітують характеристики реальних.
🛡 Які є ризики?
Дані, згенеровані тільки алгоритмами, не завжди якісні, що може призвести до галюцинацій і навіть повного збою роботи ШІ. Тому вони потребують ретельної перевірки, на що теж потрібно чимало ресурсів. Рішенням можуть стати гібридні дані, що генеруються частково з використанням реальних даних.
Залишити коментар