Google Research анонсував PASTA — інноваційного text-to-image агента, який не просто генерує зображення за промптом, а веде діалог із користувачем, уточнюючи деталі на кожному етапі. Такий підхід змінює саму філософію створення контенту, знімаючи потребу у нескінченних експериментах з формулюванням запитів.
🔍 Що таке PASTA
PASTA (Progressive Agent for Sequential Text-to-Image Alignment) — це система, яка навчається не на окремих парах «текст-картинка», а на повних сесіях взаємодії користувачів. Це дозволяє моделі враховувати логіку мислення людини та покращувати результат крок за кроком.
- 📘 Агент навчається на повних діалогах, а не окремих запитах.
- 📂 Відкрито датасет сесій користувачів із 7000+ прикладів.
- 🧠 Створено симулятор користувача для генерації ще 30 000 сесій.
- ⚙️ Використано метод Implicit Q-Learning (IQL) — підкріплене навчання для підвищення задоволеності користувача.
🧩 Як працює агент
На кожному етапі PASTA пропонує користувачу кілька уточнених варіантів промптів. Користувач обирає той, який ближче до бажаного результату, а система продовжує вдосконалення. Так створюється ефект «співтворчості» між людиною і ШІ.
Такий підхід робить процес не лише зручнішим, але й значно точнішим, оскільки модель вчиться адаптуватися під стиль, естетику й переваги кожного конкретного користувача.
🚀 Чим PASTA відрізняється від інших AI-моделей
- Ітераційне навчання — агент запам’ятовує історію діалогу, а не лише фінальний запит.
- Адаптація до смаку користувача — модель підлаштовується під стиль і вибір.
- Прозорість — користувач бачить усі кроки та може їх коригувати.
- Модульність — PASTA можна поєднати з будь-якою text-to-image системою (Stable Diffusion, DALL·E, Midjourney тощо).
📊 Результати дослідження
У тестах PASTA показав вищий рівень задоволеності користувачів, ніж стандартні генератори зображень. Комбінація реальних і симульованих даних дала найкращий баланс точності й різноманітності. Детальні результати можна переглянути в офіційній науковій публікації.
Поки що сам агент недоступний для публічного тестування, проте опубліковані дані й методика навчання відкривають шлях до створення нових «співрозмовних» AI-моделей, здатних творити разом із людиною.
PASTA може стати основою майбутніх генераторів, де штучний інтелект не просто виконує запит, а мислить і уточнює, створюючи ідеальний візуальний результат у співавторстві з людиною.
Залишити коментар