Google DeepMind презентував нову версію своєї AI-моделі — Genie 3, яка здатна генерувати 3D-середовища, з якими можуть взаємодіяти як користувачі, так і AI-агенти в реальному часі. У компанії також обіцяють, що взаємодія зі світом стане тривалішою, ніж раніше, а сама модель буде запам’ятовувати, де знаходяться об’єкти, коли ви відводите від них погляд
Фото: deepmind.google
Такі моделі у компанії назвали «world», — це тип AI-систем, здатних симулювати середовища, зокрема для навчання, розваг або тренування роботів та інших AI-агентів. Такій моделі задається текстовий запит — і вона створює віртуальний простір, у якому можна пересуватись, як у відеогрі. Але на відміну від традиційних ігрових світів, створених вручну з 3D-об’єктів, усе генерується штучним інтелектом.
Це напрямок, у який Google активно інвестує: у грудні компанія показала Genie 2, яка могла створювати інтерактивні світи на основі зображення, і сформувала окрему команду розробників «world» моделей під керівництвом колишнього співкерівника інструменту генерації відео Sora від OpenAI.
«Однак на даний момент моделі мають багато недоліків. Наприклад, світи, створені Genie 2, можна було досліджувати лише до хвилини. Я нещодавно тестував «інтерактивне відео» від компанії, яку підтримує співзасновник Pixar, і це нагадувало розмиту версію Google Street View, де об’єкти змінювалися й викривлювались у найнесподіваніші способи», — написав Джей Пітерс, співробітник The Verge.
Читайте також: В Україні зʼявиться державна інфраструктура для ШІ
Genie 3, здається, є серйозним кроком уперед. За даними блогу Google, користувачі зможуть створювати світи, у яких буде доступно кілька хвилин безперервної взаємодії — проти 10-20 секунд у версії Genie 2. Genie 3 також зберігає візуальну пам’ять середовища приблизно на хвилину: якщо ви повернетеся до об’єкта після того, як відвернулись, наприклад, напис на дошці або фарба на стіні залишаться на своїх місцях. Роздільна здатність 3-D світів становить 720p, а частота — 24 кадри на секунду.
DeepMind також додає в Genie 3 так звані «події світу, що викликаються» (promptable world events): за допомогою текстового запиту можна буде змінювати погодні умови або додавати нових персонажів у віртуальний простір.
Втім, ця модель, найімовірніше, не буде доступна широкому загалу найближчим часом. Вона запускається у форматі «обмеженого наукового попереднього перегляду» для невеликої групи дослідників та креаторів, аби розробники краще зрозуміли ризики та методи їх пом’якшення, повідомляє Google.
Існує також низка обмежень: слабка взаємодія зі створеними світами та той факт, що читабельний текст часто з’являється лише тоді, коли він був частиною початкового опису. У Google додають, що вивчають можливості розширення доступу до Genie 3 для нових тестувальників у майбутньому.
Нещодавно Google DeepMind також запустила Gemini 2.5 Deep Think, яку компанія називає своєю найпросунутішою моделлю штучного інтелекту для логічних міркувань. Вона здатна відповідати на запитання, досліджуючи та розглядаючи одночасно кілька ідей, а потім використовуючи ці результати для вибору найкращої відповіді.
Раніше ми також писали, що компанія Ілона Маска xAI офіційно запустила Grok Imagine — генератор зображень і відео — для всіх підписників SuperGrok та Premium+ у застосунку X для iOS.
Ознайомтеся з іншими популярними матеріалами:
Microsoft назвала 40 професій, що постраждають через розвиток ШІ
Mastercard запустила ШІ-платформу для створення дизайну карток
Як криптотрейдери використовують ШІ: огляд можливостей, ризиків та сервісів
За матеріалами theverge.com.