Google додав у Gemini функцію генерації відео з фото та опису

Компанія Alphabet Inc. додає нову функцію до свого штучного інтелекту Gemini: тепер користувачі з платною підпискою зможуть перетворювати свої фотографії на короткі відео. Раніше цей інструмент був доступний обмеженій аудиторії

Фото: freepik.com

Як йдеться в офіційній заяві, починаючи з четверга, 10 липня 2025 року, цю можливість зможуть використовувати підписники тарифних планів Google AI Ultra та Pro у вибраних регіонах через вебверсію Gemini. Протягом тижня функцію поступово запустять і у мобільному застосунку Gemini.

Нова опція дозволяє створювати 8-секундні відео зі звуком на основі фотографії, а також текстового опису сцени, який можна ввести у відповідному полі. Відео генеруються у форматі MP4, з роздільною здатністю 720p та співвідношенням сторін 16:9 у горизонтальній орієнтації.

Це оновлення робить потужну функцію доступною через чат-інтерфейс Gemini, що допомагає Google не відставати від конкурентів із США, таких як OpenAI та Runway AI Inc. (стартап, що спеціалізується на відео, згенерованому ШІ). На глобальному ринку конкуренція також зростає: китайські компанії Alibaba Group, стартап Manus і платформа Kuaishou Technology останніми місяцями також випустили нові або оновлені відеоінструменти.

Функція перетворення фото на відео працює на базі Veo 3 — новітньої моделі генерації відео, яку Google представила у травні на щорічній конференції для розробників. Раніше доступ до Veo 3 мали лише користувачі окремого платного інструмента для створення відео під назвою Flow.

Читайте також: OpenAI готує запуск браузера з вбудованим ШІ

Google зазначає, що вжила «значних заходів за лаштунками», аби забезпечити відповідність відеогенерації етичним нормам. Наприклад, заборонено створювати відео з використанням зображень впізнаваних осіб, як-от знаменитостей, президентів або навіть відомих CEO. Також компанія блокує контент, що заохочує до небезпечної поведінки або підбурює до насильства чи цькування.

Втім, технологія має свої недоліки. Як з’ясувало видання Bloomberg News під час тестування вебверсії Gemini, у разі завантаження особистих фото та запиту на створення відео з людиною, яка говорить, ШІ іноді змінював риси обличчя або навіть расову належність зображеної особи.

Хоча інструмент вдало створював відео на основі простіших запитів — наприклад, рух рослин від вітру чи кота, що говорить, — із більш складними завданнями, як-от танець брейкданс, він не впорався. Замість цього створював відео, де людина просто махає в камеру.

У Google відповіли, що модель не має інструкцій змінювати зовнішність людини. За словами речника компанії, функції генерації відео та анімації облич — це ще нові технології, які можуть інтерпретувати окреме зображення таким чином, що результат не повністю відображає оригінал.

Натомість, як він зазначив, модель краще справляється з анімацією повсякденних предметів, малюнків і пейзажів. Компанія продовжить вдосконалювати цю технологію, зокрема й анімацію облич, у майбутніх оновленнях.

Ознайомтеся з іншими популярними матеріалами:

ШІ масово забирає роботу в початківців у різних галузях: що буде далі

Як криптотрейдери використовують ШІ: огляд можливостей, ризиків та сервісів

OpenAI анонсувала вихід нової моделі ChatGPT

За матеріалами bloomberg.com.

Джерело: https://psm7.com/uk/company/google/google-dodav-u-gemini-funkcziyu-generacziyi-video-z-foto-ta-opysu.html