Главная
IT/AI
Нейросети Google заново открывают генерацию видео

Нейросети Google заново открывают генерацию видео

Компания Google представила пространственно-временную диффузионную модель для генерации видео Lumiere. Ключевое отличие нейросети от существующих аналогов — архитектура U-Net, которая генерирует полнокадровый ролик за один проход.

Современные генераторы видео работают по принципу создания отдельных ключевых кадров. После этого отдельные модели генерируют недостающие данные между этими кадрами. Такой подход, называемый каскадным, экономит память, но имеет ограниченную способность генерации согласованных движений. Из-за ограниченной выборки ключевых кадров движение в видео искажается. Это, в свою очередь, приводит к накапливанию ошибок в процессе обучения нейросети.

В Lumiere Google применила другой подход. Новая система Text to video ((«текст в видео» — T2V) сразу генерирует полную временную продолжительность видео. Использующаяся для этого архитектура U-Net обучается понижать дискретизацию, то есть фрагментирование сигнала как в пространстве, так и во времени.

Благодаря этому можно генерировать 80 кадров и воспроизвести их со скоростью 16 кадров в секунду (около 5 секунд видео). Компактность вычислений во времени приводит к более плавному и естественному движению.

Lumiere создана поверх предварительно подготовленной модели Text to image ((«текст в изображение» — T2I). Она состоит из базовой системы генерации картинок, за которой следует каскад пространственного сверхразрешения (SSR). Обычно сеть SSR разбивает видео на не перекрывающие друг друга сегменты — окна — и объединяет результаты. Однако из-за этого могут возникнуть несогласованности в местах соединения окон.

Для того, чтобы избежать этого, разработчики используют мультидиффузию — подход, обеспечивающий непрерывность при генерации панорамных изображений. Мультидиффузия обеспечивает бесшовные переходы между сгенерированными сетью SSR окнами. В Google отметили, что сеть SSR требует очень высоких затрат памяти. Именно поэтому Lumiere генерирует короткие ролики.

Нейросеть может превращать в видео текст и статические изображения. Настраивая T2I-модель под разные стили, разработчики смогли добиться возможности стилизовать видео под запросы пользователя.

Lumiere также может работать с масками, благодаря чему способна анимировать только часть изображения или восстанавливать скрытые фрагменты видео. Кстати, последний навык дает Lumiere возможность менять детали созданного видео. Например, переодевать героев.

Команда Google отмечает, что основная цель создания Lumiere — дать начинающим пользователям возможность создавать визуальный контент творческим и гибким.

При этом разработчики понимают, что существуют определенные риски использования их технологии. Например, с помощью нейросети можно создать поддельный или вредоносный контент. Поэтому в Google призывают активно разрабатывать инструменты для выявления злонамеренного использования генеративного искусственного интеллекта.

Ранее «Мир робототехники» писал, что создатели нейросети Midjourney объявили о старте альфа-теста шестой версии системы (V6). По информации разработчиков, новинка будет лучше понимать текстовые подсказки. Кроме того, нейросеть научилась точнее отображать текст и поддерживает опцию деликатной настройки текстур или освещения.

#искусственный интеллект

Аркадий Гончаров

Фото: Lumiere

Нейросети Google заново открывают генерацию видео

В Новосибирске создана ИИ-система для распознавания траекторий быстрого движения

В Новгороде разработали ИИ для оценки роли туризма в экономике

В Новосибирске создана ИИ-система для распознавания траекторий быстрого движения

В Новгороде разработали ИИ для оценки роли туризма в экономике

Нейросети Google заново открывают генерацию видео

Мы рекомендуем:

«Алиса AI» возглавила рейтинг наиболее популярных ИИ-сервисов в России

В Новосибирске создана ИИ-система для распознавания траекторий быстрого движения

В Новгороде разработали ИИ для оценки роли туризма в экономике

Искусственный интеллект в будущем может заменить устные экзамены у школьников и студентов

В китайских ресторанах роботы составляют индивидуальное меню для посетителей и готовят блюда

В Новосибирске создана ИИ-система для распознавания траекторий быстрого движения

В Новгороде разработали ИИ для оценки роли туризма в экономике