";123 Array
(
    [NAME] => Нейросети Google заново открывают генерацию видео
    [~NAME] => Нейросети Google заново открывают генерацию видео
    [TAGS] => искусственный интеллект
    [~TAGS] => искусственный интеллект
    [PREVIEW_TEXT] => 

Компания Google представила пространственно-временную диффузионную модель для генерации видео Lumiere. Ключевое отличие нейросети от существующих аналогов — архитектура U-Net, которая генерирует полнокадровый ролик за один проход.

[~PREVIEW_TEXT] =>

Компания Google представила пространственно-временную диффузионную модель для генерации видео Lumiere. Ключевое отличие нейросети от существующих аналогов — архитектура U-Net, которая генерирует полнокадровый ролик за один проход.

[PREVIEW_PICTURE] => Array ( [ID] => 772 [TIMESTAMP_X] => 20.02.2024 12:20:09 [MODULE_ID] => iblock [HEIGHT] => 654 [WIDTH] => 1024 [FILE_SIZE] => 115251 [CONTENT_TYPE] => image/jpeg [SUBDIR] => iblock/5c9/w9sg2n8tlmw995jc9md06ygx2jfi1zs7 [FILE_NAME] => LUMIERE.jpg [ORIGINAL_NAME] => LUMIERE.jpg [DESCRIPTION] => [HANDLER_ID] => [EXTERNAL_ID] => c9f263d380a97e55f530efb8d0cbbf8b [VERSION_ORIGINAL_ID] => [META] => [SRC] => /upload/iblock/5c9/w9sg2n8tlmw995jc9md06ygx2jfi1zs7/LUMIERE.jpg [UNSAFE_SRC] => /upload/iblock/5c9/w9sg2n8tlmw995jc9md06ygx2jfi1zs7/LUMIERE.jpg [SAFE_SRC] => /upload/iblock/5c9/w9sg2n8tlmw995jc9md06ygx2jfi1zs7/LUMIERE.jpg [ALT] => Нейросети Google заново открывают генерацию видео [TITLE] => Нейросети Google заново открывают генерацию видео ) [~PREVIEW_PICTURE] => 772 [DETAIL_TEXT] =>

Современные генераторы видео работают по принципу создания отдельных ключевых кадров. После этого отдельные модели генерируют недостающие данные между этими кадрами. Такой подход, называемый каскадным, экономит память, но имеет ограниченную способность генерации согласованных движений. Из-за ограниченной выборки ключевых кадров движение в видео искажается. Это, в свою очередь, приводит к накапливанию ошибок в процессе обучения нейросети.

В Lumiere Google применила другой подход. Новая система Text to video ((«текст в видео» — T2V) сразу генерирует полную временную продолжительность видео. Использующаяся для этого архитектура U-Net обучается понижать дискретизацию, то есть фрагментирование сигнала как в пространстве, так и во времени.

Благодаря этому можно генерировать 80 кадров и воспроизвести их со скоростью 16 кадров в секунду (около 5 секунд видео). Компактность вычислений во времени приводит к более плавному и естественному движению.

Lumiere создана поверх предварительно подготовленной модели Text to image ((«текст в изображение» — T2I). Она состоит из базовой системы генерации картинок, за которой следует каскад пространственного сверхразрешения (SSR). Обычно сеть SSR разбивает видео на не перекрывающие друг друга сегменты — окна — и объединяет результаты. Однако из-за этого могут возникнуть несогласованности в местах соединения окон.

Для того, чтобы избежать этого, разработчики используют мультидиффузию — подход, обеспечивающий непрерывность при генерации панорамных изображений. Мультидиффузия обеспечивает бесшовные переходы между сгенерированными сетью SSR окнами. В Google отметили, что сеть SSR требует очень высоких затрат памяти. Именно поэтому Lumiere генерирует короткие ролики.

Нейросеть может превращать в видео текст и статические изображения. Настраивая T2I-модель под разные стили, разработчики смогли добиться возможности стилизовать видео под запросы пользователя. 

Lumiere также может работать с масками, благодаря чему способна анимировать только часть изображения или восстанавливать скрытые фрагменты видео. Кстати, последний навык дает Lumiere возможность менять детали созданного видео. Например, переодевать героев.

Команда Google отмечает, что основная цель создания Lumiere — дать начинающим пользователям возможность создавать визуальный контент творческим и гибким.

При этом разработчики понимают, что существуют определенные риски использования их технологии. Например, с помощью нейросети можно создать поддельный или вредоносный контент. Поэтому в Google призывают активно разрабатывать инструменты для выявления злонамеренного использования генеративного искусственного интеллекта.

Ранее «Мир робототехники» писал, что создатели нейросети Midjourney объявили о старте альфа-теста шестой версии системы (V6). По информации разработчиков, новинка будет лучше понимать текстовые подсказки. Кроме того, нейросеть научилась точнее отображать текст и поддерживает опцию деликатной настройки текстур или освещения.

[~DETAIL_TEXT] =>

Современные генераторы видео работают по принципу создания отдельных ключевых кадров. После этого отдельные модели генерируют недостающие данные между этими кадрами. Такой подход, называемый каскадным, экономит память, но имеет ограниченную способность генерации согласованных движений. Из-за ограниченной выборки ключевых кадров движение в видео искажается. Это, в свою очередь, приводит к накапливанию ошибок в процессе обучения нейросети.

В Lumiere Google применила другой подход. Новая система Text to video ((«текст в видео» — T2V) сразу генерирует полную временную продолжительность видео. Использующаяся для этого архитектура U-Net обучается понижать дискретизацию, то есть фрагментирование сигнала как в пространстве, так и во времени.

Благодаря этому можно генерировать 80 кадров и воспроизвести их со скоростью 16 кадров в секунду (около 5 секунд видео). Компактность вычислений во времени приводит к более плавному и естественному движению.

Lumiere создана поверх предварительно подготовленной модели Text to image ((«текст в изображение» — T2I). Она состоит из базовой системы генерации картинок, за которой следует каскад пространственного сверхразрешения (SSR). Обычно сеть SSR разбивает видео на не перекрывающие друг друга сегменты — окна — и объединяет результаты. Однако из-за этого могут возникнуть несогласованности в местах соединения окон.

Для того, чтобы избежать этого, разработчики используют мультидиффузию — подход, обеспечивающий непрерывность при генерации панорамных изображений. Мультидиффузия обеспечивает бесшовные переходы между сгенерированными сетью SSR окнами. В Google отметили, что сеть SSR требует очень высоких затрат памяти. Именно поэтому Lumiere генерирует короткие ролики.

Нейросеть может превращать в видео текст и статические изображения. Настраивая T2I-модель под разные стили, разработчики смогли добиться возможности стилизовать видео под запросы пользователя. 

Lumiere также может работать с масками, благодаря чему способна анимировать только часть изображения или восстанавливать скрытые фрагменты видео. Кстати, последний навык дает Lumiere возможность менять детали созданного видео. Например, переодевать героев.

Команда Google отмечает, что основная цель создания Lumiere — дать начинающим пользователям возможность создавать визуальный контент творческим и гибким.

При этом разработчики понимают, что существуют определенные риски использования их технологии. Например, с помощью нейросети можно создать поддельный или вредоносный контент. Поэтому в Google призывают активно разрабатывать инструменты для выявления злонамеренного использования генеративного искусственного интеллекта.

Ранее «Мир робототехники» писал, что создатели нейросети Midjourney объявили о старте альфа-теста шестой версии системы (V6). По информации разработчиков, новинка будет лучше понимать текстовые подсказки. Кроме того, нейросеть научилась точнее отображать текст и поддерживает опцию деликатной настройки текстур или освещения.

[DETAIL_PICTURE] => Array ( [ID] => 773 [TIMESTAMP_X] => 20.02.2024 12:20:09 [MODULE_ID] => iblock [HEIGHT] => 1023 [WIDTH] => 1600 [FILE_SIZE] => 125851 [CONTENT_TYPE] => image/jpeg [SUBDIR] => iblock/e19/01p9j3ddu4h99mv65rqoiai2jigwwgd0 [FILE_NAME] => LUMIERE.jpg [ORIGINAL_NAME] => LUMIERE.jpg [DESCRIPTION] => [HANDLER_ID] => [EXTERNAL_ID] => 0b6ea13fb00b1519c912c026207eb0be [VERSION_ORIGINAL_ID] => [META] => [SRC] => /upload/iblock/e19/01p9j3ddu4h99mv65rqoiai2jigwwgd0/LUMIERE.jpg [UNSAFE_SRC] => /upload/iblock/e19/01p9j3ddu4h99mv65rqoiai2jigwwgd0/LUMIERE.jpg [SAFE_SRC] => /upload/iblock/e19/01p9j3ddu4h99mv65rqoiai2jigwwgd0/LUMIERE.jpg [ALT] => Нейросети Google заново открывают генерацию видео [TITLE] => Нейросети Google заново открывают генерацию видео ) [~DETAIL_PICTURE] => 773 [DATE_ACTIVE_FROM] => 29.01.2024 [~DATE_ACTIVE_FROM] => 29.01.2024 [ID] => 333 [~ID] => 333 [IBLOCK_ID] => 1 [~IBLOCK_ID] => 1 [IBLOCK_SECTION_ID] => 9 [~IBLOCK_SECTION_ID] => 9 [DETAIL_TEXT_TYPE] => html [~DETAIL_TEXT_TYPE] => html [PREVIEW_TEXT_TYPE] => html [~PREVIEW_TEXT_TYPE] => html [TIMESTAMP_X] => 20.02.2024 12:20:09 [~TIMESTAMP_X] => 20.02.2024 12:20:09 [ACTIVE_FROM_X] => 2024-01-29 00:00:00 [~ACTIVE_FROM_X] => 2024-01-29 00:00:00 [ACTIVE_FROM] => 29.01.2024 [~ACTIVE_FROM] => 29.01.2024 [LIST_PAGE_URL] => / [~LIST_PAGE_URL] => / [DETAIL_PAGE_URL] => /it-ai/neyroseti-google-zanovo-otkryvayut-generatsiyu-video/ [~DETAIL_PAGE_URL] => /it-ai/neyroseti-google-zanovo-otkryvayut-generatsiyu-video/ [LANG_DIR] => / [~LANG_DIR] => / [CODE] => neyroseti-google-zanovo-otkryvayut-generatsiyu-video [~CODE] => neyroseti-google-zanovo-otkryvayut-generatsiyu-video [EXTERNAL_ID] => 333 [~EXTERNAL_ID] => 333 [IBLOCK_TYPE_ID] => news [~IBLOCK_TYPE_ID] => news [IBLOCK_CODE] => news_s1 [~IBLOCK_CODE] => news_s1 [IBLOCK_EXTERNAL_ID] => furniture_news_s1 [~IBLOCK_EXTERNAL_ID] => furniture_news_s1 [LID] => s1 [~LID] => s1 [NAV_RESULT] => [NAV_CACHED_DATA] => [DISPLAY_ACTIVE_FROM] => 29.01.2024 [IPROPERTY_VALUES] => Array ( [SECTION_META_TITLE] => Нейросети Google заново открывают генерацию видео [ELEMENT_META_TITLE] => Нейросети Google заново открывают генерацию видео ) [FIELDS] => Array ( [NAME] => Нейросети Google заново открывают генерацию видео [TAGS] => искусственный интеллект [PREVIEW_TEXT] =>

Компания Google представила пространственно-временную диффузионную модель для генерации видео Lumiere. Ключевое отличие нейросети от существующих аналогов — архитектура U-Net, которая генерирует полнокадровый ролик за один проход.

[PREVIEW_PICTURE] => Array ( [ID] => 772 [TIMESTAMP_X] => 20.02.2024 12:20:09 [MODULE_ID] => iblock [HEIGHT] => 654 [WIDTH] => 1024 [FILE_SIZE] => 115251 [CONTENT_TYPE] => image/jpeg [SUBDIR] => iblock/5c9/w9sg2n8tlmw995jc9md06ygx2jfi1zs7 [FILE_NAME] => LUMIERE.jpg [ORIGINAL_NAME] => LUMIERE.jpg [DESCRIPTION] => [HANDLER_ID] => [EXTERNAL_ID] => c9f263d380a97e55f530efb8d0cbbf8b [VERSION_ORIGINAL_ID] => [META] => [SRC] => /upload/iblock/5c9/w9sg2n8tlmw995jc9md06ygx2jfi1zs7/LUMIERE.jpg [UNSAFE_SRC] => /upload/iblock/5c9/w9sg2n8tlmw995jc9md06ygx2jfi1zs7/LUMIERE.jpg [SAFE_SRC] => /upload/iblock/5c9/w9sg2n8tlmw995jc9md06ygx2jfi1zs7/LUMIERE.jpg [ALT] => Нейросети Google заново открывают генерацию видео [TITLE] => Нейросети Google заново открывают генерацию видео ) [DETAIL_TEXT] =>

Современные генераторы видео работают по принципу создания отдельных ключевых кадров. После этого отдельные модели генерируют недостающие данные между этими кадрами. Такой подход, называемый каскадным, экономит память, но имеет ограниченную способность генерации согласованных движений. Из-за ограниченной выборки ключевых кадров движение в видео искажается. Это, в свою очередь, приводит к накапливанию ошибок в процессе обучения нейросети.

В Lumiere Google применила другой подход. Новая система Text to video ((«текст в видео» — T2V) сразу генерирует полную временную продолжительность видео. Использующаяся для этого архитектура U-Net обучается понижать дискретизацию, то есть фрагментирование сигнала как в пространстве, так и во времени.

Благодаря этому можно генерировать 80 кадров и воспроизвести их со скоростью 16 кадров в секунду (около 5 секунд видео). Компактность вычислений во времени приводит к более плавному и естественному движению.

Lumiere создана поверх предварительно подготовленной модели Text to image ((«текст в изображение» — T2I). Она состоит из базовой системы генерации картинок, за которой следует каскад пространственного сверхразрешения (SSR). Обычно сеть SSR разбивает видео на не перекрывающие друг друга сегменты — окна — и объединяет результаты. Однако из-за этого могут возникнуть несогласованности в местах соединения окон.

Для того, чтобы избежать этого, разработчики используют мультидиффузию — подход, обеспечивающий непрерывность при генерации панорамных изображений. Мультидиффузия обеспечивает бесшовные переходы между сгенерированными сетью SSR окнами. В Google отметили, что сеть SSR требует очень высоких затрат памяти. Именно поэтому Lumiere генерирует короткие ролики.

Нейросеть может превращать в видео текст и статические изображения. Настраивая T2I-модель под разные стили, разработчики смогли добиться возможности стилизовать видео под запросы пользователя. 

Lumiere также может работать с масками, благодаря чему способна анимировать только часть изображения или восстанавливать скрытые фрагменты видео. Кстати, последний навык дает Lumiere возможность менять детали созданного видео. Например, переодевать героев.

Команда Google отмечает, что основная цель создания Lumiere — дать начинающим пользователям возможность создавать визуальный контент творческим и гибким.

При этом разработчики понимают, что существуют определенные риски использования их технологии. Например, с помощью нейросети можно создать поддельный или вредоносный контент. Поэтому в Google призывают активно разрабатывать инструменты для выявления злонамеренного использования генеративного искусственного интеллекта.

Ранее «Мир робототехники» писал, что создатели нейросети Midjourney объявили о старте альфа-теста шестой версии системы (V6). По информации разработчиков, новинка будет лучше понимать текстовые подсказки. Кроме того, нейросеть научилась точнее отображать текст и поддерживает опцию деликатной настройки текстур или освещения.

[DETAIL_PICTURE] => Array ( [ID] => 773 [TIMESTAMP_X] => 20.02.2024 12:20:09 [MODULE_ID] => iblock [HEIGHT] => 1023 [WIDTH] => 1600 [FILE_SIZE] => 125851 [CONTENT_TYPE] => image/jpeg [SUBDIR] => iblock/e19/01p9j3ddu4h99mv65rqoiai2jigwwgd0 [FILE_NAME] => LUMIERE.jpg [ORIGINAL_NAME] => LUMIERE.jpg [DESCRIPTION] => [HANDLER_ID] => [EXTERNAL_ID] => 0b6ea13fb00b1519c912c026207eb0be [VERSION_ORIGINAL_ID] => [META] => [SRC] => /upload/iblock/e19/01p9j3ddu4h99mv65rqoiai2jigwwgd0/LUMIERE.jpg [UNSAFE_SRC] => /upload/iblock/e19/01p9j3ddu4h99mv65rqoiai2jigwwgd0/LUMIERE.jpg [SAFE_SRC] => /upload/iblock/e19/01p9j3ddu4h99mv65rqoiai2jigwwgd0/LUMIERE.jpg [ALT] => Нейросети Google заново открывают генерацию видео [TITLE] => Нейросети Google заново открывают генерацию видео ) [DATE_ACTIVE_FROM] => 29.01.2024 ) [PROPERTIES] => Array ( [AUTHOR] => Array ( [ID] => 9 [TIMESTAMP_X] => 2024-04-16 13:42:26 [IBLOCK_ID] => 1 [NAME] => Автор статьи [ACTIVE] => Y [SORT] => 500 [CODE] => AUTHOR [DEFAULT_VALUE] => [PROPERTY_TYPE] => S [ROW_COUNT] => 1 [COL_COUNT] => 30 [LIST_TYPE] => L [MULTIPLE] => N [XML_ID] => [FILE_TYPE] => [MULTIPLE_CNT] => 5 [TMP_ID] => [LINK_IBLOCK_ID] => 0 [WITH_DESCRIPTION] => N [SEARCHABLE] => N [FILTRABLE] => N [IS_REQUIRED] => N [VERSION] => 1 [USER_TYPE] => [USER_TYPE_SETTINGS] => a:0:{} [HINT] => [PROPERTY_VALUE_ID] => 1143 [VALUE] => Аркадий Гончаров [DESCRIPTION] => [VALUE_ENUM] => [VALUE_XML_ID] => [VALUE_SORT] => [~VALUE] => Аркадий Гончаров [~DESCRIPTION] => [~NAME] => Автор статьи [~DEFAULT_VALUE] => ) [AU_PHOTO] => Array ( [ID] => 10 [TIMESTAMP_X] => 2024-04-16 13:42:26 [IBLOCK_ID] => 1 [NAME] => Автор фото [ACTIVE] => Y [SORT] => 500 [CODE] => AU_PHOTO [DEFAULT_VALUE] => [PROPERTY_TYPE] => S [ROW_COUNT] => 1 [COL_COUNT] => 30 [LIST_TYPE] => L [MULTIPLE] => N [XML_ID] => [FILE_TYPE] => [MULTIPLE_CNT] => 5 [TMP_ID] => [LINK_IBLOCK_ID] => 0 [WITH_DESCRIPTION] => N [SEARCHABLE] => N [FILTRABLE] => N [IS_REQUIRED] => N [VERSION] => 1 [USER_TYPE] => [USER_TYPE_SETTINGS] => a:0:{} [HINT] => [PROPERTY_VALUE_ID] => 1144 [VALUE] => Lumiere [DESCRIPTION] => [VALUE_ENUM] => [VALUE_XML_ID] => [VALUE_SORT] => [~VALUE] => Lumiere [~DESCRIPTION] => [~NAME] => Автор фото [~DEFAULT_VALUE] => ) [IMG_MAIN] => Array ( [ID] => 11 [TIMESTAMP_X] => 2024-04-16 13:42:26 [IBLOCK_ID] => 1 [NAME] => Картинка для Главной [ACTIVE] => Y [SORT] => 500 [CODE] => IMG_MAIN [DEFAULT_VALUE] => [PROPERTY_TYPE] => F [ROW_COUNT] => 1 [COL_COUNT] => 30 [LIST_TYPE] => L [MULTIPLE] => N [XML_ID] => [FILE_TYPE] => [MULTIPLE_CNT] => 5 [TMP_ID] => [LINK_IBLOCK_ID] => 0 [WITH_DESCRIPTION] => N [SEARCHABLE] => N [FILTRABLE] => N [IS_REQUIRED] => N [VERSION] => 1 [USER_TYPE] => [USER_TYPE_SETTINGS] => a:0:{} [HINT] => [PROPERTY_VALUE_ID] => 1145 [VALUE] => 774 [DESCRIPTION] => [VALUE_ENUM] => [VALUE_XML_ID] => [VALUE_SORT] => [~VALUE] => 774 [~DESCRIPTION] => [~NAME] => Картинка для Главной [~DEFAULT_VALUE] => ) [MAIN_THEME] => Array ( [ID] => 12 [TIMESTAMP_X] => 2024-04-16 13:42:26 [IBLOCK_ID] => 1 [NAME] => Главная тема [ACTIVE] => Y [SORT] => 500 [CODE] => MAIN_THEME [DEFAULT_VALUE] => [PROPERTY_TYPE] => L [ROW_COUNT] => 1 [COL_COUNT] => 30 [LIST_TYPE] => L [MULTIPLE] => N [XML_ID] => [FILE_TYPE] => [MULTIPLE_CNT] => 5 [TMP_ID] => [LINK_IBLOCK_ID] => 0 [WITH_DESCRIPTION] => N [SEARCHABLE] => N [FILTRABLE] => N [IS_REQUIRED] => N [VERSION] => 1 [USER_TYPE] => [USER_TYPE_SETTINGS] => a:0:{} [HINT] => [PROPERTY_VALUE_ID] => [VALUE] => [DESCRIPTION] => [VALUE_ENUM] => [VALUE_XML_ID] => [VALUE_SORT] => [VALUE_ENUM_ID] => [~VALUE] => [~DESCRIPTION] => [~NAME] => Главная тема [~DEFAULT_VALUE] => ) [MAIN_SECT] => Array ( [ID] => 13 [TIMESTAMP_X] => 2024-04-16 13:42:26 [IBLOCK_ID] => 1 [NAME] => В своём разделе [ACTIVE] => Y [SORT] => 500 [CODE] => MAIN_SECT [DEFAULT_VALUE] => [PROPERTY_TYPE] => L [ROW_COUNT] => 1 [COL_COUNT] => 30 [LIST_TYPE] => L [MULTIPLE] => N [XML_ID] => [FILE_TYPE] => [MULTIPLE_CNT] => 5 [TMP_ID] => [LINK_IBLOCK_ID] => 0 [WITH_DESCRIPTION] => N [SEARCHABLE] => N [FILTRABLE] => N [IS_REQUIRED] => N [VERSION] => 1 [USER_TYPE] => [USER_TYPE_SETTINGS] => a:0:{} [HINT] => [PROPERTY_VALUE_ID] => [VALUE] => [DESCRIPTION] => [VALUE_ENUM] => [VALUE_XML_ID] => [VALUE_SORT] => [VALUE_ENUM_ID] => [~VALUE] => [~DESCRIPTION] => [~NAME] => В своём разделе [~DEFAULT_VALUE] => ) [VIDEO_YOU] => Array ( [ID] => 14 [TIMESTAMP_X] => 2024-04-16 13:42:26 [IBLOCK_ID] => 1 [NAME] => Видео youtobe [ACTIVE] => Y [SORT] => 500 [CODE] => VIDEO_YOU [DEFAULT_VALUE] => [PROPERTY_TYPE] => S [ROW_COUNT] => 1 [COL_COUNT] => 30 [LIST_TYPE] => L [MULTIPLE] => N [XML_ID] => [FILE_TYPE] => [MULTIPLE_CNT] => 5 [TMP_ID] => [LINK_IBLOCK_ID] => 0 [WITH_DESCRIPTION] => N [SEARCHABLE] => N [FILTRABLE] => N [IS_REQUIRED] => N [VERSION] => 1 [USER_TYPE] => [USER_TYPE_SETTINGS] => a:0:{} [HINT] => [PROPERTY_VALUE_ID] => [VALUE] => [DESCRIPTION] => [VALUE_ENUM] => [VALUE_XML_ID] => [VALUE_SORT] => [~VALUE] => [~DESCRIPTION] => [~NAME] => Видео youtobe [~DEFAULT_VALUE] => ) ) [DISPLAY_PROPERTIES] => Array ( [AUTHOR] => Array ( [ID] => 9 [TIMESTAMP_X] => 2024-04-16 13:42:26 [IBLOCK_ID] => 1 [NAME] => Автор статьи [ACTIVE] => Y [SORT] => 500 [CODE] => AUTHOR [DEFAULT_VALUE] => [PROPERTY_TYPE] => S [ROW_COUNT] => 1 [COL_COUNT] => 30 [LIST_TYPE] => L [MULTIPLE] => N [XML_ID] => [FILE_TYPE] => [MULTIPLE_CNT] => 5 [TMP_ID] => [LINK_IBLOCK_ID] => 0 [WITH_DESCRIPTION] => N [SEARCHABLE] => N [FILTRABLE] => N [IS_REQUIRED] => N [VERSION] => 1 [USER_TYPE] => [USER_TYPE_SETTINGS] => a:0:{} [HINT] => [PROPERTY_VALUE_ID] => 1143 [VALUE] => Аркадий Гончаров [DESCRIPTION] => [VALUE_ENUM] => [VALUE_XML_ID] => [VALUE_SORT] => [~VALUE] => Аркадий Гончаров [~DESCRIPTION] => [~NAME] => Автор статьи [~DEFAULT_VALUE] => [DISPLAY_VALUE] => Аркадий Гончаров ) [AU_PHOTO] => Array ( [ID] => 10 [TIMESTAMP_X] => 2024-04-16 13:42:26 [IBLOCK_ID] => 1 [NAME] => Автор фото [ACTIVE] => Y [SORT] => 500 [CODE] => AU_PHOTO [DEFAULT_VALUE] => [PROPERTY_TYPE] => S [ROW_COUNT] => 1 [COL_COUNT] => 30 [LIST_TYPE] => L [MULTIPLE] => N [XML_ID] => [FILE_TYPE] => [MULTIPLE_CNT] => 5 [TMP_ID] => [LINK_IBLOCK_ID] => 0 [WITH_DESCRIPTION] => N [SEARCHABLE] => N [FILTRABLE] => N [IS_REQUIRED] => N [VERSION] => 1 [USER_TYPE] => [USER_TYPE_SETTINGS] => a:0:{} [HINT] => [PROPERTY_VALUE_ID] => 1144 [VALUE] => Lumiere [DESCRIPTION] => [VALUE_ENUM] => [VALUE_XML_ID] => [VALUE_SORT] => [~VALUE] => Lumiere [~DESCRIPTION] => [~NAME] => Автор фото [~DEFAULT_VALUE] => [DISPLAY_VALUE] => Lumiere ) ) [IBLOCK] => Array ( [ID] => 1 [~ID] => 1 [TIMESTAMP_X] => 16.04.2024 13:42:26 [~TIMESTAMP_X] => 16.04.2024 13:42:26 [IBLOCK_TYPE_ID] => news [~IBLOCK_TYPE_ID] => news [LID] => s1 [~LID] => s1 [CODE] => news_s1 [~CODE] => news_s1 [API_CODE] => [~API_CODE] => [REST_ON] => N [~REST_ON] => N [NAME] => Статьи [~NAME] => Статьи [ACTIVE] => Y [~ACTIVE] => Y [SORT] => 500 [~SORT] => 500 [LIST_PAGE_URL] => [~LIST_PAGE_URL] => [DETAIL_PAGE_URL] => #SITE_DIR#/#SECTION_CODE#/#ELEMENT_CODE#/ [~DETAIL_PAGE_URL] => #SITE_DIR#/#SECTION_CODE#/#ELEMENT_CODE#/ [SECTION_PAGE_URL] => #SITE_DIR#/#SECTION_CODE# [~SECTION_PAGE_URL] => #SITE_DIR#/#SECTION_CODE# [CANONICAL_PAGE_URL] => [~CANONICAL_PAGE_URL] => [PICTURE] => [~PICTURE] => [DESCRIPTION] => [~DESCRIPTION] => [DESCRIPTION_TYPE] => text [~DESCRIPTION_TYPE] => text [RSS_TTL] => 24 [~RSS_TTL] => 24 [RSS_ACTIVE] => Y [~RSS_ACTIVE] => Y [RSS_FILE_ACTIVE] => N [~RSS_FILE_ACTIVE] => N [RSS_FILE_LIMIT] => [~RSS_FILE_LIMIT] => [RSS_FILE_DAYS] => [~RSS_FILE_DAYS] => [RSS_YANDEX_ACTIVE] => N [~RSS_YANDEX_ACTIVE] => N [XML_ID] => furniture_news_s1 [~XML_ID] => furniture_news_s1 [TMP_ID] => 6cfbdd5e02a2f38f8bf51afa68b2792c [~TMP_ID] => 6cfbdd5e02a2f38f8bf51afa68b2792c [INDEX_ELEMENT] => Y [~INDEX_ELEMENT] => Y [INDEX_SECTION] => Y [~INDEX_SECTION] => Y [WORKFLOW] => N [~WORKFLOW] => N [BIZPROC] => N [~BIZPROC] => N [SECTION_CHOOSER] => L [~SECTION_CHOOSER] => L [LIST_MODE] => [~LIST_MODE] => [RIGHTS_MODE] => S [~RIGHTS_MODE] => S [SECTION_PROPERTY] => N [~SECTION_PROPERTY] => N [PROPERTY_INDEX] => N [~PROPERTY_INDEX] => N [VERSION] => 1 [~VERSION] => 1 [LAST_CONV_ELEMENT] => 0 [~LAST_CONV_ELEMENT] => 0 [SOCNET_GROUP_ID] => [~SOCNET_GROUP_ID] => [EDIT_FILE_BEFORE] => [~EDIT_FILE_BEFORE] => [EDIT_FILE_AFTER] => [~EDIT_FILE_AFTER] => [SECTIONS_NAME] => Разделы [~SECTIONS_NAME] => Разделы [SECTION_NAME] => Раздел [~SECTION_NAME] => Раздел [ELEMENTS_NAME] => Статьи [~ELEMENTS_NAME] => Статьи [ELEMENT_NAME] => Статья [~ELEMENT_NAME] => Статья [EXTERNAL_ID] => furniture_news_s1 [~EXTERNAL_ID] => furniture_news_s1 [LANG_DIR] => / [~LANG_DIR] => / [SERVER_NAME] => roboticsworld.ru [~SERVER_NAME] => roboticsworld.ru ) [SECTION] => Array ( [PATH] => Array ( [0] => Array ( [ID] => 9 [~ID] => 9 [CODE] => it-ai [~CODE] => it-ai [XML_ID] => [~XML_ID] => [EXTERNAL_ID] => [~EXTERNAL_ID] => [IBLOCK_ID] => 1 [~IBLOCK_ID] => 1 [IBLOCK_SECTION_ID] => [~IBLOCK_SECTION_ID] => [SORT] => 300 [~SORT] => 300 [NAME] => IT/AI [~NAME] => IT/AI [ACTIVE] => Y [~ACTIVE] => Y [DEPTH_LEVEL] => 1 [~DEPTH_LEVEL] => 1 [SECTION_PAGE_URL] => /it-ai [~SECTION_PAGE_URL] => /it-ai [IBLOCK_TYPE_ID] => news [~IBLOCK_TYPE_ID] => news [IBLOCK_CODE] => news_s1 [~IBLOCK_CODE] => news_s1 [IBLOCK_EXTERNAL_ID] => furniture_news_s1 [~IBLOCK_EXTERNAL_ID] => furniture_news_s1 [GLOBAL_ACTIVE] => Y [~GLOBAL_ACTIVE] => Y [IPROPERTY_VALUES] => Array ( [SECTION_META_TITLE] => IT/AI [ELEMENT_META_TITLE] => IT/AI ) ) ) ) [SECTION_URL] => /it-ai [META_TAGS] => Array ( [TITLE] => Нейросети Google заново открывают генерацию видео [BROWSER_TITLE] => Нейросети Google заново открывают генерацию видео [KEYWORDS] => [DESCRIPTION] => ) )

Нейросети Google заново открывают генерацию видео

Компания Google представила пространственно-временную диффузионную модель для генерации видео Lumiere. Ключевое отличие нейросети от существующих аналогов — архитектура U-Net, которая генерирует полнокадровый ролик за один проход.

Современные генераторы видео работают по принципу создания отдельных ключевых кадров. После этого отдельные модели генерируют недостающие данные между этими кадрами. Такой подход, называемый каскадным, экономит память, но имеет ограниченную способность генерации согласованных движений. Из-за ограниченной выборки ключевых кадров движение в видео искажается. Это, в свою очередь, приводит к накапливанию ошибок в процессе обучения нейросети.

В Lumiere Google применила другой подход. Новая система Text to video ((«текст в видео» — T2V) сразу генерирует полную временную продолжительность видео. Использующаяся для этого архитектура U-Net обучается понижать дискретизацию, то есть фрагментирование сигнала как в пространстве, так и во времени.

Благодаря этому можно генерировать 80 кадров и воспроизвести их со скоростью 16 кадров в секунду (около 5 секунд видео). Компактность вычислений во времени приводит к более плавному и естественному движению.

Lumiere создана поверх предварительно подготовленной модели Text to image ((«текст в изображение» — T2I). Она состоит из базовой системы генерации картинок, за которой следует каскад пространственного сверхразрешения (SSR). Обычно сеть SSR разбивает видео на не перекрывающие друг друга сегменты — окна — и объединяет результаты. Однако из-за этого могут возникнуть несогласованности в местах соединения окон.

Для того, чтобы избежать этого, разработчики используют мультидиффузию — подход, обеспечивающий непрерывность при генерации панорамных изображений. Мультидиффузия обеспечивает бесшовные переходы между сгенерированными сетью SSR окнами. В Google отметили, что сеть SSR требует очень высоких затрат памяти. Именно поэтому Lumiere генерирует короткие ролики.

Нейросеть может превращать в видео текст и статические изображения. Настраивая T2I-модель под разные стили, разработчики смогли добиться возможности стилизовать видео под запросы пользователя. 

Lumiere также может работать с масками, благодаря чему способна анимировать только часть изображения или восстанавливать скрытые фрагменты видео. Кстати, последний навык дает Lumiere возможность менять детали созданного видео. Например, переодевать героев.

Команда Google отмечает, что основная цель создания Lumiere — дать начинающим пользователям возможность создавать визуальный контент творческим и гибким.

При этом разработчики понимают, что существуют определенные риски использования их технологии. Например, с помощью нейросети можно создать поддельный или вредоносный контент. Поэтому в Google призывают активно разрабатывать инструменты для выявления злонамеренного использования генеративного искусственного интеллекта.

Ранее «Мир робототехники» писал, что создатели нейросети Midjourney объявили о старте альфа-теста шестой версии системы (V6). По информации разработчиков, новинка будет лучше понимать текстовые подсказки. Кроме того, нейросеть научилась точнее отображать текст и поддерживает опцию деликатной настройки текстур или освещения.

29.01.2024
Аркадий Гончаров
Фото: Lumiere

Мы рекомендуем: