16+


«Рукастый» компьютер: Google анонсировал новый генератор изображений Imagen 2

Американская компания Google представила свою самую передовую технологию преобразования текста в изображение. Новая нейросеть Imagen 2, по словам разработчиков, может генерировать изображения на абсолютно новом уровне реализма, потому что лучше понимает взаимосвязь между словами и образами.

Обычно генеративные нейросети обучаются на сопоставлении подписей и изображений, но качество и точность детализации результатов, полученных на основе этих данных, может сильно отличаться для каждого конкретного запроса.

Чтобы решить эту проблему в Imagen 2 добавили еще одну дополнительную строку подписи к изображению. Дополнительное описание позволяет нейросети изучать разные варианты запросов и обобщать их, чтобы лучше отвечать на требования пользователя.

В частности, Imagen 2 стала очень хороша в изображении лиц и рук. С последними ключевая проблема была в том, что условно «идеальные» изображения рук в датасетах, по которым обучаются нейросети, встречаются крайне редко. А если и встречаются, то обязательно что-то держат или держатся за что-то. Схожие сложности есть и с текстами на изображениях.

Imagen 2, в свою очередь, благодаря дополнительному описанию группирует все изображения рук, и не встает перед необходимостью искать что-то в «закромах». Кроме того, инженеры Google разработали новую систему эстетической градации изображений, основанную на предпочтениях человека в отношении освещения, кадрирования, экспозиции, резкости и других качествах изображения.

Новинка от Google — диффузионная модель, то есть она делает изображение лучше с введением нового промта или запроса. При этом нейросеть изучает запросы, чтобы формировать паттерны стилей для каждого конкретного пользователя. Эти наборы можно будет применять к изображениям в будущем.

С помощью Imagen 2 можно генерировать новые изображения, а также редактировать загруженные изображения, причем как целые, так и конкретные части. Для этого у нейросети есть возможности вписать (inpainting) что-то в картину, или дорисовать (outpainting) что-то вокруг нее.

В Google отметили, что уделяют большое внимание безопасности. Imagen 2 интегрирована с SynthID — инструментом для создания водяных знаков и идентификации контента, созданного искусственным интеллектом. Он позволяет создателям изображений с помощью ИИ «подписывать» свои работы в каждом их пикселе, не нарушая целостности всего рисунка. Следовательно, водяной знак можно будет обнаружить даже на срезанном участке изображения.

В Imagen 2 также предусмотрены механизмы блокировки опасного контента, связанного с насилием, оскорблениями или имеющего откровенно сексуальный характер. Кроме того, инженеры используют комплексные фильтры, чтобы нейросеть не могла делать deep-fake (поддельные изображения лиц).

Ранее «Мир робототехники» писал, что AGI — три заветные буквы для разработчиков и фанатов искусственного интеллекта. За ними скрывается так называемый общий или сильный ИИ (artificial general intelligence) — гипотетическая нейросеть, способная выполнять любую интеллектуальную задачу на уровне, равном или превосходящем человеческий. Такие способности открывают огромные возможности для человечества и… ставят его существование под угрозу.

27.12.2023
Аркадий Гончаров
Фото: Freepik – Freepik

Мы рекомендуем: