Американская компания Google представила свою самую передовую технологию преобразования текста в изображение. Новая нейросеть Imagen 2, по словам разработчиков, может генерировать изображения на абсолютно новом уровне реализма, потому что лучше понимает взаимосвязь между словами и образами.
Обычно генеративные нейросети обучаются на сопоставлении подписей и изображений, но качество и точность детализации результатов, полученных на основе этих данных, может сильно отличаться для каждого конкретного запроса.
Чтобы решить эту проблему в Imagen 2 добавили еще одну дополнительную строку подписи к изображению. Дополнительное описание позволяет нейросети изучать разные варианты запросов и обобщать их, чтобы лучше отвечать на требования пользователя.
В частности, Imagen 2 стала очень хороша в изображении лиц и рук. С последними ключевая проблема была в том, что условно «идеальные» изображения рук в датасетах, по которым обучаются нейросети, встречаются крайне редко. А если и встречаются, то обязательно что-то держат или держатся за что-то. Схожие сложности есть и с текстами на изображениях.
Imagen 2, в свою очередь, благодаря дополнительному описанию группирует все изображения рук, и не встает перед необходимостью искать что-то в «закромах». Кроме того, инженеры Google разработали новую систему эстетической градации изображений, основанную на предпочтениях человека в отношении освещения, кадрирования, экспозиции, резкости и других качествах изображения.
Новинка от Google — диффузионная модель, то есть она делает изображение лучше с введением нового промта или запроса. При этом нейросеть изучает запросы, чтобы формировать паттерны стилей для каждого конкретного пользователя. Эти наборы можно будет применять к изображениям в будущем.
С помощью Imagen 2 можно генерировать новые изображения, а также редактировать загруженные изображения, причем как целые, так и конкретные части. Для этого у нейросети есть возможности вписать (inpainting) что-то в картину, или дорисовать (outpainting) что-то вокруг нее.
В Google отметили, что уделяют большое внимание безопасности. Imagen 2 интегрирована с SynthID — инструментом для создания водяных знаков и идентификации контента, созданного искусственным интеллектом. Он позволяет создателям изображений с помощью ИИ «подписывать» свои работы в каждом их пикселе, не нарушая целостности всего рисунка. Следовательно, водяной знак можно будет обнаружить даже на срезанном участке изображения.
В Imagen 2 также предусмотрены механизмы блокировки опасного контента, связанного с насилием, оскорблениями или имеющего откровенно сексуальный характер. Кроме того, инженеры используют комплексные фильтры, чтобы нейросеть не могла делать deep-fake (поддельные изображения лиц).
Ранее «Мир робототехники» писал, что AGI — три заветные буквы для разработчиков и фанатов искусственного интеллекта. За ними скрывается так называемый общий или сильный ИИ (artificial general intelligence) — гипотетическая нейросеть, способная выполнять любую интеллектуальную задачу на уровне, равном или превосходящем человеческий. Такие способности открывают огромные возможности для человечества и… ставят его существование под угрозу.
