Главная
IT/AI
Gemini: новый бог ИИ, приманка для СМИ или убийца человечества?

Gemini: новый бог ИИ, приманка для СМИ или убийца человечества?

AGI — три заветные буквы для разработчиков и фанатов искусственного интеллекта. За ними скрывается так называемый общий или сильный ИИ (artificial general intelligence) — гипотетическая нейросеть, способная выполнять любую интеллектуальную задачу на уровне, равном или превосходящем человеческий. Такие способности открывают огромные возможности для человечества и… ставят его существование под угрозу.

Близки ли мы к созданию AGI? Один из лидеров разработки нейросетей — корпорация Google — говорит, что очень. И в подтверждение этого представляет миру свое новое продуктовое семейство — Gemini. По словам генерального директора нейросетевого отделения Google DeepMind Демиса Хассабиса, Gemini — самая крупная и способная модель корпорации.

«Это значит, что она может понимать окружающий мир так, как это делаем мы, и поглощает любой тип информации: текст, код, аудио, видео и изображения. Например, в каждой из 50 предметных областей, которые мы тестировали, она также хороша, как и специалисты», — рассказал эксперт.

Сеть на все руки

Именно мультимодальность — то есть способность работать с разными видами информации — является ключевой особенностью Gemini. Справедливости ради необходимо отметить, что это не первая мультимодальная нейросеть. Еще в 2022 году один из главных конкурентов Google Open AI представили DALL-E, которая умеет работать как с изображениями, так и с текстами. Правда, для последнего ее нужно «прикрутить» к ChatGPT.

Gemini, в свою очередь, изначально создавался как мультимодальный ИИ, отметил один из его разработчиков Ориол Виньялс. То есть обработка изображений, аудио, видео, текста и кода происходит в нем бесшовно. Проще говоря, одновременно.

Так, например, Gemini может разобраться в беспорядочном подчерке ученика, который пишет на листке решение поставленной учителем задачи, понять формулировку задачи, преобразовать ее и решение в математический текст, определить место, где ученик допустил ошибку, и предложить проработанное правильное решение. Это стало возможным благодаря тому, что нейросеть изначально обучали одновременно использовать тексты, изображения, аудио и видео.

Нейросессия

Согласно данным разработчиков, новинка Google превосходит другие существующие нейросети в 30 из 32 существующих тестов. Громче всего как разработчики, так и СМИ говорят об успехах Gemini в тесте MMLU (measuring massive multitask language understanding — массовое понимание языка в многозадачном режиме).

MMLU — эталонный тест, предназначенный для оценки производительности больших языковых моделей (LLM) при выполнении различных задач, включая ответы на вопросы, обобщение и генерацию кода. Он охватывает 57 областей знаний, включая гуманитарные, юридические, социальные, естественные науки, технологию, инженерию и математику. Для достижения высокой точности в этом тесте модели должны обладать обширными знаниями окружающего мира и способностью решать проблемы. При этом от других бенчмарков MMLU отличает наличие как очень простых, так и максимально сложных и неоднозначных вопросов в каждой из областей.

Создатели теста сперва установили базовый уровень возможностей человека-неспециалиста. Общая точность их ответов составила 34,5%. Эффективность работы эксперта оценивается авторами бенчмарка на уровне 89,8%. Лучший средний результат среди нейросетей показывала GPT-4 — 87.29%. Так было до последнего времени, пока тест не прошла Gemini. Нейросеть достигла 90,4%, превзойдя не только конкурента, но и человека. Важно уточнить, что результаты MMLU оцениваются с помощью различных методик, и по другой версии Gemini проигрывает GPT-4 — 83,7% против 86,4%.

Серьезных успехов Gemini добилась и в тесте MMMU (massive multi-discipline multimodal understanding — масштабное междисциплинарное мультимодальное понимание). Этот бенчмарк направлен на то, чтобы охватить знания уровня колледжа с помощью 30 графических форматов, в том числе диаграмм, таблиц, химических формул, фотографий, картин, геометрических фигур, нотных листов и т. д. При этом тест требует обдуманных рассуждений с использованием предметных знаний.

Gemini обошла GPT по среднему показателю: 59,4 против 56,8. Разработка Google оказалась лучше в искусстве и дизайне (70,0 к 65,8), медицине (67,3 к 64,7), гуманитарных и социальных науках (78,3 к 72,5), технологии и английском языке (47,1 к 36,7). При этом нейросеть Open AI оказалась лучше в бизнесе (59,3 к 56,7) и науке (54,7 к 48,0). Тем не мнее высокие показатели Gemini иллюстрируют большие возможности нейросети в кросс-модальном рассуждении на основе аудио, изображений и текста.

Говоря об уникальных возможностях Gemini в области математики, разработчики отмечают, что в тесте GSM8K нейросеть показала точность 94,4%, побив предыдущий рекорд в 92%. Речь идет о тесте, который состоит из 8,5 тысячи разнообразных школьных задач, для решения которых требуется от 2 до 8 шагов. Такие задачи должен уметь решать способный ученик средней школы. Следует отметить, что, не смотря на данные Google, GPT-4 в этом тесте сумел достичь точности в 96,8%. Отметим, что Gemini, по словам разработчиков, может справляться с математическими задачами и не на английском языке.

При этом, если опираться исключительно на исследование Google, Gemini лучше GPT-4 справилась с задачами повышенной сложности, взятыми из олимпиад по математике для средней и старшей школы (MATH), показав 53,2% против 52,9%.

Кроме того, нейросеть Google проигрывает конкуренту от Open AI в «тесте здравого смысла» — HellaSwag. Для прохождения бенчмарка ИИ должны сделать сложные предсказания, основываясь на понимании внешнего контекста и социокультурной информации. GPT-4 показал точность 95.3%, в то время как Gemini — 87.8%. Кстати, люди стабильно проходят этот тест с показателем 95% и выше.

Лучше GPT-4 справляется и с машинным переводом других языков на английский. А вот в переводе с английского на другие языки и переводе без английского языка Gemini — лидер. По последнему показателю оценка нейросети Google составила 74,8 балла, а Open AI — 73,6.

Еще один важный показатель для мультимодальных нейросетей — возможность писать программный код. В работе с Python Gemini обошла GPT-4 на 1%, добившись корректного решения 74,4% проблем. В тесте Natural2Code результат разработки Google составил 74,9%.

ИИ своими словами

Если углубляться в сравнение результатов различных тестов, достигнутых нейросетями, откровенно говоря, можно заблудиться. Проблема заключается, в том числе, в разных методиках оценки этих результатов. Разобраться в этом могут только суровые профессионалы. Если же говорить проще, то Gemini во многом лучше GPT-4, а в некоторых (пока единичных) случаях лучше человека справляется с различными задачами.

Gemini выдает более точные ответы на элементарные математические и гуманитарные вопросы, решает сложные задачи, понимает текст, пишет код на Python. Нейросеть Google в реальном времени может объяснить, что изображено на картинке, распознает текст на изображениях, анализирует инфографику, генерирует точные субтитры к видео, синхронно переводит человеческую речь.

Учение — свет нейросетей

Gemini обучали на мультимодальном, многоязычном наборе данных, в который вошли веб-документы, книги, код, изображения, аудио- и видео. Модель может эффективно маркировать тексты, не написанные на латинице. Обучение проводилось с использованием тензорных процессоров Google (TPU версий 5 и 4). По сравнению с графическими процессорами тензорные рассчитаны на более высокий объем вычислений с пониженной точностью при более высокой производительности.

Для Gemini был задействован целый парк таких процессоров, благодаря чему удалось значительно сократить среднее время между отказами оборудования и повысить скорость работы нейросети.

Внутри нейрочерепа

Gemini «думает» по принципу цепочек размышлений. Модель генерирует последовательность «мыслей» от общего к частному. Если на этом пути она приходит к консенсусу, то выдает его как ответ. Если же нет, Gemini возвращается к изначальной большой выборке и находит наиболее подходящие к ответу варианты.

При этом нейросеть, по словам разработчиков, успешно справляется с так называемым «забыванием». Дело в том, что текстовые нейросети имеют ограничения по длине контекста: они «помнят не весь разговор с пользователем, а определенное количество последних коммуникаций. Разработчики Google утверждают, что их модель извлекает правильное значение с точностью 98% при запросе по всей длине контекста.

Однако первые сторонние тесты ИИ говорят об обратном: нейросеть должна была решить длинную задачу о количестве деталей, которые завод сделает до обеденного перерыва. В итоге длительных рассуждений Gemini пришла к выводу, что от начала работы до обеденного перерыва пройдет 4 часа. То есть, попросту забыла, о чем шла речь в начале запроса.

ИИ-семейство

Справедливости ради необходимо подчеркнуть, что описанный выше эксперимент проводился не с самой мощной версией Gemini. А их, к слову, целых три.

Ultra — самая мощная модель, обеспечивающая самую современную производительность в широком спектре чрезвычайно сложных задач, включая логические и мультимодальные задачи. Благодаря архитектуре Gemini она эффективно масштабируется на ускорителях TPU. Именно эта модель смогла добиться новых рекордов в тестах.

Pro — модель, оптимизированная для боле низкой производительности. Именно над ней проводился эксперимент.

Nano — самая «маленькая» модель, предназначенная для работы на портативных устройствах. Она уже вмонтирована во все новые смартфоны Google Pixel 8 Pro. Нейросеть, в частности, может сама отвечать на сообщения в мессенджерах.

Немного о «черном зеркале»

Впечатляющие результаты Gemini, в особенности ее способность размышлять, могут окрылить мечтателей, ждущих возможности общаться со своим смартфоном, как с живым человеком. Но они также должны насторожить, если не напугать.

Закончить этот обзор хочется словами бывшего коммерческого директора научно-исследовательского центра X Development (ранее — Google X) Мохаммада «Мо» Гавдата. В мае 2023 года в подкасте Secret Leader он отметил, что в ближайшие несколько лет нейросети беспрецедентно изменят мир. При чем речь шла не о десятилетиях, а о 2025-2026 годах.

«Предположим, что машины будут в миллиард раз умнее или они станут значительно умнее нас. Давайте представим это в перспективе. ChatGPT сегодня моделирует IQ 155. У Эйнштейна было 160. У самого умного человека на планете IQ 208-210, если я правильно помню. Но мы сравниваем Эйнштейна с машиной. Я вам открыто скажу, эксперты по ИИ говорят, что это только очень-очень-очень маленькая верхушка айсберга. ChatGPT-4 стал в 10 раз умнее, чем несколько месяцев назад. И если сейчас не будет изменений, это означает, что ChatGPT-5 в течение следующих нескольких месяцев может иметь IQ 1600», — подчеркнул Мо Гавдат.

Эксперт призвал правительства ввести налог в 98% для компаний, которые работают на базе ИИ. Таким образом можно будет замедлить развитие нейросетей, а также поддержать огромное количество людей, которые потеряют работу из-за их внедрения.

«Наша жадность затрагивает невинных. Реальность в том, что эта гонка вооружений не заинтересована в том, что получит от нее обычный человек. Все дело в том, что каждая строчка кода, написанная сегодня в ИИ, направлена на то, чтобы победить соперника. Это не для того, чтобы улучшить жизнь третьей стороны», — подытожил Мо Гавдат.

При этом в презентации Google, когда речь заходит о безопасности, эксперты рассказывают, как Gemini сможет бороться с обидным для разных людей контентом. А акции материнской компании разработчиков — Alphabet — между тем выросли на 5% с момента анонса нейросети.

#искусственный интеллект #прогнозы #цифровизация #социокультурный аспект

Аркадий Гончаров

Фото: Freepik – Freepik, Chandlervid85, Kbza