";123 Array
(
    [NAME] => Gemini: новый бог ИИ, приманка для СМИ или убийца человечества? 
    [~NAME] => Gemini: новый бог ИИ, приманка для СМИ или убийца человечества? 
    [TAGS] => искусственный интеллект, прогнозы, цифровизация, социокультурный аспект
    [~TAGS] => искусственный интеллект, прогнозы, цифровизация, социокультурный аспект
    [PREVIEW_TEXT] => 

AGI — три заветные буквы для разработчиков и фанатов искусственного интеллекта. За ними скрывается так называемый общий или сильный ИИ (artificial general intelligence) — гипотетическая нейросеть, способная выполнять любую интеллектуальную задачу на уровне, равном или превосходящем человеческий. Такие способности открывают огромные возможности для человечества и… ставят его существование под угрозу.

[~PREVIEW_TEXT] =>

AGI — три заветные буквы для разработчиков и фанатов искусственного интеллекта. За ними скрывается так называемый общий или сильный ИИ (artificial general intelligence) — гипотетическая нейросеть, способная выполнять любую интеллектуальную задачу на уровне, равном или превосходящем человеческий. Такие способности открывают огромные возможности для человечества и… ставят его существование под угрозу.

[PREVIEW_PICTURE] => Array ( [ID] => 532 [TIMESTAMP_X] => 27.12.2023 16:42:15 [MODULE_ID] => iblock [HEIGHT] => 768 [WIDTH] => 1024 [FILE_SIZE] => 197303 [CONTENT_TYPE] => image/jpeg [SUBDIR] => iblock/99d/wm80vwjj4fz5y0e1sj9sg08cxkpw62aw [FILE_NAME] => freepik_freepik_2_.jpg [ORIGINAL_NAME] => freepik-freepik-(2).jpg [DESCRIPTION] => [HANDLER_ID] => [EXTERNAL_ID] => c8f71f48abc29bfcd6ab8dae9198b7d1 [VERSION_ORIGINAL_ID] => [META] => [SRC] => /upload/iblock/99d/wm80vwjj4fz5y0e1sj9sg08cxkpw62aw/freepik_freepik_2_.jpg [UNSAFE_SRC] => /upload/iblock/99d/wm80vwjj4fz5y0e1sj9sg08cxkpw62aw/freepik_freepik_2_.jpg [SAFE_SRC] => /upload/iblock/99d/wm80vwjj4fz5y0e1sj9sg08cxkpw62aw/freepik_freepik_2_.jpg [ALT] => Gemini: новый бог ИИ, приманка для СМИ или убийца человечества? [TITLE] => Gemini: новый бог ИИ, приманка для СМИ или убийца человечества? ) [~PREVIEW_PICTURE] => 532 [DETAIL_TEXT] =>

Близки ли мы к созданию AGI? Один из лидеров разработки нейросетей — корпорация Google — говорит, что очень. И в подтверждение этого представляет миру свое новое продуктовое семейство — Gemini. По словам генерального директора нейросетевого отделения Google DeepMind Демиса Хассабиса, Gemini — самая крупная и способная модель корпорации.

«Это значит, что она может понимать окружающий мир так, как это делаем мы, и поглощает любой тип информации: текст, код, аудио, видео и изображения. Например, в каждой из 50 предметных областей, которые мы тестировали, она также хороша, как и специалисты», — рассказал эксперт.

Сеть на все руки

Именно мультимодальность — то есть способность работать с разными видами информации — является ключевой особенностью Gemini. Справедливости ради необходимо отметить, что это не первая мультимодальная нейросеть. Еще в 2022 году один из главных конкурентов Google Open AI представили DALL-E, которая умеет работать как с изображениями, так и с текстами. Правда, для последнего ее нужно «прикрутить» к ChatGPT.

Gemini, в свою очередь, изначально создавался как мультимодальный ИИ, отметил один из его разработчиков Ориол Виньялс. То есть обработка изображений, аудио, видео, текста и кода происходит в нем бесшовно. Проще говоря, одновременно.

Так, например, Gemini может разобраться в беспорядочном подчерке ученика, который пишет на листке решение поставленной учителем задачи, понять формулировку задачи, преобразовать ее и решение в математический текст, определить место, где ученик допустил ошибку, и предложить проработанное правильное решение. Это стало возможным благодаря тому, что нейросеть изначально обучали одновременно использовать тексты, изображения, аудио и видео.

Нейросессия

Согласно данным разработчиков, новинка Google превосходит другие существующие нейросети в 30 из 32 существующих тестов. Громче всего как разработчики, так и СМИ говорят об успехах Gemini в тесте MMLU (measuring massive multitask language understanding — массовое понимание языка в многозадачном режиме).

MMLU — эталонный тест, предназначенный для оценки производительности больших языковых моделей (LLM) при выполнении различных задач, включая ответы на вопросы, обобщение и генерацию кода. Он охватывает 57 областей знаний, включая гуманитарные, юридические, социальные, естественные науки, технологию, инженерию и математику. Для достижения высокой точности в этом тесте модели должны обладать обширными знаниями окружающего мира и способностью решать проблемы. При этом от других бенчмарков MMLU отличает наличие как очень простых, так и максимально сложных и неоднозначных вопросов в каждой из областей.

Создатели теста сперва установили базовый уровень возможностей человека-неспециалиста. Общая точность их ответов составила 34,5%. Эффективность работы эксперта оценивается авторами бенчмарка на уровне 89,8%. Лучший средний результат среди нейросетей показывала GPT-4 — 87.29%. Так было до последнего времени, пока тест не прошла Gemini. Нейросеть достигла 90,4%, превзойдя не только конкурента, но и человека. Важно уточнить, что результаты MMLU оцениваются с помощью различных методик, и по другой версии Gemini проигрывает GPT-4 — 83,7% против 86,4%.

Серьезных успехов Gemini добилась и в тесте MMMU (massive multi-discipline multimodal understanding — масштабное междисциплинарное мультимодальное понимание). Этот бенчмарк направлен на то, чтобы охватить знания уровня колледжа с помощью 30 графических форматов, в том числе диаграмм, таблиц, химических формул, фотографий, картин, геометрических фигур, нотных листов и т. д. При этом тест требует обдуманных рассуждений с использованием предметных знаний.

Gemini обошла GPT по среднему показателю: 59,4 против 56,8. Разработка Google оказалась лучше в искусстве и дизайне (70,0 к 65,8), медицине (67,3 к 64,7), гуманитарных и социальных науках (78,3 к 72,5), технологии и английском языке (47,1 к 36,7). При этом нейросеть Open AI оказалась лучше в бизнесе (59,3 к 56,7) и науке (54,7 к 48,0). Тем не мнее высокие показатели Gemini иллюстрируют большие возможности нейросети в кросс-модальном рассуждении на основе аудио, изображений и текста.

Говоря об уникальных возможностях Gemini в области математики, разработчики отмечают, что в тесте GSM8K нейросеть показала точность 94,4%, побив предыдущий рекорд в 92%. Речь идет о тесте, который состоит из 8,5 тысячи разнообразных школьных задач, для решения которых требуется от 2 до 8 шагов. Такие задачи должен уметь решать способный ученик средней школы. Следует отметить, что, не смотря на данные Google, GPT-4 в этом тесте сумел достичь точности в 96,8%. Отметим, что Gemini, по словам разработчиков, может справляться с математическими задачами и не на английском языке.

При этом, если опираться исключительно на исследование Google, Gemini лучше GPT-4 справилась с задачами повышенной сложности, взятыми из олимпиад по математике для средней и старшей школы (MATH), показав 53,2% против 52,9%.

Кроме того, нейросеть Google проигрывает конкуренту от Open AI в «тесте здравого смысла» — HellaSwag. Для прохождения бенчмарка ИИ должны сделать сложные предсказания, основываясь на понимании внешнего контекста и социокультурной информации. GPT-4 показал точность 95.3%, в то время как Gemini — 87.8%. Кстати, люди стабильно проходят этот тест с показателем 95% и выше.

Лучше GPT-4 справляется и с машинным переводом других языков на английский. А вот в переводе с английского на другие языки и переводе без английского языка Gemini — лидер. По последнему показателю оценка нейросети Google составила 74,8 балла, а Open AI — 73,6.

Еще один важный показатель для мультимодальных нейросетей — возможность писать программный код. В работе с Python Gemini обошла GPT-4 на 1%, добившись корректного решения 74,4% проблем. В тесте Natural2Code результат разработки Google составил 74,9%.

ИИ своими словами

Если углубляться в сравнение результатов различных тестов, достигнутых нейросетями, откровенно говоря, можно заблудиться. Проблема заключается, в том числе, в разных методиках оценки этих результатов. Разобраться в этом могут только суровые профессионалы. Если же говорить проще, то Gemini во многом лучше GPT-4, а в некоторых (пока единичных) случаях лучше человека справляется с различными задачами.

Gemini выдает более точные ответы на элементарные математические и гуманитарные вопросы, решает сложные задачи, понимает текст, пишет код на Python. Нейросеть Google в реальном времени может объяснить, что изображено на картинке, распознает текст на изображениях, анализирует инфографику, генерирует точные субтитры к видео, синхронно переводит человеческую речь.

Учение — свет нейросетей

Gemini обучали на мультимодальном, многоязычном наборе данных, в который вошли веб-документы, книги, код, изображения, аудио- и видео. Модель может эффективно маркировать тексты, не написанные на латинице. Обучение проводилось с использованием тензорных процессоров Google (TPU версий 5 и 4). По сравнению с графическими процессорами тензорные рассчитаны на более высокий объем вычислений с пониженной точностью при более высокой производительности.

Для Gemini был задействован целый парк таких процессоров, благодаря чему удалось значительно сократить среднее время между отказами оборудования и повысить скорость работы нейросети.

Внутри нейрочерепа

Gemini «думает» по принципу цепочек размышлений. Модель генерирует последовательность «мыслей» от общего к частному. Если на этом пути она приходит к консенсусу, то выдает его как ответ. Если же нет, Gemini возвращается к изначальной большой выборке и находит наиболее подходящие к ответу варианты.

При этом нейросеть, по словам разработчиков, успешно справляется с так называемым «забыванием». Дело в том, что текстовые нейросети имеют ограничения по длине контекста: они «помнят не весь разговор с пользователем, а определенное количество последних коммуникаций. Разработчики Google утверждают, что их модель извлекает правильное значение с точностью 98% при запросе по всей длине контекста.

Однако первые сторонние тесты ИИ говорят об обратном: нейросеть должна была решить длинную задачу о количестве деталей, которые завод сделает до обеденного перерыва. В итоге длительных рассуждений Gemini пришла к выводу, что от начала работы до обеденного перерыва пройдет 4 часа. То есть, попросту забыла, о чем шла речь в начале запроса.

ИИ-семейство

Справедливости ради необходимо подчеркнуть, что описанный выше эксперимент проводился не с самой мощной версией Gemini. А их, к слову, целых три.

Ultra — самая мощная модель, обеспечивающая самую современную производительность в широком спектре чрезвычайно сложных задач, включая логические и мультимодальные задачи. Благодаря архитектуре Gemini она эффективно масштабируется на ускорителях TPU. Именно эта модель смогла добиться новых рекордов в тестах.

Pro — модель, оптимизированная для боле низкой производительности. Именно над ней проводился эксперимент.

Nano — самая «маленькая» модель, предназначенная для работы на портативных устройствах. Она уже вмонтирована во все новые смартфоны Google Pixel 8 Pro. Нейросеть, в частности, может сама отвечать на сообщения в мессенджерах.

Немного о «черном зеркале»

Впечатляющие результаты Gemini, в особенности ее способность размышлять, могут окрылить мечтателей, ждущих возможности общаться со своим смартфоном, как с живым человеком. Но они также должны насторожить, если не напугать.

Закончить этот обзор хочется словами бывшего коммерческого директора научно-исследовательского центра X Development (ранее — Google X) Мохаммада «Мо» Гавдата. В мае 2023 года в подкасте Secret Leader он отметил, что в ближайшие несколько лет нейросети беспрецедентно изменят мир. При чем речь шла не о десятилетиях, а о 2025-2026 годах.

«Предположим, что машины будут в миллиард раз умнее или они станут значительно умнее нас. Давайте представим это в перспективе. ChatGPT сегодня моделирует IQ 155. У Эйнштейна было 160. У самого умного человека на планете IQ 208-210, если я правильно помню. Но мы сравниваем Эйнштейна с машиной. Я вам открыто скажу, эксперты по ИИ говорят, что это только очень-очень-очень маленькая верхушка айсберга. ChatGPT-4 стал в 10 раз умнее, чем несколько месяцев назад. И если сейчас не будет изменений, это означает, что ChatGPT-5 в течение следующих нескольких месяцев может иметь IQ 1600», — подчеркнул Мо Гавдат.

Эксперт призвал правительства ввести налог в 98% для компаний, которые работают на базе ИИ. Таким образом можно будет замедлить развитие нейросетей, а также поддержать огромное количество людей, которые потеряют работу из-за их внедрения.

«Наша жадность затрагивает невинных. Реальность в том, что эта гонка вооружений не заинтересована в том, что получит от нее обычный человек. Все дело в том, что каждая строчка кода, написанная сегодня в ИИ, направлена на то, чтобы победить соперника. Это не для того, чтобы улучшить жизнь третьей стороны», — подытожил Мо Гавдат.

При этом в презентации Google, когда речь заходит о безопасности, эксперты рассказывают, как Gemini сможет бороться с обидным для разных людей контентом. А акции материнской компании разработчиков — Alphabet — между тем выросли на 5% с момента анонса нейросети. 


[~DETAIL_TEXT] =>

Близки ли мы к созданию AGI? Один из лидеров разработки нейросетей — корпорация Google — говорит, что очень. И в подтверждение этого представляет миру свое новое продуктовое семейство — Gemini. По словам генерального директора нейросетевого отделения Google DeepMind Демиса Хассабиса, Gemini — самая крупная и способная модель корпорации.

«Это значит, что она может понимать окружающий мир так, как это делаем мы, и поглощает любой тип информации: текст, код, аудио, видео и изображения. Например, в каждой из 50 предметных областей, которые мы тестировали, она также хороша, как и специалисты», — рассказал эксперт.

Сеть на все руки

Именно мультимодальность — то есть способность работать с разными видами информации — является ключевой особенностью Gemini. Справедливости ради необходимо отметить, что это не первая мультимодальная нейросеть. Еще в 2022 году один из главных конкурентов Google Open AI представили DALL-E, которая умеет работать как с изображениями, так и с текстами. Правда, для последнего ее нужно «прикрутить» к ChatGPT.

Gemini, в свою очередь, изначально создавался как мультимодальный ИИ, отметил один из его разработчиков Ориол Виньялс. То есть обработка изображений, аудио, видео, текста и кода происходит в нем бесшовно. Проще говоря, одновременно.

Так, например, Gemini может разобраться в беспорядочном подчерке ученика, который пишет на листке решение поставленной учителем задачи, понять формулировку задачи, преобразовать ее и решение в математический текст, определить место, где ученик допустил ошибку, и предложить проработанное правильное решение. Это стало возможным благодаря тому, что нейросеть изначально обучали одновременно использовать тексты, изображения, аудио и видео.

Нейросессия

Согласно данным разработчиков, новинка Google превосходит другие существующие нейросети в 30 из 32 существующих тестов. Громче всего как разработчики, так и СМИ говорят об успехах Gemini в тесте MMLU (measuring massive multitask language understanding — массовое понимание языка в многозадачном режиме).

MMLU — эталонный тест, предназначенный для оценки производительности больших языковых моделей (LLM) при выполнении различных задач, включая ответы на вопросы, обобщение и генерацию кода. Он охватывает 57 областей знаний, включая гуманитарные, юридические, социальные, естественные науки, технологию, инженерию и математику. Для достижения высокой точности в этом тесте модели должны обладать обширными знаниями окружающего мира и способностью решать проблемы. При этом от других бенчмарков MMLU отличает наличие как очень простых, так и максимально сложных и неоднозначных вопросов в каждой из областей.

Создатели теста сперва установили базовый уровень возможностей человека-неспециалиста. Общая точность их ответов составила 34,5%. Эффективность работы эксперта оценивается авторами бенчмарка на уровне 89,8%. Лучший средний результат среди нейросетей показывала GPT-4 — 87.29%. Так было до последнего времени, пока тест не прошла Gemini. Нейросеть достигла 90,4%, превзойдя не только конкурента, но и человека. Важно уточнить, что результаты MMLU оцениваются с помощью различных методик, и по другой версии Gemini проигрывает GPT-4 — 83,7% против 86,4%.

Серьезных успехов Gemini добилась и в тесте MMMU (massive multi-discipline multimodal understanding — масштабное междисциплинарное мультимодальное понимание). Этот бенчмарк направлен на то, чтобы охватить знания уровня колледжа с помощью 30 графических форматов, в том числе диаграмм, таблиц, химических формул, фотографий, картин, геометрических фигур, нотных листов и т. д. При этом тест требует обдуманных рассуждений с использованием предметных знаний.

Gemini обошла GPT по среднему показателю: 59,4 против 56,8. Разработка Google оказалась лучше в искусстве и дизайне (70,0 к 65,8), медицине (67,3 к 64,7), гуманитарных и социальных науках (78,3 к 72,5), технологии и английском языке (47,1 к 36,7). При этом нейросеть Open AI оказалась лучше в бизнесе (59,3 к 56,7) и науке (54,7 к 48,0). Тем не мнее высокие показатели Gemini иллюстрируют большие возможности нейросети в кросс-модальном рассуждении на основе аудио, изображений и текста.

Говоря об уникальных возможностях Gemini в области математики, разработчики отмечают, что в тесте GSM8K нейросеть показала точность 94,4%, побив предыдущий рекорд в 92%. Речь идет о тесте, который состоит из 8,5 тысячи разнообразных школьных задач, для решения которых требуется от 2 до 8 шагов. Такие задачи должен уметь решать способный ученик средней школы. Следует отметить, что, не смотря на данные Google, GPT-4 в этом тесте сумел достичь точности в 96,8%. Отметим, что Gemini, по словам разработчиков, может справляться с математическими задачами и не на английском языке.

При этом, если опираться исключительно на исследование Google, Gemini лучше GPT-4 справилась с задачами повышенной сложности, взятыми из олимпиад по математике для средней и старшей школы (MATH), показав 53,2% против 52,9%.

Кроме того, нейросеть Google проигрывает конкуренту от Open AI в «тесте здравого смысла» — HellaSwag. Для прохождения бенчмарка ИИ должны сделать сложные предсказания, основываясь на понимании внешнего контекста и социокультурной информации. GPT-4 показал точность 95.3%, в то время как Gemini — 87.8%. Кстати, люди стабильно проходят этот тест с показателем 95% и выше.

Лучше GPT-4 справляется и с машинным переводом других языков на английский. А вот в переводе с английского на другие языки и переводе без английского языка Gemini — лидер. По последнему показателю оценка нейросети Google составила 74,8 балла, а Open AI — 73,6.

Еще один важный показатель для мультимодальных нейросетей — возможность писать программный код. В работе с Python Gemini обошла GPT-4 на 1%, добившись корректного решения 74,4% проблем. В тесте Natural2Code результат разработки Google составил 74,9%.

ИИ своими словами

Если углубляться в сравнение результатов различных тестов, достигнутых нейросетями, откровенно говоря, можно заблудиться. Проблема заключается, в том числе, в разных методиках оценки этих результатов. Разобраться в этом могут только суровые профессионалы. Если же говорить проще, то Gemini во многом лучше GPT-4, а в некоторых (пока единичных) случаях лучше человека справляется с различными задачами.

Gemini выдает более точные ответы на элементарные математические и гуманитарные вопросы, решает сложные задачи, понимает текст, пишет код на Python. Нейросеть Google в реальном времени может объяснить, что изображено на картинке, распознает текст на изображениях, анализирует инфографику, генерирует точные субтитры к видео, синхронно переводит человеческую речь.

Учение — свет нейросетей

Gemini обучали на мультимодальном, многоязычном наборе данных, в который вошли веб-документы, книги, код, изображения, аудио- и видео. Модель может эффективно маркировать тексты, не написанные на латинице. Обучение проводилось с использованием тензорных процессоров Google (TPU версий 5 и 4). По сравнению с графическими процессорами тензорные рассчитаны на более высокий объем вычислений с пониженной точностью при более высокой производительности.

Для Gemini был задействован целый парк таких процессоров, благодаря чему удалось значительно сократить среднее время между отказами оборудования и повысить скорость работы нейросети.

Внутри нейрочерепа

Gemini «думает» по принципу цепочек размышлений. Модель генерирует последовательность «мыслей» от общего к частному. Если на этом пути она приходит к консенсусу, то выдает его как ответ. Если же нет, Gemini возвращается к изначальной большой выборке и находит наиболее подходящие к ответу варианты.

При этом нейросеть, по словам разработчиков, успешно справляется с так называемым «забыванием». Дело в том, что текстовые нейросети имеют ограничения по длине контекста: они «помнят не весь разговор с пользователем, а определенное количество последних коммуникаций. Разработчики Google утверждают, что их модель извлекает правильное значение с точностью 98% при запросе по всей длине контекста.

Однако первые сторонние тесты ИИ говорят об обратном: нейросеть должна была решить длинную задачу о количестве деталей, которые завод сделает до обеденного перерыва. В итоге длительных рассуждений Gemini пришла к выводу, что от начала работы до обеденного перерыва пройдет 4 часа. То есть, попросту забыла, о чем шла речь в начале запроса.

ИИ-семейство

Справедливости ради необходимо подчеркнуть, что описанный выше эксперимент проводился не с самой мощной версией Gemini. А их, к слову, целых три.

Ultra — самая мощная модель, обеспечивающая самую современную производительность в широком спектре чрезвычайно сложных задач, включая логические и мультимодальные задачи. Благодаря архитектуре Gemini она эффективно масштабируется на ускорителях TPU. Именно эта модель смогла добиться новых рекордов в тестах.

Pro — модель, оптимизированная для боле низкой производительности. Именно над ней проводился эксперимент.

Nano — самая «маленькая» модель, предназначенная для работы на портативных устройствах. Она уже вмонтирована во все новые смартфоны Google Pixel 8 Pro. Нейросеть, в частности, может сама отвечать на сообщения в мессенджерах.

Немного о «черном зеркале»

Впечатляющие результаты Gemini, в особенности ее способность размышлять, могут окрылить мечтателей, ждущих возможности общаться со своим смартфоном, как с живым человеком. Но они также должны насторожить, если не напугать.

Закончить этот обзор хочется словами бывшего коммерческого директора научно-исследовательского центра X Development (ранее — Google X) Мохаммада «Мо» Гавдата. В мае 2023 года в подкасте Secret Leader он отметил, что в ближайшие несколько лет нейросети беспрецедентно изменят мир. При чем речь шла не о десятилетиях, а о 2025-2026 годах.

«Предположим, что машины будут в миллиард раз умнее или они станут значительно умнее нас. Давайте представим это в перспективе. ChatGPT сегодня моделирует IQ 155. У Эйнштейна было 160. У самого умного человека на планете IQ 208-210, если я правильно помню. Но мы сравниваем Эйнштейна с машиной. Я вам открыто скажу, эксперты по ИИ говорят, что это только очень-очень-очень маленькая верхушка айсберга. ChatGPT-4 стал в 10 раз умнее, чем несколько месяцев назад. И если сейчас не будет изменений, это означает, что ChatGPT-5 в течение следующих нескольких месяцев может иметь IQ 1600», — подчеркнул Мо Гавдат.

Эксперт призвал правительства ввести налог в 98% для компаний, которые работают на базе ИИ. Таким образом можно будет замедлить развитие нейросетей, а также поддержать огромное количество людей, которые потеряют работу из-за их внедрения.

«Наша жадность затрагивает невинных. Реальность в том, что эта гонка вооружений не заинтересована в том, что получит от нее обычный человек. Все дело в том, что каждая строчка кода, написанная сегодня в ИИ, направлена на то, чтобы победить соперника. Это не для того, чтобы улучшить жизнь третьей стороны», — подытожил Мо Гавдат.

При этом в презентации Google, когда речь заходит о безопасности, эксперты рассказывают, как Gemini сможет бороться с обидным для разных людей контентом. А акции материнской компании разработчиков — Alphabet — между тем выросли на 5% с момента анонса нейросети. 


[DETAIL_PICTURE] => Array ( [ID] => 533 [TIMESTAMP_X] => 27.12.2023 16:42:15 [MODULE_ID] => iblock [HEIGHT] => 1200 [WIDTH] => 1600 [FILE_SIZE] => 1190038 [CONTENT_TYPE] => image/jpeg [SUBDIR] => iblock/1f1/ofp3lnwatxddg1dy04ohb2abbauj4rkv [FILE_NAME] => freepik_freepik_2_.jpg [ORIGINAL_NAME] => freepik-freepik-(2).jpg [DESCRIPTION] => [HANDLER_ID] => [EXTERNAL_ID] => a781a0cd7d42208332c4b47ddc68c64c [VERSION_ORIGINAL_ID] => [META] => [SRC] => /upload/iblock/1f1/ofp3lnwatxddg1dy04ohb2abbauj4rkv/freepik_freepik_2_.jpg [UNSAFE_SRC] => /upload/iblock/1f1/ofp3lnwatxddg1dy04ohb2abbauj4rkv/freepik_freepik_2_.jpg [SAFE_SRC] => /upload/iblock/1f1/ofp3lnwatxddg1dy04ohb2abbauj4rkv/freepik_freepik_2_.jpg [ALT] => Gemini: новый бог ИИ, приманка для СМИ или убийца человечества? [TITLE] => Gemini: новый бог ИИ, приманка для СМИ или убийца человечества? ) [~DETAIL_PICTURE] => 533 [DATE_ACTIVE_FROM] => 12.12.2023 [~DATE_ACTIVE_FROM] => 12.12.2023 [ID] => 212 [~ID] => 212 [IBLOCK_ID] => 1 [~IBLOCK_ID] => 1 [IBLOCK_SECTION_ID] => 9 [~IBLOCK_SECTION_ID] => 9 [DETAIL_TEXT_TYPE] => html [~DETAIL_TEXT_TYPE] => html [PREVIEW_TEXT_TYPE] => html [~PREVIEW_TEXT_TYPE] => html [TIMESTAMP_X] => 27.12.2023 16:42:15 [~TIMESTAMP_X] => 27.12.2023 16:42:15 [ACTIVE_FROM_X] => 2023-12-12 00:00:00 [~ACTIVE_FROM_X] => 2023-12-12 00:00:00 [ACTIVE_FROM] => 12.12.2023 [~ACTIVE_FROM] => 12.12.2023 [LIST_PAGE_URL] => / [~LIST_PAGE_URL] => / [DETAIL_PAGE_URL] => /it-ai/gemini-novyy-bog-ii-primanka-dlya-smi-ili-ubiytsa-chelovechestva-/ [~DETAIL_PAGE_URL] => /it-ai/gemini-novyy-bog-ii-primanka-dlya-smi-ili-ubiytsa-chelovechestva-/ [LANG_DIR] => / [~LANG_DIR] => / [CODE] => gemini-novyy-bog-ii-primanka-dlya-smi-ili-ubiytsa-chelovechestva- [~CODE] => gemini-novyy-bog-ii-primanka-dlya-smi-ili-ubiytsa-chelovechestva- [EXTERNAL_ID] => 212 [~EXTERNAL_ID] => 212 [IBLOCK_TYPE_ID] => news [~IBLOCK_TYPE_ID] => news [IBLOCK_CODE] => news_s1 [~IBLOCK_CODE] => news_s1 [IBLOCK_EXTERNAL_ID] => furniture_news_s1 [~IBLOCK_EXTERNAL_ID] => furniture_news_s1 [LID] => s1 [~LID] => s1 [NAV_RESULT] => [NAV_CACHED_DATA] => [DISPLAY_ACTIVE_FROM] => 12.12.2023 [IPROPERTY_VALUES] => Array ( [SECTION_META_TITLE] => Gemini: новый бог ИИ, приманка для СМИ или убийца человечества? [ELEMENT_META_TITLE] => Gemini: новый бог ИИ, приманка для СМИ или убийца человечества? ) [FIELDS] => Array ( [NAME] => Gemini: новый бог ИИ, приманка для СМИ или убийца человечества? [TAGS] => искусственный интеллект, прогнозы, цифровизация, социокультурный аспект [PREVIEW_TEXT] =>

AGI — три заветные буквы для разработчиков и фанатов искусственного интеллекта. За ними скрывается так называемый общий или сильный ИИ (artificial general intelligence) — гипотетическая нейросеть, способная выполнять любую интеллектуальную задачу на уровне, равном или превосходящем человеческий. Такие способности открывают огромные возможности для человечества и… ставят его существование под угрозу.

[PREVIEW_PICTURE] => Array ( [ID] => 532 [TIMESTAMP_X] => 27.12.2023 16:42:15 [MODULE_ID] => iblock [HEIGHT] => 768 [WIDTH] => 1024 [FILE_SIZE] => 197303 [CONTENT_TYPE] => image/jpeg [SUBDIR] => iblock/99d/wm80vwjj4fz5y0e1sj9sg08cxkpw62aw [FILE_NAME] => freepik_freepik_2_.jpg [ORIGINAL_NAME] => freepik-freepik-(2).jpg [DESCRIPTION] => [HANDLER_ID] => [EXTERNAL_ID] => c8f71f48abc29bfcd6ab8dae9198b7d1 [VERSION_ORIGINAL_ID] => [META] => [SRC] => /upload/iblock/99d/wm80vwjj4fz5y0e1sj9sg08cxkpw62aw/freepik_freepik_2_.jpg [UNSAFE_SRC] => /upload/iblock/99d/wm80vwjj4fz5y0e1sj9sg08cxkpw62aw/freepik_freepik_2_.jpg [SAFE_SRC] => /upload/iblock/99d/wm80vwjj4fz5y0e1sj9sg08cxkpw62aw/freepik_freepik_2_.jpg [ALT] => Gemini: новый бог ИИ, приманка для СМИ или убийца человечества? [TITLE] => Gemini: новый бог ИИ, приманка для СМИ или убийца человечества? ) [DETAIL_TEXT] =>

Близки ли мы к созданию AGI? Один из лидеров разработки нейросетей — корпорация Google — говорит, что очень. И в подтверждение этого представляет миру свое новое продуктовое семейство — Gemini. По словам генерального директора нейросетевого отделения Google DeepMind Демиса Хассабиса, Gemini — самая крупная и способная модель корпорации.

«Это значит, что она может понимать окружающий мир так, как это делаем мы, и поглощает любой тип информации: текст, код, аудио, видео и изображения. Например, в каждой из 50 предметных областей, которые мы тестировали, она также хороша, как и специалисты», — рассказал эксперт.

Сеть на все руки

Именно мультимодальность — то есть способность работать с разными видами информации — является ключевой особенностью Gemini. Справедливости ради необходимо отметить, что это не первая мультимодальная нейросеть. Еще в 2022 году один из главных конкурентов Google Open AI представили DALL-E, которая умеет работать как с изображениями, так и с текстами. Правда, для последнего ее нужно «прикрутить» к ChatGPT.

Gemini, в свою очередь, изначально создавался как мультимодальный ИИ, отметил один из его разработчиков Ориол Виньялс. То есть обработка изображений, аудио, видео, текста и кода происходит в нем бесшовно. Проще говоря, одновременно.

Так, например, Gemini может разобраться в беспорядочном подчерке ученика, который пишет на листке решение поставленной учителем задачи, понять формулировку задачи, преобразовать ее и решение в математический текст, определить место, где ученик допустил ошибку, и предложить проработанное правильное решение. Это стало возможным благодаря тому, что нейросеть изначально обучали одновременно использовать тексты, изображения, аудио и видео.

Нейросессия

Согласно данным разработчиков, новинка Google превосходит другие существующие нейросети в 30 из 32 существующих тестов. Громче всего как разработчики, так и СМИ говорят об успехах Gemini в тесте MMLU (measuring massive multitask language understanding — массовое понимание языка в многозадачном режиме).

MMLU — эталонный тест, предназначенный для оценки производительности больших языковых моделей (LLM) при выполнении различных задач, включая ответы на вопросы, обобщение и генерацию кода. Он охватывает 57 областей знаний, включая гуманитарные, юридические, социальные, естественные науки, технологию, инженерию и математику. Для достижения высокой точности в этом тесте модели должны обладать обширными знаниями окружающего мира и способностью решать проблемы. При этом от других бенчмарков MMLU отличает наличие как очень простых, так и максимально сложных и неоднозначных вопросов в каждой из областей.

Создатели теста сперва установили базовый уровень возможностей человека-неспециалиста. Общая точность их ответов составила 34,5%. Эффективность работы эксперта оценивается авторами бенчмарка на уровне 89,8%. Лучший средний результат среди нейросетей показывала GPT-4 — 87.29%. Так было до последнего времени, пока тест не прошла Gemini. Нейросеть достигла 90,4%, превзойдя не только конкурента, но и человека. Важно уточнить, что результаты MMLU оцениваются с помощью различных методик, и по другой версии Gemini проигрывает GPT-4 — 83,7% против 86,4%.

Серьезных успехов Gemini добилась и в тесте MMMU (massive multi-discipline multimodal understanding — масштабное междисциплинарное мультимодальное понимание). Этот бенчмарк направлен на то, чтобы охватить знания уровня колледжа с помощью 30 графических форматов, в том числе диаграмм, таблиц, химических формул, фотографий, картин, геометрических фигур, нотных листов и т. д. При этом тест требует обдуманных рассуждений с использованием предметных знаний.

Gemini обошла GPT по среднему показателю: 59,4 против 56,8. Разработка Google оказалась лучше в искусстве и дизайне (70,0 к 65,8), медицине (67,3 к 64,7), гуманитарных и социальных науках (78,3 к 72,5), технологии и английском языке (47,1 к 36,7). При этом нейросеть Open AI оказалась лучше в бизнесе (59,3 к 56,7) и науке (54,7 к 48,0). Тем не мнее высокие показатели Gemini иллюстрируют большие возможности нейросети в кросс-модальном рассуждении на основе аудио, изображений и текста.

Говоря об уникальных возможностях Gemini в области математики, разработчики отмечают, что в тесте GSM8K нейросеть показала точность 94,4%, побив предыдущий рекорд в 92%. Речь идет о тесте, который состоит из 8,5 тысячи разнообразных школьных задач, для решения которых требуется от 2 до 8 шагов. Такие задачи должен уметь решать способный ученик средней школы. Следует отметить, что, не смотря на данные Google, GPT-4 в этом тесте сумел достичь точности в 96,8%. Отметим, что Gemini, по словам разработчиков, может справляться с математическими задачами и не на английском языке.

При этом, если опираться исключительно на исследование Google, Gemini лучше GPT-4 справилась с задачами повышенной сложности, взятыми из олимпиад по математике для средней и старшей школы (MATH), показав 53,2% против 52,9%.

Кроме того, нейросеть Google проигрывает конкуренту от Open AI в «тесте здравого смысла» — HellaSwag. Для прохождения бенчмарка ИИ должны сделать сложные предсказания, основываясь на понимании внешнего контекста и социокультурной информации. GPT-4 показал точность 95.3%, в то время как Gemini — 87.8%. Кстати, люди стабильно проходят этот тест с показателем 95% и выше.

Лучше GPT-4 справляется и с машинным переводом других языков на английский. А вот в переводе с английского на другие языки и переводе без английского языка Gemini — лидер. По последнему показателю оценка нейросети Google составила 74,8 балла, а Open AI — 73,6.

Еще один важный показатель для мультимодальных нейросетей — возможность писать программный код. В работе с Python Gemini обошла GPT-4 на 1%, добившись корректного решения 74,4% проблем. В тесте Natural2Code результат разработки Google составил 74,9%.

ИИ своими словами

Если углубляться в сравнение результатов различных тестов, достигнутых нейросетями, откровенно говоря, можно заблудиться. Проблема заключается, в том числе, в разных методиках оценки этих результатов. Разобраться в этом могут только суровые профессионалы. Если же говорить проще, то Gemini во многом лучше GPT-4, а в некоторых (пока единичных) случаях лучше человека справляется с различными задачами.

Gemini выдает более точные ответы на элементарные математические и гуманитарные вопросы, решает сложные задачи, понимает текст, пишет код на Python. Нейросеть Google в реальном времени может объяснить, что изображено на картинке, распознает текст на изображениях, анализирует инфографику, генерирует точные субтитры к видео, синхронно переводит человеческую речь.

Учение — свет нейросетей

Gemini обучали на мультимодальном, многоязычном наборе данных, в который вошли веб-документы, книги, код, изображения, аудио- и видео. Модель может эффективно маркировать тексты, не написанные на латинице. Обучение проводилось с использованием тензорных процессоров Google (TPU версий 5 и 4). По сравнению с графическими процессорами тензорные рассчитаны на более высокий объем вычислений с пониженной точностью при более высокой производительности.

Для Gemini был задействован целый парк таких процессоров, благодаря чему удалось значительно сократить среднее время между отказами оборудования и повысить скорость работы нейросети.

Внутри нейрочерепа

Gemini «думает» по принципу цепочек размышлений. Модель генерирует последовательность «мыслей» от общего к частному. Если на этом пути она приходит к консенсусу, то выдает его как ответ. Если же нет, Gemini возвращается к изначальной большой выборке и находит наиболее подходящие к ответу варианты.

При этом нейросеть, по словам разработчиков, успешно справляется с так называемым «забыванием». Дело в том, что текстовые нейросети имеют ограничения по длине контекста: они «помнят не весь разговор с пользователем, а определенное количество последних коммуникаций. Разработчики Google утверждают, что их модель извлекает правильное значение с точностью 98% при запросе по всей длине контекста.

Однако первые сторонние тесты ИИ говорят об обратном: нейросеть должна была решить длинную задачу о количестве деталей, которые завод сделает до обеденного перерыва. В итоге длительных рассуждений Gemini пришла к выводу, что от начала работы до обеденного перерыва пройдет 4 часа. То есть, попросту забыла, о чем шла речь в начале запроса.

ИИ-семейство

Справедливости ради необходимо подчеркнуть, что описанный выше эксперимент проводился не с самой мощной версией Gemini. А их, к слову, целых три.

Ultra — самая мощная модель, обеспечивающая самую современную производительность в широком спектре чрезвычайно сложных задач, включая логические и мультимодальные задачи. Благодаря архитектуре Gemini она эффективно масштабируется на ускорителях TPU. Именно эта модель смогла добиться новых рекордов в тестах.

Pro — модель, оптимизированная для боле низкой производительности. Именно над ней проводился эксперимент.

Nano — самая «маленькая» модель, предназначенная для работы на портативных устройствах. Она уже вмонтирована во все новые смартфоны Google Pixel 8 Pro. Нейросеть, в частности, может сама отвечать на сообщения в мессенджерах.

Немного о «черном зеркале»

Впечатляющие результаты Gemini, в особенности ее способность размышлять, могут окрылить мечтателей, ждущих возможности общаться со своим смартфоном, как с живым человеком. Но они также должны насторожить, если не напугать.

Закончить этот обзор хочется словами бывшего коммерческого директора научно-исследовательского центра X Development (ранее — Google X) Мохаммада «Мо» Гавдата. В мае 2023 года в подкасте Secret Leader он отметил, что в ближайшие несколько лет нейросети беспрецедентно изменят мир. При чем речь шла не о десятилетиях, а о 2025-2026 годах.

«Предположим, что машины будут в миллиард раз умнее или они станут значительно умнее нас. Давайте представим это в перспективе. ChatGPT сегодня моделирует IQ 155. У Эйнштейна было 160. У самого умного человека на планете IQ 208-210, если я правильно помню. Но мы сравниваем Эйнштейна с машиной. Я вам открыто скажу, эксперты по ИИ говорят, что это только очень-очень-очень маленькая верхушка айсберга. ChatGPT-4 стал в 10 раз умнее, чем несколько месяцев назад. И если сейчас не будет изменений, это означает, что ChatGPT-5 в течение следующих нескольких месяцев может иметь IQ 1600», — подчеркнул Мо Гавдат.

Эксперт призвал правительства ввести налог в 98% для компаний, которые работают на базе ИИ. Таким образом можно будет замедлить развитие нейросетей, а также поддержать огромное количество людей, которые потеряют работу из-за их внедрения.

«Наша жадность затрагивает невинных. Реальность в том, что эта гонка вооружений не заинтересована в том, что получит от нее обычный человек. Все дело в том, что каждая строчка кода, написанная сегодня в ИИ, направлена на то, чтобы победить соперника. Это не для того, чтобы улучшить жизнь третьей стороны», — подытожил Мо Гавдат.

При этом в презентации Google, когда речь заходит о безопасности, эксперты рассказывают, как Gemini сможет бороться с обидным для разных людей контентом. А акции материнской компании разработчиков — Alphabet — между тем выросли на 5% с момента анонса нейросети. 


[DETAIL_PICTURE] => Array ( [ID] => 533 [TIMESTAMP_X] => 27.12.2023 16:42:15 [MODULE_ID] => iblock [HEIGHT] => 1200 [WIDTH] => 1600 [FILE_SIZE] => 1190038 [CONTENT_TYPE] => image/jpeg [SUBDIR] => iblock/1f1/ofp3lnwatxddg1dy04ohb2abbauj4rkv [FILE_NAME] => freepik_freepik_2_.jpg [ORIGINAL_NAME] => freepik-freepik-(2).jpg [DESCRIPTION] => [HANDLER_ID] => [EXTERNAL_ID] => a781a0cd7d42208332c4b47ddc68c64c [VERSION_ORIGINAL_ID] => [META] => [SRC] => /upload/iblock/1f1/ofp3lnwatxddg1dy04ohb2abbauj4rkv/freepik_freepik_2_.jpg [UNSAFE_SRC] => /upload/iblock/1f1/ofp3lnwatxddg1dy04ohb2abbauj4rkv/freepik_freepik_2_.jpg [SAFE_SRC] => /upload/iblock/1f1/ofp3lnwatxddg1dy04ohb2abbauj4rkv/freepik_freepik_2_.jpg [ALT] => Gemini: новый бог ИИ, приманка для СМИ или убийца человечества? [TITLE] => Gemini: новый бог ИИ, приманка для СМИ или убийца человечества? ) [DATE_ACTIVE_FROM] => 12.12.2023 ) [PROPERTIES] => Array ( [AUTHOR] => Array ( [ID] => 9 [TIMESTAMP_X] => 2024-04-16 13:42:26 [IBLOCK_ID] => 1 [NAME] => Автор статьи [ACTIVE] => Y [SORT] => 500 [CODE] => AUTHOR [DEFAULT_VALUE] => [PROPERTY_TYPE] => S [ROW_COUNT] => 1 [COL_COUNT] => 30 [LIST_TYPE] => L [MULTIPLE] => N [XML_ID] => [FILE_TYPE] => [MULTIPLE_CNT] => 5 [TMP_ID] => [LINK_IBLOCK_ID] => 0 [WITH_DESCRIPTION] => N [SEARCHABLE] => N [FILTRABLE] => N [IS_REQUIRED] => N [VERSION] => 1 [USER_TYPE] => [USER_TYPE_SETTINGS] => a:0:{} [HINT] => [PROPERTY_VALUE_ID] => 786 [VALUE] => Аркадий Гончаров [DESCRIPTION] => [VALUE_ENUM] => [VALUE_XML_ID] => [VALUE_SORT] => [~VALUE] => Аркадий Гончаров [~DESCRIPTION] => [~NAME] => Автор статьи [~DEFAULT_VALUE] => ) [AU_PHOTO] => Array ( [ID] => 10 [TIMESTAMP_X] => 2024-04-16 13:42:26 [IBLOCK_ID] => 1 [NAME] => Автор фото [ACTIVE] => Y [SORT] => 500 [CODE] => AU_PHOTO [DEFAULT_VALUE] => [PROPERTY_TYPE] => S [ROW_COUNT] => 1 [COL_COUNT] => 30 [LIST_TYPE] => L [MULTIPLE] => N [XML_ID] => [FILE_TYPE] => [MULTIPLE_CNT] => 5 [TMP_ID] => [LINK_IBLOCK_ID] => 0 [WITH_DESCRIPTION] => N [SEARCHABLE] => N [FILTRABLE] => N [IS_REQUIRED] => N [VERSION] => 1 [USER_TYPE] => [USER_TYPE_SETTINGS] => a:0:{} [HINT] => [PROPERTY_VALUE_ID] => 787 [VALUE] => Freepik – Freepik, Chandlervid85, Kbza [DESCRIPTION] => [VALUE_ENUM] => [VALUE_XML_ID] => [VALUE_SORT] => [~VALUE] => Freepik – Freepik, Chandlervid85, Kbza [~DESCRIPTION] => [~NAME] => Автор фото [~DEFAULT_VALUE] => ) [IMG_MAIN] => Array ( [ID] => 11 [TIMESTAMP_X] => 2024-04-16 13:42:26 [IBLOCK_ID] => 1 [NAME] => Картинка для Главной [ACTIVE] => Y [SORT] => 500 [CODE] => IMG_MAIN [DEFAULT_VALUE] => [PROPERTY_TYPE] => F [ROW_COUNT] => 1 [COL_COUNT] => 30 [LIST_TYPE] => L [MULTIPLE] => N [XML_ID] => [FILE_TYPE] => [MULTIPLE_CNT] => 5 [TMP_ID] => [LINK_IBLOCK_ID] => 0 [WITH_DESCRIPTION] => N [SEARCHABLE] => N [FILTRABLE] => N [IS_REQUIRED] => N [VERSION] => 1 [USER_TYPE] => [USER_TYPE_SETTINGS] => a:0:{} [HINT] => [PROPERTY_VALUE_ID] => 788 [VALUE] => 534 [DESCRIPTION] => [VALUE_ENUM] => [VALUE_XML_ID] => [VALUE_SORT] => [~VALUE] => 534 [~DESCRIPTION] => [~NAME] => Картинка для Главной [~DEFAULT_VALUE] => ) [MAIN_THEME] => Array ( [ID] => 12 [TIMESTAMP_X] => 2024-04-16 13:42:26 [IBLOCK_ID] => 1 [NAME] => Главная тема [ACTIVE] => Y [SORT] => 500 [CODE] => MAIN_THEME [DEFAULT_VALUE] => [PROPERTY_TYPE] => L [ROW_COUNT] => 1 [COL_COUNT] => 30 [LIST_TYPE] => L [MULTIPLE] => N [XML_ID] => [FILE_TYPE] => [MULTIPLE_CNT] => 5 [TMP_ID] => [LINK_IBLOCK_ID] => 0 [WITH_DESCRIPTION] => N [SEARCHABLE] => N [FILTRABLE] => N [IS_REQUIRED] => N [VERSION] => 1 [USER_TYPE] => [USER_TYPE_SETTINGS] => a:0:{} [HINT] => [PROPERTY_VALUE_ID] => [VALUE] => [DESCRIPTION] => [VALUE_ENUM] => [VALUE_XML_ID] => [VALUE_SORT] => [VALUE_ENUM_ID] => [~VALUE] => [~DESCRIPTION] => [~NAME] => Главная тема [~DEFAULT_VALUE] => ) [MAIN_SECT] => Array ( [ID] => 13 [TIMESTAMP_X] => 2024-04-16 13:42:26 [IBLOCK_ID] => 1 [NAME] => В своём разделе [ACTIVE] => Y [SORT] => 500 [CODE] => MAIN_SECT [DEFAULT_VALUE] => [PROPERTY_TYPE] => L [ROW_COUNT] => 1 [COL_COUNT] => 30 [LIST_TYPE] => L [MULTIPLE] => N [XML_ID] => [FILE_TYPE] => [MULTIPLE_CNT] => 5 [TMP_ID] => [LINK_IBLOCK_ID] => 0 [WITH_DESCRIPTION] => N [SEARCHABLE] => N [FILTRABLE] => N [IS_REQUIRED] => N [VERSION] => 1 [USER_TYPE] => [USER_TYPE_SETTINGS] => a:0:{} [HINT] => [PROPERTY_VALUE_ID] => [VALUE] => [DESCRIPTION] => [VALUE_ENUM] => [VALUE_XML_ID] => [VALUE_SORT] => [VALUE_ENUM_ID] => [~VALUE] => [~DESCRIPTION] => [~NAME] => В своём разделе [~DEFAULT_VALUE] => ) [VIDEO_YOU] => Array ( [ID] => 14 [TIMESTAMP_X] => 2024-04-16 13:42:26 [IBLOCK_ID] => 1 [NAME] => Видео youtobe [ACTIVE] => Y [SORT] => 500 [CODE] => VIDEO_YOU [DEFAULT_VALUE] => [PROPERTY_TYPE] => S [ROW_COUNT] => 1 [COL_COUNT] => 30 [LIST_TYPE] => L [MULTIPLE] => N [XML_ID] => [FILE_TYPE] => [MULTIPLE_CNT] => 5 [TMP_ID] => [LINK_IBLOCK_ID] => 0 [WITH_DESCRIPTION] => N [SEARCHABLE] => N [FILTRABLE] => N [IS_REQUIRED] => N [VERSION] => 1 [USER_TYPE] => [USER_TYPE_SETTINGS] => a:0:{} [HINT] => [PROPERTY_VALUE_ID] => [VALUE] => [DESCRIPTION] => [VALUE_ENUM] => [VALUE_XML_ID] => [VALUE_SORT] => [~VALUE] => [~DESCRIPTION] => [~NAME] => Видео youtobe [~DEFAULT_VALUE] => ) ) [DISPLAY_PROPERTIES] => Array ( [AUTHOR] => Array ( [ID] => 9 [TIMESTAMP_X] => 2024-04-16 13:42:26 [IBLOCK_ID] => 1 [NAME] => Автор статьи [ACTIVE] => Y [SORT] => 500 [CODE] => AUTHOR [DEFAULT_VALUE] => [PROPERTY_TYPE] => S [ROW_COUNT] => 1 [COL_COUNT] => 30 [LIST_TYPE] => L [MULTIPLE] => N [XML_ID] => [FILE_TYPE] => [MULTIPLE_CNT] => 5 [TMP_ID] => [LINK_IBLOCK_ID] => 0 [WITH_DESCRIPTION] => N [SEARCHABLE] => N [FILTRABLE] => N [IS_REQUIRED] => N [VERSION] => 1 [USER_TYPE] => [USER_TYPE_SETTINGS] => a:0:{} [HINT] => [PROPERTY_VALUE_ID] => 786 [VALUE] => Аркадий Гончаров [DESCRIPTION] => [VALUE_ENUM] => [VALUE_XML_ID] => [VALUE_SORT] => [~VALUE] => Аркадий Гончаров [~DESCRIPTION] => [~NAME] => Автор статьи [~DEFAULT_VALUE] => [DISPLAY_VALUE] => Аркадий Гончаров ) [AU_PHOTO] => Array ( [ID] => 10 [TIMESTAMP_X] => 2024-04-16 13:42:26 [IBLOCK_ID] => 1 [NAME] => Автор фото [ACTIVE] => Y [SORT] => 500 [CODE] => AU_PHOTO [DEFAULT_VALUE] => [PROPERTY_TYPE] => S [ROW_COUNT] => 1 [COL_COUNT] => 30 [LIST_TYPE] => L [MULTIPLE] => N [XML_ID] => [FILE_TYPE] => [MULTIPLE_CNT] => 5 [TMP_ID] => [LINK_IBLOCK_ID] => 0 [WITH_DESCRIPTION] => N [SEARCHABLE] => N [FILTRABLE] => N [IS_REQUIRED] => N [VERSION] => 1 [USER_TYPE] => [USER_TYPE_SETTINGS] => a:0:{} [HINT] => [PROPERTY_VALUE_ID] => 787 [VALUE] => Freepik – Freepik, Chandlervid85, Kbza [DESCRIPTION] => [VALUE_ENUM] => [VALUE_XML_ID] => [VALUE_SORT] => [~VALUE] => Freepik – Freepik, Chandlervid85, Kbza [~DESCRIPTION] => [~NAME] => Автор фото [~DEFAULT_VALUE] => [DISPLAY_VALUE] => Freepik – Freepik, Chandlervid85, Kbza ) ) [IBLOCK] => Array ( [ID] => 1 [~ID] => 1 [TIMESTAMP_X] => 16.04.2024 13:42:26 [~TIMESTAMP_X] => 16.04.2024 13:42:26 [IBLOCK_TYPE_ID] => news [~IBLOCK_TYPE_ID] => news [LID] => s1 [~LID] => s1 [CODE] => news_s1 [~CODE] => news_s1 [API_CODE] => [~API_CODE] => [REST_ON] => N [~REST_ON] => N [NAME] => Статьи [~NAME] => Статьи [ACTIVE] => Y [~ACTIVE] => Y [SORT] => 500 [~SORT] => 500 [LIST_PAGE_URL] => [~LIST_PAGE_URL] => [DETAIL_PAGE_URL] => #SITE_DIR#/#SECTION_CODE#/#ELEMENT_CODE#/ [~DETAIL_PAGE_URL] => #SITE_DIR#/#SECTION_CODE#/#ELEMENT_CODE#/ [SECTION_PAGE_URL] => #SITE_DIR#/#SECTION_CODE# [~SECTION_PAGE_URL] => #SITE_DIR#/#SECTION_CODE# [CANONICAL_PAGE_URL] => [~CANONICAL_PAGE_URL] => [PICTURE] => [~PICTURE] => [DESCRIPTION] => [~DESCRIPTION] => [DESCRIPTION_TYPE] => text [~DESCRIPTION_TYPE] => text [RSS_TTL] => 24 [~RSS_TTL] => 24 [RSS_ACTIVE] => Y [~RSS_ACTIVE] => Y [RSS_FILE_ACTIVE] => N [~RSS_FILE_ACTIVE] => N [RSS_FILE_LIMIT] => [~RSS_FILE_LIMIT] => [RSS_FILE_DAYS] => [~RSS_FILE_DAYS] => [RSS_YANDEX_ACTIVE] => N [~RSS_YANDEX_ACTIVE] => N [XML_ID] => furniture_news_s1 [~XML_ID] => furniture_news_s1 [TMP_ID] => 6cfbdd5e02a2f38f8bf51afa68b2792c [~TMP_ID] => 6cfbdd5e02a2f38f8bf51afa68b2792c [INDEX_ELEMENT] => Y [~INDEX_ELEMENT] => Y [INDEX_SECTION] => Y [~INDEX_SECTION] => Y [WORKFLOW] => N [~WORKFLOW] => N [BIZPROC] => N [~BIZPROC] => N [SECTION_CHOOSER] => L [~SECTION_CHOOSER] => L [LIST_MODE] => [~LIST_MODE] => [RIGHTS_MODE] => S [~RIGHTS_MODE] => S [SECTION_PROPERTY] => N [~SECTION_PROPERTY] => N [PROPERTY_INDEX] => N [~PROPERTY_INDEX] => N [VERSION] => 1 [~VERSION] => 1 [LAST_CONV_ELEMENT] => 0 [~LAST_CONV_ELEMENT] => 0 [SOCNET_GROUP_ID] => [~SOCNET_GROUP_ID] => [EDIT_FILE_BEFORE] => [~EDIT_FILE_BEFORE] => [EDIT_FILE_AFTER] => [~EDIT_FILE_AFTER] => [SECTIONS_NAME] => Разделы [~SECTIONS_NAME] => Разделы [SECTION_NAME] => Раздел [~SECTION_NAME] => Раздел [ELEMENTS_NAME] => Статьи [~ELEMENTS_NAME] => Статьи [ELEMENT_NAME] => Статья [~ELEMENT_NAME] => Статья [EXTERNAL_ID] => furniture_news_s1 [~EXTERNAL_ID] => furniture_news_s1 [LANG_DIR] => / [~LANG_DIR] => / [SERVER_NAME] => roboticsworld.ru [~SERVER_NAME] => roboticsworld.ru ) [SECTION] => Array ( [PATH] => Array ( [0] => Array ( [ID] => 9 [~ID] => 9 [CODE] => it-ai [~CODE] => it-ai [XML_ID] => [~XML_ID] => [EXTERNAL_ID] => [~EXTERNAL_ID] => [IBLOCK_ID] => 1 [~IBLOCK_ID] => 1 [IBLOCK_SECTION_ID] => [~IBLOCK_SECTION_ID] => [SORT] => 300 [~SORT] => 300 [NAME] => IT/AI [~NAME] => IT/AI [ACTIVE] => Y [~ACTIVE] => Y [DEPTH_LEVEL] => 1 [~DEPTH_LEVEL] => 1 [SECTION_PAGE_URL] => /it-ai [~SECTION_PAGE_URL] => /it-ai [IBLOCK_TYPE_ID] => news [~IBLOCK_TYPE_ID] => news [IBLOCK_CODE] => news_s1 [~IBLOCK_CODE] => news_s1 [IBLOCK_EXTERNAL_ID] => furniture_news_s1 [~IBLOCK_EXTERNAL_ID] => furniture_news_s1 [GLOBAL_ACTIVE] => Y [~GLOBAL_ACTIVE] => Y [IPROPERTY_VALUES] => Array ( [SECTION_META_TITLE] => IT/AI [ELEMENT_META_TITLE] => IT/AI ) ) ) ) [SECTION_URL] => /it-ai [META_TAGS] => Array ( [TITLE] => Gemini: новый бог ИИ, приманка для СМИ или убийца человечества? [BROWSER_TITLE] => Gemini: новый бог ИИ, приманка для СМИ или убийца человечества? [KEYWORDS] => [DESCRIPTION] => ) )

Gemini: новый бог ИИ, приманка для СМИ или убийца человечества?

AGI — три заветные буквы для разработчиков и фанатов искусственного интеллекта. За ними скрывается так называемый общий или сильный ИИ (artificial general intelligence) — гипотетическая нейросеть, способная выполнять любую интеллектуальную задачу на уровне, равном или превосходящем человеческий. Такие способности открывают огромные возможности для человечества и… ставят его существование под угрозу.

Близки ли мы к созданию AGI? Один из лидеров разработки нейросетей — корпорация Google — говорит, что очень. И в подтверждение этого представляет миру свое новое продуктовое семейство — Gemini. По словам генерального директора нейросетевого отделения Google DeepMind Демиса Хассабиса, Gemini — самая крупная и способная модель корпорации.

«Это значит, что она может понимать окружающий мир так, как это делаем мы, и поглощает любой тип информации: текст, код, аудио, видео и изображения. Например, в каждой из 50 предметных областей, которые мы тестировали, она также хороша, как и специалисты», — рассказал эксперт.

Сеть на все руки

Именно мультимодальность — то есть способность работать с разными видами информации — является ключевой особенностью Gemini. Справедливости ради необходимо отметить, что это не первая мультимодальная нейросеть. Еще в 2022 году один из главных конкурентов Google Open AI представили DALL-E, которая умеет работать как с изображениями, так и с текстами. Правда, для последнего ее нужно «прикрутить» к ChatGPT.

Gemini, в свою очередь, изначально создавался как мультимодальный ИИ, отметил один из его разработчиков Ориол Виньялс. То есть обработка изображений, аудио, видео, текста и кода происходит в нем бесшовно. Проще говоря, одновременно.

Так, например, Gemini может разобраться в беспорядочном подчерке ученика, который пишет на листке решение поставленной учителем задачи, понять формулировку задачи, преобразовать ее и решение в математический текст, определить место, где ученик допустил ошибку, и предложить проработанное правильное решение. Это стало возможным благодаря тому, что нейросеть изначально обучали одновременно использовать тексты, изображения, аудио и видео.

Нейросессия

Согласно данным разработчиков, новинка Google превосходит другие существующие нейросети в 30 из 32 существующих тестов. Громче всего как разработчики, так и СМИ говорят об успехах Gemini в тесте MMLU (measuring massive multitask language understanding — массовое понимание языка в многозадачном режиме).

MMLU — эталонный тест, предназначенный для оценки производительности больших языковых моделей (LLM) при выполнении различных задач, включая ответы на вопросы, обобщение и генерацию кода. Он охватывает 57 областей знаний, включая гуманитарные, юридические, социальные, естественные науки, технологию, инженерию и математику. Для достижения высокой точности в этом тесте модели должны обладать обширными знаниями окружающего мира и способностью решать проблемы. При этом от других бенчмарков MMLU отличает наличие как очень простых, так и максимально сложных и неоднозначных вопросов в каждой из областей.

Создатели теста сперва установили базовый уровень возможностей человека-неспециалиста. Общая точность их ответов составила 34,5%. Эффективность работы эксперта оценивается авторами бенчмарка на уровне 89,8%. Лучший средний результат среди нейросетей показывала GPT-4 — 87.29%. Так было до последнего времени, пока тест не прошла Gemini. Нейросеть достигла 90,4%, превзойдя не только конкурента, но и человека. Важно уточнить, что результаты MMLU оцениваются с помощью различных методик, и по другой версии Gemini проигрывает GPT-4 — 83,7% против 86,4%.

Серьезных успехов Gemini добилась и в тесте MMMU (massive multi-discipline multimodal understanding — масштабное междисциплинарное мультимодальное понимание). Этот бенчмарк направлен на то, чтобы охватить знания уровня колледжа с помощью 30 графических форматов, в том числе диаграмм, таблиц, химических формул, фотографий, картин, геометрических фигур, нотных листов и т. д. При этом тест требует обдуманных рассуждений с использованием предметных знаний.

Gemini обошла GPT по среднему показателю: 59,4 против 56,8. Разработка Google оказалась лучше в искусстве и дизайне (70,0 к 65,8), медицине (67,3 к 64,7), гуманитарных и социальных науках (78,3 к 72,5), технологии и английском языке (47,1 к 36,7). При этом нейросеть Open AI оказалась лучше в бизнесе (59,3 к 56,7) и науке (54,7 к 48,0). Тем не мнее высокие показатели Gemini иллюстрируют большие возможности нейросети в кросс-модальном рассуждении на основе аудио, изображений и текста.

Говоря об уникальных возможностях Gemini в области математики, разработчики отмечают, что в тесте GSM8K нейросеть показала точность 94,4%, побив предыдущий рекорд в 92%. Речь идет о тесте, который состоит из 8,5 тысячи разнообразных школьных задач, для решения которых требуется от 2 до 8 шагов. Такие задачи должен уметь решать способный ученик средней школы. Следует отметить, что, не смотря на данные Google, GPT-4 в этом тесте сумел достичь точности в 96,8%. Отметим, что Gemini, по словам разработчиков, может справляться с математическими задачами и не на английском языке.

При этом, если опираться исключительно на исследование Google, Gemini лучше GPT-4 справилась с задачами повышенной сложности, взятыми из олимпиад по математике для средней и старшей школы (MATH), показав 53,2% против 52,9%.

Кроме того, нейросеть Google проигрывает конкуренту от Open AI в «тесте здравого смысла» — HellaSwag. Для прохождения бенчмарка ИИ должны сделать сложные предсказания, основываясь на понимании внешнего контекста и социокультурной информации. GPT-4 показал точность 95.3%, в то время как Gemini — 87.8%. Кстати, люди стабильно проходят этот тест с показателем 95% и выше.

Лучше GPT-4 справляется и с машинным переводом других языков на английский. А вот в переводе с английского на другие языки и переводе без английского языка Gemini — лидер. По последнему показателю оценка нейросети Google составила 74,8 балла, а Open AI — 73,6.

Еще один важный показатель для мультимодальных нейросетей — возможность писать программный код. В работе с Python Gemini обошла GPT-4 на 1%, добившись корректного решения 74,4% проблем. В тесте Natural2Code результат разработки Google составил 74,9%.

ИИ своими словами

Если углубляться в сравнение результатов различных тестов, достигнутых нейросетями, откровенно говоря, можно заблудиться. Проблема заключается, в том числе, в разных методиках оценки этих результатов. Разобраться в этом могут только суровые профессионалы. Если же говорить проще, то Gemini во многом лучше GPT-4, а в некоторых (пока единичных) случаях лучше человека справляется с различными задачами.

Gemini выдает более точные ответы на элементарные математические и гуманитарные вопросы, решает сложные задачи, понимает текст, пишет код на Python. Нейросеть Google в реальном времени может объяснить, что изображено на картинке, распознает текст на изображениях, анализирует инфографику, генерирует точные субтитры к видео, синхронно переводит человеческую речь.

Учение — свет нейросетей

Gemini обучали на мультимодальном, многоязычном наборе данных, в который вошли веб-документы, книги, код, изображения, аудио- и видео. Модель может эффективно маркировать тексты, не написанные на латинице. Обучение проводилось с использованием тензорных процессоров Google (TPU версий 5 и 4). По сравнению с графическими процессорами тензорные рассчитаны на более высокий объем вычислений с пониженной точностью при более высокой производительности.

Для Gemini был задействован целый парк таких процессоров, благодаря чему удалось значительно сократить среднее время между отказами оборудования и повысить скорость работы нейросети.

Внутри нейрочерепа

Gemini «думает» по принципу цепочек размышлений. Модель генерирует последовательность «мыслей» от общего к частному. Если на этом пути она приходит к консенсусу, то выдает его как ответ. Если же нет, Gemini возвращается к изначальной большой выборке и находит наиболее подходящие к ответу варианты.

При этом нейросеть, по словам разработчиков, успешно справляется с так называемым «забыванием». Дело в том, что текстовые нейросети имеют ограничения по длине контекста: они «помнят не весь разговор с пользователем, а определенное количество последних коммуникаций. Разработчики Google утверждают, что их модель извлекает правильное значение с точностью 98% при запросе по всей длине контекста.

Однако первые сторонние тесты ИИ говорят об обратном: нейросеть должна была решить длинную задачу о количестве деталей, которые завод сделает до обеденного перерыва. В итоге длительных рассуждений Gemini пришла к выводу, что от начала работы до обеденного перерыва пройдет 4 часа. То есть, попросту забыла, о чем шла речь в начале запроса.

ИИ-семейство

Справедливости ради необходимо подчеркнуть, что описанный выше эксперимент проводился не с самой мощной версией Gemini. А их, к слову, целых три.

Ultra — самая мощная модель, обеспечивающая самую современную производительность в широком спектре чрезвычайно сложных задач, включая логические и мультимодальные задачи. Благодаря архитектуре Gemini она эффективно масштабируется на ускорителях TPU. Именно эта модель смогла добиться новых рекордов в тестах.

Pro — модель, оптимизированная для боле низкой производительности. Именно над ней проводился эксперимент.

Nano — самая «маленькая» модель, предназначенная для работы на портативных устройствах. Она уже вмонтирована во все новые смартфоны Google Pixel 8 Pro. Нейросеть, в частности, может сама отвечать на сообщения в мессенджерах.

Немного о «черном зеркале»

Впечатляющие результаты Gemini, в особенности ее способность размышлять, могут окрылить мечтателей, ждущих возможности общаться со своим смартфоном, как с живым человеком. Но они также должны насторожить, если не напугать.

Закончить этот обзор хочется словами бывшего коммерческого директора научно-исследовательского центра X Development (ранее — Google X) Мохаммада «Мо» Гавдата. В мае 2023 года в подкасте Secret Leader он отметил, что в ближайшие несколько лет нейросети беспрецедентно изменят мир. При чем речь шла не о десятилетиях, а о 2025-2026 годах.

«Предположим, что машины будут в миллиард раз умнее или они станут значительно умнее нас. Давайте представим это в перспективе. ChatGPT сегодня моделирует IQ 155. У Эйнштейна было 160. У самого умного человека на планете IQ 208-210, если я правильно помню. Но мы сравниваем Эйнштейна с машиной. Я вам открыто скажу, эксперты по ИИ говорят, что это только очень-очень-очень маленькая верхушка айсберга. ChatGPT-4 стал в 10 раз умнее, чем несколько месяцев назад. И если сейчас не будет изменений, это означает, что ChatGPT-5 в течение следующих нескольких месяцев может иметь IQ 1600», — подчеркнул Мо Гавдат.

Эксперт призвал правительства ввести налог в 98% для компаний, которые работают на базе ИИ. Таким образом можно будет замедлить развитие нейросетей, а также поддержать огромное количество людей, которые потеряют работу из-за их внедрения.

«Наша жадность затрагивает невинных. Реальность в том, что эта гонка вооружений не заинтересована в том, что получит от нее обычный человек. Все дело в том, что каждая строчка кода, написанная сегодня в ИИ, направлена на то, чтобы победить соперника. Это не для того, чтобы улучшить жизнь третьей стороны», — подытожил Мо Гавдат.

При этом в презентации Google, когда речь заходит о безопасности, эксперты рассказывают, как Gemini сможет бороться с обидным для разных людей контентом. А акции материнской компании разработчиков — Alphabet — между тем выросли на 5% с момента анонса нейросети. 


12.12.2023
Аркадий Гончаров
Фото: Freepik – Freepik, Chandlervid85, Kbza

Мы рекомендуем: