";123 Array
(
[NAME] => Gemini: новый бог ИИ, приманка для СМИ или убийца человечества?
[~NAME] => Gemini: новый бог ИИ, приманка для СМИ или убийца человечества?
[TAGS] => искусственный интеллект, прогнозы, цифровизация, социокультурный аспект
[~TAGS] => искусственный интеллект, прогнозы, цифровизация, социокультурный аспект
[PREVIEW_TEXT] =>
AGI — три заветные буквы для разработчиков и фанатов искусственного интеллекта. За ними скрывается так называемый общий или сильный ИИ (artificial general intelligence) — гипотетическая нейросеть, способная выполнять любую интеллектуальную задачу на уровне, равном или превосходящем человеческий. Такие способности открывают огромные возможности для человечества и… ставят его существование под угрозу.
[~PREVIEW_TEXT] =>
AGI — три заветные буквы для разработчиков и фанатов искусственного интеллекта. За ними скрывается так называемый общий или сильный ИИ (artificial general intelligence) — гипотетическая нейросеть, способная выполнять любую интеллектуальную задачу на уровне, равном или превосходящем человеческий. Такие способности открывают огромные возможности для человечества и… ставят его существование под угрозу.
[PREVIEW_PICTURE] => Array
(
[ID] => 532
[TIMESTAMP_X] => 27.12.2023 16:42:15
[MODULE_ID] => iblock
[HEIGHT] => 768
[WIDTH] => 1024
[FILE_SIZE] => 197303
[CONTENT_TYPE] => image/jpeg
[SUBDIR] => iblock/99d/wm80vwjj4fz5y0e1sj9sg08cxkpw62aw
[FILE_NAME] => freepik_freepik_2_.jpg
[ORIGINAL_NAME] => freepik-freepik-(2).jpg
[DESCRIPTION] =>
[HANDLER_ID] =>
[EXTERNAL_ID] => c8f71f48abc29bfcd6ab8dae9198b7d1
[VERSION_ORIGINAL_ID] =>
[META] =>
[SRC] => /upload/iblock/99d/wm80vwjj4fz5y0e1sj9sg08cxkpw62aw/freepik_freepik_2_.jpg
[UNSAFE_SRC] => /upload/iblock/99d/wm80vwjj4fz5y0e1sj9sg08cxkpw62aw/freepik_freepik_2_.jpg
[SAFE_SRC] => /upload/iblock/99d/wm80vwjj4fz5y0e1sj9sg08cxkpw62aw/freepik_freepik_2_.jpg
[ALT] => Gemini: новый бог ИИ, приманка для СМИ или убийца человечества?
[TITLE] => Gemini: новый бог ИИ, приманка для СМИ или убийца человечества?
)
[~PREVIEW_PICTURE] => 532
[DETAIL_TEXT] =>
Близки ли мы к созданию AGI? Один из лидеров разработки нейросетей — корпорация Google — говорит, что очень. И в подтверждение этого представляет миру свое новое продуктовое семейство — Gemini. По словам генерального директора нейросетевого отделения Google DeepMind Демиса Хассабиса, Gemini — самая крупная и способная модель корпорации.
«Это значит, что она может понимать окружающий мир так, как это делаем мы, и поглощает любой тип информации: текст, код, аудио, видео и изображения. Например, в каждой из 50 предметных областей, которые мы тестировали, она также хороша, как и специалисты», — рассказал эксперт.
Сеть на все руки
Именно мультимодальность — то есть способность работать с разными видами информации — является ключевой особенностью Gemini. Справедливости ради необходимо отметить, что это не первая мультимодальная нейросеть. Еще в 2022 году один из главных конкурентов Google Open AI представили DALL-E, которая умеет работать как с изображениями, так и с текстами. Правда, для последнего ее нужно «прикрутить» к ChatGPT.
Gemini, в свою очередь, изначально создавался как мультимодальный ИИ, отметил один из его разработчиков Ориол Виньялс. То есть обработка изображений, аудио, видео, текста и кода происходит в нем бесшовно. Проще говоря, одновременно.
Так, например, Gemini может разобраться в беспорядочном подчерке ученика, который пишет на листке решение поставленной учителем задачи, понять формулировку задачи, преобразовать ее и решение в математический текст, определить место, где ученик допустил ошибку, и предложить проработанное правильное решение. Это стало возможным благодаря тому, что нейросеть изначально обучали одновременно использовать тексты, изображения, аудио и видео.
Нейросессия
Согласно данным разработчиков, новинка Google превосходит другие существующие нейросети в 30 из 32 существующих тестов. Громче всего как разработчики, так и СМИ говорят об успехах Gemini в тесте MMLU (measuring massive multitask language understanding — массовое понимание языка в многозадачном режиме).
MMLU — эталонный тест, предназначенный для оценки производительности больших языковых моделей (LLM) при выполнении различных задач, включая ответы на вопросы, обобщение и генерацию кода. Он охватывает 57 областей знаний, включая гуманитарные, юридические, социальные, естественные науки, технологию, инженерию и математику. Для достижения высокой точности в этом тесте модели должны обладать обширными знаниями окружающего мира и способностью решать проблемы. При этом от других бенчмарков MMLU отличает наличие как очень простых, так и максимально сложных и неоднозначных вопросов в каждой из областей.
Создатели теста сперва установили базовый уровень возможностей человека-неспециалиста. Общая точность их ответов составила 34,5%. Эффективность работы эксперта оценивается авторами бенчмарка на уровне 89,8%. Лучший средний результат среди нейросетей показывала GPT-4 — 87.29%. Так было до последнего времени, пока тест не прошла Gemini. Нейросеть достигла 90,4%, превзойдя не только конкурента, но и человека. Важно уточнить, что результаты MMLU оцениваются с помощью различных методик, и по другой версии Gemini проигрывает GPT-4 — 83,7% против 86,4%.
Серьезных успехов Gemini добилась и в тесте MMMU (massive multi-discipline multimodal understanding — масштабное междисциплинарное мультимодальное понимание). Этот бенчмарк направлен на то, чтобы охватить знания уровня колледжа с помощью 30 графических форматов, в том числе диаграмм, таблиц, химических формул, фотографий, картин, геометрических фигур, нотных листов и т. д. При этом тест требует обдуманных рассуждений с использованием предметных знаний.
Gemini обошла GPT по среднему показателю: 59,4 против 56,8. Разработка Google оказалась лучше в искусстве и дизайне (70,0 к 65,8), медицине (67,3 к 64,7), гуманитарных и социальных науках (78,3 к 72,5), технологии и английском языке (47,1 к 36,7). При этом нейросеть Open AI оказалась лучше в бизнесе (59,3 к 56,7) и науке (54,7 к 48,0). Тем не мнее высокие показатели Gemini иллюстрируют большие возможности нейросети в кросс-модальном рассуждении на основе аудио, изображений и текста.
Говоря об уникальных возможностях Gemini в области математики, разработчики отмечают, что в тесте GSM8K нейросеть показала точность 94,4%, побив предыдущий рекорд в 92%. Речь идет о тесте, который состоит из 8,5 тысячи разнообразных школьных задач, для решения которых требуется от 2 до 8 шагов. Такие задачи должен уметь решать способный ученик средней школы. Следует отметить, что, не смотря на данные Google, GPT-4 в этом тесте сумел достичь точности в 96,8%. Отметим, что Gemini, по словам разработчиков, может справляться с математическими задачами и не на английском языке.
При этом, если опираться исключительно на исследование Google, Gemini лучше GPT-4 справилась с задачами повышенной сложности, взятыми из олимпиад по математике для средней и старшей школы (MATH), показав 53,2% против 52,9%.
Кроме того, нейросеть Google проигрывает конкуренту от Open AI в «тесте здравого смысла» — HellaSwag. Для прохождения бенчмарка ИИ должны сделать сложные предсказания, основываясь на понимании внешнего контекста и социокультурной информации. GPT-4 показал точность 95.3%, в то время как Gemini — 87.8%. Кстати, люди стабильно проходят этот тест с показателем 95% и выше.
Лучше GPT-4 справляется и с машинным переводом других языков на английский. А вот в переводе с английского на другие языки и переводе без английского языка Gemini — лидер. По последнему показателю оценка нейросети Google составила 74,8 балла, а Open AI — 73,6.
Еще один важный показатель для мультимодальных нейросетей — возможность писать программный код. В работе с Python Gemini обошла GPT-4 на 1%, добившись корректного решения 74,4% проблем. В тесте Natural2Code результат разработки Google составил 74,9%.
ИИ своими словами
Если углубляться в сравнение результатов различных тестов, достигнутых нейросетями, откровенно говоря, можно заблудиться. Проблема заключается, в том числе, в разных методиках оценки этих результатов. Разобраться в этом могут только суровые профессионалы. Если же говорить проще, то Gemini во многом лучше GPT-4, а в некоторых (пока единичных) случаях лучше человека справляется с различными задачами.
Gemini выдает более точные ответы на элементарные математические и гуманитарные вопросы, решает сложные задачи, понимает текст, пишет код на Python. Нейросеть Google в реальном времени может объяснить, что изображено на картинке, распознает текст на изображениях, анализирует инфографику, генерирует точные субтитры к видео, синхронно переводит человеческую речь.
Учение — свет нейросетей
Gemini обучали на мультимодальном, многоязычном наборе данных, в который вошли веб-документы, книги, код, изображения, аудио- и видео. Модель может эффективно маркировать тексты, не написанные на латинице. Обучение проводилось с использованием тензорных процессоров Google (TPU версий 5 и 4). По сравнению с графическими процессорами тензорные рассчитаны на более высокий объем вычислений с пониженной точностью при более высокой производительности.
Для Gemini был задействован целый парк таких процессоров, благодаря чему удалось значительно сократить среднее время между отказами оборудования и повысить скорость работы нейросети.
Внутри нейрочерепа
Gemini «думает» по принципу цепочек размышлений. Модель генерирует последовательность «мыслей» от общего к частному. Если на этом пути она приходит к консенсусу, то выдает его как ответ. Если же нет, Gemini возвращается к изначальной большой выборке и находит наиболее подходящие к ответу варианты.
При этом нейросеть, по словам разработчиков, успешно справляется с так называемым «забыванием». Дело в том, что текстовые нейросети имеют ограничения по длине контекста: они «помнят не весь разговор с пользователем, а определенное количество последних коммуникаций. Разработчики Google утверждают, что их модель извлекает правильное значение с точностью 98% при запросе по всей длине контекста.
Однако первые сторонние тесты ИИ говорят об обратном: нейросеть должна была решить длинную задачу о количестве деталей, которые завод сделает до обеденного перерыва. В итоге длительных рассуждений Gemini пришла к выводу, что от начала работы до обеденного перерыва пройдет 4 часа. То есть, попросту забыла, о чем шла речь в начале запроса.
ИИ-семейство
Справедливости ради необходимо подчеркнуть, что описанный выше эксперимент проводился не с самой мощной версией Gemini. А их, к слову, целых три.
Ultra — самая мощная модель, обеспечивающая самую современную производительность в широком спектре чрезвычайно сложных задач, включая логические и мультимодальные задачи. Благодаря архитектуре Gemini она эффективно масштабируется на ускорителях TPU. Именно эта модель смогла добиться новых рекордов в тестах.
Pro — модель, оптимизированная для боле низкой производительности. Именно над ней проводился эксперимент.
Nano — самая «маленькая» модель, предназначенная для работы на портативных устройствах. Она уже вмонтирована во все новые смартфоны Google Pixel 8 Pro. Нейросеть, в частности, может сама отвечать на сообщения в мессенджерах.
Немного о «черном зеркале»
Впечатляющие результаты Gemini, в особенности ее способность размышлять, могут окрылить мечтателей, ждущих возможности общаться со своим смартфоном, как с живым человеком. Но они также должны насторожить, если не напугать.
Закончить этот обзор хочется словами бывшего коммерческого директора научно-исследовательского центра X Development (ранее — Google X) Мохаммада «Мо» Гавдата. В мае 2023 года в подкасте Secret Leader он отметил, что в ближайшие несколько лет нейросети беспрецедентно изменят мир. При чем речь шла не о десятилетиях, а о 2025-2026 годах.
«Предположим, что машины будут в миллиард раз умнее или они станут значительно умнее нас. Давайте представим это в перспективе. ChatGPT сегодня моделирует IQ 155. У Эйнштейна было 160. У самого умного человека на планете IQ 208-210, если я правильно помню. Но мы сравниваем Эйнштейна с машиной. Я вам открыто скажу, эксперты по ИИ говорят, что это только очень-очень-очень маленькая верхушка айсберга. ChatGPT-4 стал в 10 раз умнее, чем несколько месяцев назад. И если сейчас не будет изменений, это означает, что ChatGPT-5 в течение следующих нескольких месяцев может иметь IQ 1600», — подчеркнул Мо Гавдат.
Эксперт призвал правительства ввести налог в 98% для компаний, которые работают на базе ИИ. Таким образом можно будет замедлить развитие нейросетей, а также поддержать огромное количество людей, которые потеряют работу из-за их внедрения.
«Наша жадность затрагивает невинных. Реальность в том, что эта гонка вооружений не заинтересована в том, что получит от нее обычный человек. Все дело в том, что каждая строчка кода, написанная сегодня в ИИ, направлена на то, чтобы победить соперника. Это не для того, чтобы улучшить жизнь третьей стороны», — подытожил Мо Гавдат.
При этом в презентации Google, когда речь заходит о безопасности, эксперты рассказывают, как Gemini сможет бороться с обидным для разных людей контентом. А акции материнской компании разработчиков — Alphabet — между тем выросли на 5% с момента анонса нейросети.
[~DETAIL_TEXT] =>
Близки ли мы к созданию AGI? Один из лидеров разработки нейросетей — корпорация Google — говорит, что очень. И в подтверждение этого представляет миру свое новое продуктовое семейство — Gemini. По словам генерального директора нейросетевого отделения Google DeepMind Демиса Хассабиса, Gemini — самая крупная и способная модель корпорации.
«Это значит, что она может понимать окружающий мир так, как это делаем мы, и поглощает любой тип информации: текст, код, аудио, видео и изображения. Например, в каждой из 50 предметных областей, которые мы тестировали, она также хороша, как и специалисты», — рассказал эксперт.
Сеть на все руки
Именно мультимодальность — то есть способность работать с разными видами информации — является ключевой особенностью Gemini. Справедливости ради необходимо отметить, что это не первая мультимодальная нейросеть. Еще в 2022 году один из главных конкурентов Google Open AI представили DALL-E, которая умеет работать как с изображениями, так и с текстами. Правда, для последнего ее нужно «прикрутить» к ChatGPT.
Gemini, в свою очередь, изначально создавался как мультимодальный ИИ, отметил один из его разработчиков Ориол Виньялс. То есть обработка изображений, аудио, видео, текста и кода происходит в нем бесшовно. Проще говоря, одновременно.
Так, например, Gemini может разобраться в беспорядочном подчерке ученика, который пишет на листке решение поставленной учителем задачи, понять формулировку задачи, преобразовать ее и решение в математический текст, определить место, где ученик допустил ошибку, и предложить проработанное правильное решение. Это стало возможным благодаря тому, что нейросеть изначально обучали одновременно использовать тексты, изображения, аудио и видео.
Нейросессия
Согласно данным разработчиков, новинка Google превосходит другие существующие нейросети в 30 из 32 существующих тестов. Громче всего как разработчики, так и СМИ говорят об успехах Gemini в тесте MMLU (measuring massive multitask language understanding — массовое понимание языка в многозадачном режиме).
MMLU — эталонный тест, предназначенный для оценки производительности больших языковых моделей (LLM) при выполнении различных задач, включая ответы на вопросы, обобщение и генерацию кода. Он охватывает 57 областей знаний, включая гуманитарные, юридические, социальные, естественные науки, технологию, инженерию и математику. Для достижения высокой точности в этом тесте модели должны обладать обширными знаниями окружающего мира и способностью решать проблемы. При этом от других бенчмарков MMLU отличает наличие как очень простых, так и максимально сложных и неоднозначных вопросов в каждой из областей.
Создатели теста сперва установили базовый уровень возможностей человека-неспециалиста. Общая точность их ответов составила 34,5%. Эффективность работы эксперта оценивается авторами бенчмарка на уровне 89,8%. Лучший средний результат среди нейросетей показывала GPT-4 — 87.29%. Так было до последнего времени, пока тест не прошла Gemini. Нейросеть достигла 90,4%, превзойдя не только конкурента, но и человека. Важно уточнить, что результаты MMLU оцениваются с помощью различных методик, и по другой версии Gemini проигрывает GPT-4 — 83,7% против 86,4%.
Серьезных успехов Gemini добилась и в тесте MMMU (massive multi-discipline multimodal understanding — масштабное междисциплинарное мультимодальное понимание). Этот бенчмарк направлен на то, чтобы охватить знания уровня колледжа с помощью 30 графических форматов, в том числе диаграмм, таблиц, химических формул, фотографий, картин, геометрических фигур, нотных листов и т. д. При этом тест требует обдуманных рассуждений с использованием предметных знаний.
Gemini обошла GPT по среднему показателю: 59,4 против 56,8. Разработка Google оказалась лучше в искусстве и дизайне (70,0 к 65,8), медицине (67,3 к 64,7), гуманитарных и социальных науках (78,3 к 72,5), технологии и английском языке (47,1 к 36,7). При этом нейросеть Open AI оказалась лучше в бизнесе (59,3 к 56,7) и науке (54,7 к 48,0). Тем не мнее высокие показатели Gemini иллюстрируют большие возможности нейросети в кросс-модальном рассуждении на основе аудио, изображений и текста.
Говоря об уникальных возможностях Gemini в области математики, разработчики отмечают, что в тесте GSM8K нейросеть показала точность 94,4%, побив предыдущий рекорд в 92%. Речь идет о тесте, который состоит из 8,5 тысячи разнообразных школьных задач, для решения которых требуется от 2 до 8 шагов. Такие задачи должен уметь решать способный ученик средней школы. Следует отметить, что, не смотря на данные Google, GPT-4 в этом тесте сумел достичь точности в 96,8%. Отметим, что Gemini, по словам разработчиков, может справляться с математическими задачами и не на английском языке.
При этом, если опираться исключительно на исследование Google, Gemini лучше GPT-4 справилась с задачами повышенной сложности, взятыми из олимпиад по математике для средней и старшей школы (MATH), показав 53,2% против 52,9%.
Кроме того, нейросеть Google проигрывает конкуренту от Open AI в «тесте здравого смысла» — HellaSwag. Для прохождения бенчмарка ИИ должны сделать сложные предсказания, основываясь на понимании внешнего контекста и социокультурной информации. GPT-4 показал точность 95.3%, в то время как Gemini — 87.8%. Кстати, люди стабильно проходят этот тест с показателем 95% и выше.
Лучше GPT-4 справляется и с машинным переводом других языков на английский. А вот в переводе с английского на другие языки и переводе без английского языка Gemini — лидер. По последнему показателю оценка нейросети Google составила 74,8 балла, а Open AI — 73,6.
Еще один важный показатель для мультимодальных нейросетей — возможность писать программный код. В работе с Python Gemini обошла GPT-4 на 1%, добившись корректного решения 74,4% проблем. В тесте Natural2Code результат разработки Google составил 74,9%.
ИИ своими словами
Если углубляться в сравнение результатов различных тестов, достигнутых нейросетями, откровенно говоря, можно заблудиться. Проблема заключается, в том числе, в разных методиках оценки этих результатов. Разобраться в этом могут только суровые профессионалы. Если же говорить проще, то Gemini во многом лучше GPT-4, а в некоторых (пока единичных) случаях лучше человека справляется с различными задачами.
Gemini выдает более точные ответы на элементарные математические и гуманитарные вопросы, решает сложные задачи, понимает текст, пишет код на Python. Нейросеть Google в реальном времени может объяснить, что изображено на картинке, распознает текст на изображениях, анализирует инфографику, генерирует точные субтитры к видео, синхронно переводит человеческую речь.
Учение — свет нейросетей
Gemini обучали на мультимодальном, многоязычном наборе данных, в который вошли веб-документы, книги, код, изображения, аудио- и видео. Модель может эффективно маркировать тексты, не написанные на латинице. Обучение проводилось с использованием тензорных процессоров Google (TPU версий 5 и 4). По сравнению с графическими процессорами тензорные рассчитаны на более высокий объем вычислений с пониженной точностью при более высокой производительности.
Для Gemini был задействован целый парк таких процессоров, благодаря чему удалось значительно сократить среднее время между отказами оборудования и повысить скорость работы нейросети.
Внутри нейрочерепа
Gemini «думает» по принципу цепочек размышлений. Модель генерирует последовательность «мыслей» от общего к частному. Если на этом пути она приходит к консенсусу, то выдает его как ответ. Если же нет, Gemini возвращается к изначальной большой выборке и находит наиболее подходящие к ответу варианты.
При этом нейросеть, по словам разработчиков, успешно справляется с так называемым «забыванием». Дело в том, что текстовые нейросети имеют ограничения по длине контекста: они «помнят не весь разговор с пользователем, а определенное количество последних коммуникаций. Разработчики Google утверждают, что их модель извлекает правильное значение с точностью 98% при запросе по всей длине контекста.
Однако первые сторонние тесты ИИ говорят об обратном: нейросеть должна была решить длинную задачу о количестве деталей, которые завод сделает до обеденного перерыва. В итоге длительных рассуждений Gemini пришла к выводу, что от начала работы до обеденного перерыва пройдет 4 часа. То есть, попросту забыла, о чем шла речь в начале запроса.
ИИ-семейство
Справедливости ради необходимо подчеркнуть, что описанный выше эксперимент проводился не с самой мощной версией Gemini. А их, к слову, целых три.
Ultra — самая мощная модель, обеспечивающая самую современную производительность в широком спектре чрезвычайно сложных задач, включая логические и мультимодальные задачи. Благодаря архитектуре Gemini она эффективно масштабируется на ускорителях TPU. Именно эта модель смогла добиться новых рекордов в тестах.
Pro — модель, оптимизированная для боле низкой производительности. Именно над ней проводился эксперимент.
Nano — самая «маленькая» модель, предназначенная для работы на портативных устройствах. Она уже вмонтирована во все новые смартфоны Google Pixel 8 Pro. Нейросеть, в частности, может сама отвечать на сообщения в мессенджерах.
Немного о «черном зеркале»
Впечатляющие результаты Gemini, в особенности ее способность размышлять, могут окрылить мечтателей, ждущих возможности общаться со своим смартфоном, как с живым человеком. Но они также должны насторожить, если не напугать.
Закончить этот обзор хочется словами бывшего коммерческого директора научно-исследовательского центра X Development (ранее — Google X) Мохаммада «Мо» Гавдата. В мае 2023 года в подкасте Secret Leader он отметил, что в ближайшие несколько лет нейросети беспрецедентно изменят мир. При чем речь шла не о десятилетиях, а о 2025-2026 годах.
«Предположим, что машины будут в миллиард раз умнее или они станут значительно умнее нас. Давайте представим это в перспективе. ChatGPT сегодня моделирует IQ 155. У Эйнштейна было 160. У самого умного человека на планете IQ 208-210, если я правильно помню. Но мы сравниваем Эйнштейна с машиной. Я вам открыто скажу, эксперты по ИИ говорят, что это только очень-очень-очень маленькая верхушка айсберга. ChatGPT-4 стал в 10 раз умнее, чем несколько месяцев назад. И если сейчас не будет изменений, это означает, что ChatGPT-5 в течение следующих нескольких месяцев может иметь IQ 1600», — подчеркнул Мо Гавдат.
Эксперт призвал правительства ввести налог в 98% для компаний, которые работают на базе ИИ. Таким образом можно будет замедлить развитие нейросетей, а также поддержать огромное количество людей, которые потеряют работу из-за их внедрения.
«Наша жадность затрагивает невинных. Реальность в том, что эта гонка вооружений не заинтересована в том, что получит от нее обычный человек. Все дело в том, что каждая строчка кода, написанная сегодня в ИИ, направлена на то, чтобы победить соперника. Это не для того, чтобы улучшить жизнь третьей стороны», — подытожил Мо Гавдат.
При этом в презентации Google, когда речь заходит о безопасности, эксперты рассказывают, как Gemini сможет бороться с обидным для разных людей контентом. А акции материнской компании разработчиков — Alphabet — между тем выросли на 5% с момента анонса нейросети.
[DETAIL_PICTURE] => Array
(
[ID] => 533
[TIMESTAMP_X] => 27.12.2023 16:42:15
[MODULE_ID] => iblock
[HEIGHT] => 1200
[WIDTH] => 1600
[FILE_SIZE] => 1190038
[CONTENT_TYPE] => image/jpeg
[SUBDIR] => iblock/1f1/ofp3lnwatxddg1dy04ohb2abbauj4rkv
[FILE_NAME] => freepik_freepik_2_.jpg
[ORIGINAL_NAME] => freepik-freepik-(2).jpg
[DESCRIPTION] =>
[HANDLER_ID] =>
[EXTERNAL_ID] => a781a0cd7d42208332c4b47ddc68c64c
[VERSION_ORIGINAL_ID] =>
[META] =>
[SRC] => /upload/iblock/1f1/ofp3lnwatxddg1dy04ohb2abbauj4rkv/freepik_freepik_2_.jpg
[UNSAFE_SRC] => /upload/iblock/1f1/ofp3lnwatxddg1dy04ohb2abbauj4rkv/freepik_freepik_2_.jpg
[SAFE_SRC] => /upload/iblock/1f1/ofp3lnwatxddg1dy04ohb2abbauj4rkv/freepik_freepik_2_.jpg
[ALT] => Gemini: новый бог ИИ, приманка для СМИ или убийца человечества?
[TITLE] => Gemini: новый бог ИИ, приманка для СМИ или убийца человечества?
)
[~DETAIL_PICTURE] => 533
[DATE_ACTIVE_FROM] => 12.12.2023
[~DATE_ACTIVE_FROM] => 12.12.2023
[ID] => 212
[~ID] => 212
[IBLOCK_ID] => 1
[~IBLOCK_ID] => 1
[IBLOCK_SECTION_ID] => 9
[~IBLOCK_SECTION_ID] => 9
[DETAIL_TEXT_TYPE] => html
[~DETAIL_TEXT_TYPE] => html
[PREVIEW_TEXT_TYPE] => html
[~PREVIEW_TEXT_TYPE] => html
[TIMESTAMP_X] => 27.12.2023 16:42:15
[~TIMESTAMP_X] => 27.12.2023 16:42:15
[ACTIVE_FROM_X] => 2023-12-12 00:00:00
[~ACTIVE_FROM_X] => 2023-12-12 00:00:00
[ACTIVE_FROM] => 12.12.2023
[~ACTIVE_FROM] => 12.12.2023
[LIST_PAGE_URL] => /
[~LIST_PAGE_URL] => /
[DETAIL_PAGE_URL] => /it-ai/gemini-novyy-bog-ii-primanka-dlya-smi-ili-ubiytsa-chelovechestva-/
[~DETAIL_PAGE_URL] => /it-ai/gemini-novyy-bog-ii-primanka-dlya-smi-ili-ubiytsa-chelovechestva-/
[LANG_DIR] => /
[~LANG_DIR] => /
[CODE] => gemini-novyy-bog-ii-primanka-dlya-smi-ili-ubiytsa-chelovechestva-
[~CODE] => gemini-novyy-bog-ii-primanka-dlya-smi-ili-ubiytsa-chelovechestva-
[EXTERNAL_ID] => 212
[~EXTERNAL_ID] => 212
[IBLOCK_TYPE_ID] => news
[~IBLOCK_TYPE_ID] => news
[IBLOCK_CODE] => news_s1
[~IBLOCK_CODE] => news_s1
[IBLOCK_EXTERNAL_ID] => furniture_news_s1
[~IBLOCK_EXTERNAL_ID] => furniture_news_s1
[LID] => s1
[~LID] => s1
[NAV_RESULT] =>
[NAV_CACHED_DATA] =>
[DISPLAY_ACTIVE_FROM] => 12.12.2023
[IPROPERTY_VALUES] => Array
(
[SECTION_META_TITLE] => Gemini: новый бог ИИ, приманка для СМИ или убийца человечества?
[ELEMENT_META_TITLE] => Gemini: новый бог ИИ, приманка для СМИ или убийца человечества?
)
[FIELDS] => Array
(
[NAME] => Gemini: новый бог ИИ, приманка для СМИ или убийца человечества?
[TAGS] => искусственный интеллект, прогнозы, цифровизация, социокультурный аспект
[PREVIEW_TEXT] =>
AGI — три заветные буквы для разработчиков и фанатов искусственного интеллекта. За ними скрывается так называемый общий или сильный ИИ (artificial general intelligence) — гипотетическая нейросеть, способная выполнять любую интеллектуальную задачу на уровне, равном или превосходящем человеческий. Такие способности открывают огромные возможности для человечества и… ставят его существование под угрозу.
[PREVIEW_PICTURE] => Array
(
[ID] => 532
[TIMESTAMP_X] => 27.12.2023 16:42:15
[MODULE_ID] => iblock
[HEIGHT] => 768
[WIDTH] => 1024
[FILE_SIZE] => 197303
[CONTENT_TYPE] => image/jpeg
[SUBDIR] => iblock/99d/wm80vwjj4fz5y0e1sj9sg08cxkpw62aw
[FILE_NAME] => freepik_freepik_2_.jpg
[ORIGINAL_NAME] => freepik-freepik-(2).jpg
[DESCRIPTION] =>
[HANDLER_ID] =>
[EXTERNAL_ID] => c8f71f48abc29bfcd6ab8dae9198b7d1
[VERSION_ORIGINAL_ID] =>
[META] =>
[SRC] => /upload/iblock/99d/wm80vwjj4fz5y0e1sj9sg08cxkpw62aw/freepik_freepik_2_.jpg
[UNSAFE_SRC] => /upload/iblock/99d/wm80vwjj4fz5y0e1sj9sg08cxkpw62aw/freepik_freepik_2_.jpg
[SAFE_SRC] => /upload/iblock/99d/wm80vwjj4fz5y0e1sj9sg08cxkpw62aw/freepik_freepik_2_.jpg
[ALT] => Gemini: новый бог ИИ, приманка для СМИ или убийца человечества?
[TITLE] => Gemini: новый бог ИИ, приманка для СМИ или убийца человечества?
)
[DETAIL_TEXT] =>
Близки ли мы к созданию AGI? Один из лидеров разработки нейросетей — корпорация Google — говорит, что очень. И в подтверждение этого представляет миру свое новое продуктовое семейство — Gemini. По словам генерального директора нейросетевого отделения Google DeepMind Демиса Хассабиса, Gemini — самая крупная и способная модель корпорации.
«Это значит, что она может понимать окружающий мир так, как это делаем мы, и поглощает любой тип информации: текст, код, аудио, видео и изображения. Например, в каждой из 50 предметных областей, которые мы тестировали, она также хороша, как и специалисты», — рассказал эксперт.
Сеть на все руки
Именно мультимодальность — то есть способность работать с разными видами информации — является ключевой особенностью Gemini. Справедливости ради необходимо отметить, что это не первая мультимодальная нейросеть. Еще в 2022 году один из главных конкурентов Google Open AI представили DALL-E, которая умеет работать как с изображениями, так и с текстами. Правда, для последнего ее нужно «прикрутить» к ChatGPT.
Gemini, в свою очередь, изначально создавался как мультимодальный ИИ, отметил один из его разработчиков Ориол Виньялс. То есть обработка изображений, аудио, видео, текста и кода происходит в нем бесшовно. Проще говоря, одновременно.
Так, например, Gemini может разобраться в беспорядочном подчерке ученика, который пишет на листке решение поставленной учителем задачи, понять формулировку задачи, преобразовать ее и решение в математический текст, определить место, где ученик допустил ошибку, и предложить проработанное правильное решение. Это стало возможным благодаря тому, что нейросеть изначально обучали одновременно использовать тексты, изображения, аудио и видео.
Нейросессия
Согласно данным разработчиков, новинка Google превосходит другие существующие нейросети в 30 из 32 существующих тестов. Громче всего как разработчики, так и СМИ говорят об успехах Gemini в тесте MMLU (measuring massive multitask language understanding — массовое понимание языка в многозадачном режиме).
MMLU — эталонный тест, предназначенный для оценки производительности больших языковых моделей (LLM) при выполнении различных задач, включая ответы на вопросы, обобщение и генерацию кода. Он охватывает 57 областей знаний, включая гуманитарные, юридические, социальные, естественные науки, технологию, инженерию и математику. Для достижения высокой точности в этом тесте модели должны обладать обширными знаниями окружающего мира и способностью решать проблемы. При этом от других бенчмарков MMLU отличает наличие как очень простых, так и максимально сложных и неоднозначных вопросов в каждой из областей.
Создатели теста сперва установили базовый уровень возможностей человека-неспециалиста. Общая точность их ответов составила 34,5%. Эффективность работы эксперта оценивается авторами бенчмарка на уровне 89,8%. Лучший средний результат среди нейросетей показывала GPT-4 — 87.29%. Так было до последнего времени, пока тест не прошла Gemini. Нейросеть достигла 90,4%, превзойдя не только конкурента, но и человека. Важно уточнить, что результаты MMLU оцениваются с помощью различных методик, и по другой версии Gemini проигрывает GPT-4 — 83,7% против 86,4%.
Серьезных успехов Gemini добилась и в тесте MMMU (massive multi-discipline multimodal understanding — масштабное междисциплинарное мультимодальное понимание). Этот бенчмарк направлен на то, чтобы охватить знания уровня колледжа с помощью 30 графических форматов, в том числе диаграмм, таблиц, химических формул, фотографий, картин, геометрических фигур, нотных листов и т. д. При этом тест требует обдуманных рассуждений с использованием предметных знаний.
Gemini обошла GPT по среднему показателю: 59,4 против 56,8. Разработка Google оказалась лучше в искусстве и дизайне (70,0 к 65,8), медицине (67,3 к 64,7), гуманитарных и социальных науках (78,3 к 72,5), технологии и английском языке (47,1 к 36,7). При этом нейросеть Open AI оказалась лучше в бизнесе (59,3 к 56,7) и науке (54,7 к 48,0). Тем не мнее высокие показатели Gemini иллюстрируют большие возможности нейросети в кросс-модальном рассуждении на основе аудио, изображений и текста.
Говоря об уникальных возможностях Gemini в области математики, разработчики отмечают, что в тесте GSM8K нейросеть показала точность 94,4%, побив предыдущий рекорд в 92%. Речь идет о тесте, который состоит из 8,5 тысячи разнообразных школьных задач, для решения которых требуется от 2 до 8 шагов. Такие задачи должен уметь решать способный ученик средней школы. Следует отметить, что, не смотря на данные Google, GPT-4 в этом тесте сумел достичь точности в 96,8%. Отметим, что Gemini, по словам разработчиков, может справляться с математическими задачами и не на английском языке.
При этом, если опираться исключительно на исследование Google, Gemini лучше GPT-4 справилась с задачами повышенной сложности, взятыми из олимпиад по математике для средней и старшей школы (MATH), показав 53,2% против 52,9%.
Кроме того, нейросеть Google проигрывает конкуренту от Open AI в «тесте здравого смысла» — HellaSwag. Для прохождения бенчмарка ИИ должны сделать сложные предсказания, основываясь на понимании внешнего контекста и социокультурной информации. GPT-4 показал точность 95.3%, в то время как Gemini — 87.8%. Кстати, люди стабильно проходят этот тест с показателем 95% и выше.
Лучше GPT-4 справляется и с машинным переводом других языков на английский. А вот в переводе с английского на другие языки и переводе без английского языка Gemini — лидер. По последнему показателю оценка нейросети Google составила 74,8 балла, а Open AI — 73,6.
Еще один важный показатель для мультимодальных нейросетей — возможность писать программный код. В работе с Python Gemini обошла GPT-4 на 1%, добившись корректного решения 74,4% проблем. В тесте Natural2Code результат разработки Google составил 74,9%.
ИИ своими словами
Если углубляться в сравнение результатов различных тестов, достигнутых нейросетями, откровенно говоря, можно заблудиться. Проблема заключается, в том числе, в разных методиках оценки этих результатов. Разобраться в этом могут только суровые профессионалы. Если же говорить проще, то Gemini во многом лучше GPT-4, а в некоторых (пока единичных) случаях лучше человека справляется с различными задачами.
Gemini выдает более точные ответы на элементарные математические и гуманитарные вопросы, решает сложные задачи, понимает текст, пишет код на Python. Нейросеть Google в реальном времени может объяснить, что изображено на картинке, распознает текст на изображениях, анализирует инфографику, генерирует точные субтитры к видео, синхронно переводит человеческую речь.
Учение — свет нейросетей
Gemini обучали на мультимодальном, многоязычном наборе данных, в который вошли веб-документы, книги, код, изображения, аудио- и видео. Модель может эффективно маркировать тексты, не написанные на латинице. Обучение проводилось с использованием тензорных процессоров Google (TPU версий 5 и 4). По сравнению с графическими процессорами тензорные рассчитаны на более высокий объем вычислений с пониженной точностью при более высокой производительности.
Для Gemini был задействован целый парк таких процессоров, благодаря чему удалось значительно сократить среднее время между отказами оборудования и повысить скорость работы нейросети.
Внутри нейрочерепа
Gemini «думает» по принципу цепочек размышлений. Модель генерирует последовательность «мыслей» от общего к частному. Если на этом пути она приходит к консенсусу, то выдает его как ответ. Если же нет, Gemini возвращается к изначальной большой выборке и находит наиболее подходящие к ответу варианты.
При этом нейросеть, по словам разработчиков, успешно справляется с так называемым «забыванием». Дело в том, что текстовые нейросети имеют ограничения по длине контекста: они «помнят не весь разговор с пользователем, а определенное количество последних коммуникаций. Разработчики Google утверждают, что их модель извлекает правильное значение с точностью 98% при запросе по всей длине контекста.
Однако первые сторонние тесты ИИ говорят об обратном: нейросеть должна была решить длинную задачу о количестве деталей, которые завод сделает до обеденного перерыва. В итоге длительных рассуждений Gemini пришла к выводу, что от начала работы до обеденного перерыва пройдет 4 часа. То есть, попросту забыла, о чем шла речь в начале запроса.
ИИ-семейство
Справедливости ради необходимо подчеркнуть, что описанный выше эксперимент проводился не с самой мощной версией Gemini. А их, к слову, целых три.
Ultra — самая мощная модель, обеспечивающая самую современную производительность в широком спектре чрезвычайно сложных задач, включая логические и мультимодальные задачи. Благодаря архитектуре Gemini она эффективно масштабируется на ускорителях TPU. Именно эта модель смогла добиться новых рекордов в тестах.
Pro — модель, оптимизированная для боле низкой производительности. Именно над ней проводился эксперимент.
Nano — самая «маленькая» модель, предназначенная для работы на портативных устройствах. Она уже вмонтирована во все новые смартфоны Google Pixel 8 Pro. Нейросеть, в частности, может сама отвечать на сообщения в мессенджерах.
Немного о «черном зеркале»
Впечатляющие результаты Gemini, в особенности ее способность размышлять, могут окрылить мечтателей, ждущих возможности общаться со своим смартфоном, как с живым человеком. Но они также должны насторожить, если не напугать.
Закончить этот обзор хочется словами бывшего коммерческого директора научно-исследовательского центра X Development (ранее — Google X) Мохаммада «Мо» Гавдата. В мае 2023 года в подкасте Secret Leader он отметил, что в ближайшие несколько лет нейросети беспрецедентно изменят мир. При чем речь шла не о десятилетиях, а о 2025-2026 годах.
«Предположим, что машины будут в миллиард раз умнее или они станут значительно умнее нас. Давайте представим это в перспективе. ChatGPT сегодня моделирует IQ 155. У Эйнштейна было 160. У самого умного человека на планете IQ 208-210, если я правильно помню. Но мы сравниваем Эйнштейна с машиной. Я вам открыто скажу, эксперты по ИИ говорят, что это только очень-очень-очень маленькая верхушка айсберга. ChatGPT-4 стал в 10 раз умнее, чем несколько месяцев назад. И если сейчас не будет изменений, это означает, что ChatGPT-5 в течение следующих нескольких месяцев может иметь IQ 1600», — подчеркнул Мо Гавдат.
Эксперт призвал правительства ввести налог в 98% для компаний, которые работают на базе ИИ. Таким образом можно будет замедлить развитие нейросетей, а также поддержать огромное количество людей, которые потеряют работу из-за их внедрения.
«Наша жадность затрагивает невинных. Реальность в том, что эта гонка вооружений не заинтересована в том, что получит от нее обычный человек. Все дело в том, что каждая строчка кода, написанная сегодня в ИИ, направлена на то, чтобы победить соперника. Это не для того, чтобы улучшить жизнь третьей стороны», — подытожил Мо Гавдат.
При этом в презентации Google, когда речь заходит о безопасности, эксперты рассказывают, как Gemini сможет бороться с обидным для разных людей контентом. А акции материнской компании разработчиков — Alphabet — между тем выросли на 5% с момента анонса нейросети.
[DETAIL_PICTURE] => Array
(
[ID] => 533
[TIMESTAMP_X] => 27.12.2023 16:42:15
[MODULE_ID] => iblock
[HEIGHT] => 1200
[WIDTH] => 1600
[FILE_SIZE] => 1190038
[CONTENT_TYPE] => image/jpeg
[SUBDIR] => iblock/1f1/ofp3lnwatxddg1dy04ohb2abbauj4rkv
[FILE_NAME] => freepik_freepik_2_.jpg
[ORIGINAL_NAME] => freepik-freepik-(2).jpg
[DESCRIPTION] =>
[HANDLER_ID] =>
[EXTERNAL_ID] => a781a0cd7d42208332c4b47ddc68c64c
[VERSION_ORIGINAL_ID] =>
[META] =>
[SRC] => /upload/iblock/1f1/ofp3lnwatxddg1dy04ohb2abbauj4rkv/freepik_freepik_2_.jpg
[UNSAFE_SRC] => /upload/iblock/1f1/ofp3lnwatxddg1dy04ohb2abbauj4rkv/freepik_freepik_2_.jpg
[SAFE_SRC] => /upload/iblock/1f1/ofp3lnwatxddg1dy04ohb2abbauj4rkv/freepik_freepik_2_.jpg
[ALT] => Gemini: новый бог ИИ, приманка для СМИ или убийца человечества?
[TITLE] => Gemini: новый бог ИИ, приманка для СМИ или убийца человечества?
)
[DATE_ACTIVE_FROM] => 12.12.2023
)
[PROPERTIES] => Array
(
[AUTHOR] => Array
(
[ID] => 9
[TIMESTAMP_X] => 2024-04-16 13:42:26
[IBLOCK_ID] => 1
[NAME] => Автор статьи
[ACTIVE] => Y
[SORT] => 500
[CODE] => AUTHOR
[DEFAULT_VALUE] =>
[PROPERTY_TYPE] => S
[ROW_COUNT] => 1
[COL_COUNT] => 30
[LIST_TYPE] => L
[MULTIPLE] => N
[XML_ID] =>
[FILE_TYPE] =>
[MULTIPLE_CNT] => 5
[TMP_ID] =>
[LINK_IBLOCK_ID] => 0
[WITH_DESCRIPTION] => N
[SEARCHABLE] => N
[FILTRABLE] => N
[IS_REQUIRED] => N
[VERSION] => 1
[USER_TYPE] =>
[USER_TYPE_SETTINGS] => a:0:{}
[HINT] =>
[PROPERTY_VALUE_ID] => 786
[VALUE] => Аркадий Гончаров
[DESCRIPTION] =>
[VALUE_ENUM] =>
[VALUE_XML_ID] =>
[VALUE_SORT] =>
[~VALUE] => Аркадий Гончаров
[~DESCRIPTION] =>
[~NAME] => Автор статьи
[~DEFAULT_VALUE] =>
)
[AU_PHOTO] => Array
(
[ID] => 10
[TIMESTAMP_X] => 2024-04-16 13:42:26
[IBLOCK_ID] => 1
[NAME] => Автор фото
[ACTIVE] => Y
[SORT] => 500
[CODE] => AU_PHOTO
[DEFAULT_VALUE] =>
[PROPERTY_TYPE] => S
[ROW_COUNT] => 1
[COL_COUNT] => 30
[LIST_TYPE] => L
[MULTIPLE] => N
[XML_ID] =>
[FILE_TYPE] =>
[MULTIPLE_CNT] => 5
[TMP_ID] =>
[LINK_IBLOCK_ID] => 0
[WITH_DESCRIPTION] => N
[SEARCHABLE] => N
[FILTRABLE] => N
[IS_REQUIRED] => N
[VERSION] => 1
[USER_TYPE] =>
[USER_TYPE_SETTINGS] => a:0:{}
[HINT] =>
[PROPERTY_VALUE_ID] => 787
[VALUE] => Freepik – Freepik, Chandlervid85, Kbza
[DESCRIPTION] =>
[VALUE_ENUM] =>
[VALUE_XML_ID] =>
[VALUE_SORT] =>
[~VALUE] => Freepik – Freepik, Chandlervid85, Kbza
[~DESCRIPTION] =>
[~NAME] => Автор фото
[~DEFAULT_VALUE] =>
)
[IMG_MAIN] => Array
(
[ID] => 11
[TIMESTAMP_X] => 2024-04-16 13:42:26
[IBLOCK_ID] => 1
[NAME] => Картинка для Главной
[ACTIVE] => Y
[SORT] => 500
[CODE] => IMG_MAIN
[DEFAULT_VALUE] =>
[PROPERTY_TYPE] => F
[ROW_COUNT] => 1
[COL_COUNT] => 30
[LIST_TYPE] => L
[MULTIPLE] => N
[XML_ID] =>
[FILE_TYPE] =>
[MULTIPLE_CNT] => 5
[TMP_ID] =>
[LINK_IBLOCK_ID] => 0
[WITH_DESCRIPTION] => N
[SEARCHABLE] => N
[FILTRABLE] => N
[IS_REQUIRED] => N
[VERSION] => 1
[USER_TYPE] =>
[USER_TYPE_SETTINGS] => a:0:{}
[HINT] =>
[PROPERTY_VALUE_ID] => 788
[VALUE] => 534
[DESCRIPTION] =>
[VALUE_ENUM] =>
[VALUE_XML_ID] =>
[VALUE_SORT] =>
[~VALUE] => 534
[~DESCRIPTION] =>
[~NAME] => Картинка для Главной
[~DEFAULT_VALUE] =>
)
[MAIN_THEME] => Array
(
[ID] => 12
[TIMESTAMP_X] => 2024-04-16 13:42:26
[IBLOCK_ID] => 1
[NAME] => Главная тема
[ACTIVE] => Y
[SORT] => 500
[CODE] => MAIN_THEME
[DEFAULT_VALUE] =>
[PROPERTY_TYPE] => L
[ROW_COUNT] => 1
[COL_COUNT] => 30
[LIST_TYPE] => L
[MULTIPLE] => N
[XML_ID] =>
[FILE_TYPE] =>
[MULTIPLE_CNT] => 5
[TMP_ID] =>
[LINK_IBLOCK_ID] => 0
[WITH_DESCRIPTION] => N
[SEARCHABLE] => N
[FILTRABLE] => N
[IS_REQUIRED] => N
[VERSION] => 1
[USER_TYPE] =>
[USER_TYPE_SETTINGS] => a:0:{}
[HINT] =>
[PROPERTY_VALUE_ID] =>
[VALUE] =>
[DESCRIPTION] =>
[VALUE_ENUM] =>
[VALUE_XML_ID] =>
[VALUE_SORT] =>
[VALUE_ENUM_ID] =>
[~VALUE] =>
[~DESCRIPTION] =>
[~NAME] => Главная тема
[~DEFAULT_VALUE] =>
)
[MAIN_SECT] => Array
(
[ID] => 13
[TIMESTAMP_X] => 2024-04-16 13:42:26
[IBLOCK_ID] => 1
[NAME] => В своём разделе
[ACTIVE] => Y
[SORT] => 500
[CODE] => MAIN_SECT
[DEFAULT_VALUE] =>
[PROPERTY_TYPE] => L
[ROW_COUNT] => 1
[COL_COUNT] => 30
[LIST_TYPE] => L
[MULTIPLE] => N
[XML_ID] =>
[FILE_TYPE] =>
[MULTIPLE_CNT] => 5
[TMP_ID] =>
[LINK_IBLOCK_ID] => 0
[WITH_DESCRIPTION] => N
[SEARCHABLE] => N
[FILTRABLE] => N
[IS_REQUIRED] => N
[VERSION] => 1
[USER_TYPE] =>
[USER_TYPE_SETTINGS] => a:0:{}
[HINT] =>
[PROPERTY_VALUE_ID] =>
[VALUE] =>
[DESCRIPTION] =>
[VALUE_ENUM] =>
[VALUE_XML_ID] =>
[VALUE_SORT] =>
[VALUE_ENUM_ID] =>
[~VALUE] =>
[~DESCRIPTION] =>
[~NAME] => В своём разделе
[~DEFAULT_VALUE] =>
)
[VIDEO_YOU] => Array
(
[ID] => 14
[TIMESTAMP_X] => 2024-04-16 13:42:26
[IBLOCK_ID] => 1
[NAME] => Видео youtobe
[ACTIVE] => Y
[SORT] => 500
[CODE] => VIDEO_YOU
[DEFAULT_VALUE] =>
[PROPERTY_TYPE] => S
[ROW_COUNT] => 1
[COL_COUNT] => 30
[LIST_TYPE] => L
[MULTIPLE] => N
[XML_ID] =>
[FILE_TYPE] =>
[MULTIPLE_CNT] => 5
[TMP_ID] =>
[LINK_IBLOCK_ID] => 0
[WITH_DESCRIPTION] => N
[SEARCHABLE] => N
[FILTRABLE] => N
[IS_REQUIRED] => N
[VERSION] => 1
[USER_TYPE] =>
[USER_TYPE_SETTINGS] => a:0:{}
[HINT] =>
[PROPERTY_VALUE_ID] =>
[VALUE] =>
[DESCRIPTION] =>
[VALUE_ENUM] =>
[VALUE_XML_ID] =>
[VALUE_SORT] =>
[~VALUE] =>
[~DESCRIPTION] =>
[~NAME] => Видео youtobe
[~DEFAULT_VALUE] =>
)
)
[DISPLAY_PROPERTIES] => Array
(
[AUTHOR] => Array
(
[ID] => 9
[TIMESTAMP_X] => 2024-04-16 13:42:26
[IBLOCK_ID] => 1
[NAME] => Автор статьи
[ACTIVE] => Y
[SORT] => 500
[CODE] => AUTHOR
[DEFAULT_VALUE] =>
[PROPERTY_TYPE] => S
[ROW_COUNT] => 1
[COL_COUNT] => 30
[LIST_TYPE] => L
[MULTIPLE] => N
[XML_ID] =>
[FILE_TYPE] =>
[MULTIPLE_CNT] => 5
[TMP_ID] =>
[LINK_IBLOCK_ID] => 0
[WITH_DESCRIPTION] => N
[SEARCHABLE] => N
[FILTRABLE] => N
[IS_REQUIRED] => N
[VERSION] => 1
[USER_TYPE] =>
[USER_TYPE_SETTINGS] => a:0:{}
[HINT] =>
[PROPERTY_VALUE_ID] => 786
[VALUE] => Аркадий Гончаров
[DESCRIPTION] =>
[VALUE_ENUM] =>
[VALUE_XML_ID] =>
[VALUE_SORT] =>
[~VALUE] => Аркадий Гончаров
[~DESCRIPTION] =>
[~NAME] => Автор статьи
[~DEFAULT_VALUE] =>
[DISPLAY_VALUE] => Аркадий Гончаров
)
[AU_PHOTO] => Array
(
[ID] => 10
[TIMESTAMP_X] => 2024-04-16 13:42:26
[IBLOCK_ID] => 1
[NAME] => Автор фото
[ACTIVE] => Y
[SORT] => 500
[CODE] => AU_PHOTO
[DEFAULT_VALUE] =>
[PROPERTY_TYPE] => S
[ROW_COUNT] => 1
[COL_COUNT] => 30
[LIST_TYPE] => L
[MULTIPLE] => N
[XML_ID] =>
[FILE_TYPE] =>
[MULTIPLE_CNT] => 5
[TMP_ID] =>
[LINK_IBLOCK_ID] => 0
[WITH_DESCRIPTION] => N
[SEARCHABLE] => N
[FILTRABLE] => N
[IS_REQUIRED] => N
[VERSION] => 1
[USER_TYPE] =>
[USER_TYPE_SETTINGS] => a:0:{}
[HINT] =>
[PROPERTY_VALUE_ID] => 787
[VALUE] => Freepik – Freepik, Chandlervid85, Kbza
[DESCRIPTION] =>
[VALUE_ENUM] =>
[VALUE_XML_ID] =>
[VALUE_SORT] =>
[~VALUE] => Freepik – Freepik, Chandlervid85, Kbza
[~DESCRIPTION] =>
[~NAME] => Автор фото
[~DEFAULT_VALUE] =>
[DISPLAY_VALUE] => Freepik – Freepik, Chandlervid85, Kbza
)
)
[IBLOCK] => Array
(
[ID] => 1
[~ID] => 1
[TIMESTAMP_X] => 16.04.2024 13:42:26
[~TIMESTAMP_X] => 16.04.2024 13:42:26
[IBLOCK_TYPE_ID] => news
[~IBLOCK_TYPE_ID] => news
[LID] => s1
[~LID] => s1
[CODE] => news_s1
[~CODE] => news_s1
[API_CODE] =>
[~API_CODE] =>
[REST_ON] => N
[~REST_ON] => N
[NAME] => Статьи
[~NAME] => Статьи
[ACTIVE] => Y
[~ACTIVE] => Y
[SORT] => 500
[~SORT] => 500
[LIST_PAGE_URL] =>
[~LIST_PAGE_URL] =>
[DETAIL_PAGE_URL] => #SITE_DIR#/#SECTION_CODE#/#ELEMENT_CODE#/
[~DETAIL_PAGE_URL] => #SITE_DIR#/#SECTION_CODE#/#ELEMENT_CODE#/
[SECTION_PAGE_URL] => #SITE_DIR#/#SECTION_CODE#
[~SECTION_PAGE_URL] => #SITE_DIR#/#SECTION_CODE#
[CANONICAL_PAGE_URL] =>
[~CANONICAL_PAGE_URL] =>
[PICTURE] =>
[~PICTURE] =>
[DESCRIPTION] =>
[~DESCRIPTION] =>
[DESCRIPTION_TYPE] => text
[~DESCRIPTION_TYPE] => text
[RSS_TTL] => 24
[~RSS_TTL] => 24
[RSS_ACTIVE] => Y
[~RSS_ACTIVE] => Y
[RSS_FILE_ACTIVE] => N
[~RSS_FILE_ACTIVE] => N
[RSS_FILE_LIMIT] =>
[~RSS_FILE_LIMIT] =>
[RSS_FILE_DAYS] =>
[~RSS_FILE_DAYS] =>
[RSS_YANDEX_ACTIVE] => N
[~RSS_YANDEX_ACTIVE] => N
[XML_ID] => furniture_news_s1
[~XML_ID] => furniture_news_s1
[TMP_ID] => 6cfbdd5e02a2f38f8bf51afa68b2792c
[~TMP_ID] => 6cfbdd5e02a2f38f8bf51afa68b2792c
[INDEX_ELEMENT] => Y
[~INDEX_ELEMENT] => Y
[INDEX_SECTION] => Y
[~INDEX_SECTION] => Y
[WORKFLOW] => N
[~WORKFLOW] => N
[BIZPROC] => N
[~BIZPROC] => N
[SECTION_CHOOSER] => L
[~SECTION_CHOOSER] => L
[LIST_MODE] =>
[~LIST_MODE] =>
[RIGHTS_MODE] => S
[~RIGHTS_MODE] => S
[SECTION_PROPERTY] => N
[~SECTION_PROPERTY] => N
[PROPERTY_INDEX] => N
[~PROPERTY_INDEX] => N
[VERSION] => 1
[~VERSION] => 1
[LAST_CONV_ELEMENT] => 0
[~LAST_CONV_ELEMENT] => 0
[SOCNET_GROUP_ID] =>
[~SOCNET_GROUP_ID] =>
[EDIT_FILE_BEFORE] =>
[~EDIT_FILE_BEFORE] =>
[EDIT_FILE_AFTER] =>
[~EDIT_FILE_AFTER] =>
[SECTIONS_NAME] => Разделы
[~SECTIONS_NAME] => Разделы
[SECTION_NAME] => Раздел
[~SECTION_NAME] => Раздел
[ELEMENTS_NAME] => Статьи
[~ELEMENTS_NAME] => Статьи
[ELEMENT_NAME] => Статья
[~ELEMENT_NAME] => Статья
[EXTERNAL_ID] => furniture_news_s1
[~EXTERNAL_ID] => furniture_news_s1
[LANG_DIR] => /
[~LANG_DIR] => /
[SERVER_NAME] => roboticsworld.ru
[~SERVER_NAME] => roboticsworld.ru
)
[SECTION] => Array
(
[PATH] => Array
(
[0] => Array
(
[ID] => 9
[~ID] => 9
[CODE] => it-ai
[~CODE] => it-ai
[XML_ID] =>
[~XML_ID] =>
[EXTERNAL_ID] =>
[~EXTERNAL_ID] =>
[IBLOCK_ID] => 1
[~IBLOCK_ID] => 1
[IBLOCK_SECTION_ID] =>
[~IBLOCK_SECTION_ID] =>
[SORT] => 300
[~SORT] => 300
[NAME] => IT/AI
[~NAME] => IT/AI
[ACTIVE] => Y
[~ACTIVE] => Y
[DEPTH_LEVEL] => 1
[~DEPTH_LEVEL] => 1
[SECTION_PAGE_URL] => /it-ai
[~SECTION_PAGE_URL] => /it-ai
[IBLOCK_TYPE_ID] => news
[~IBLOCK_TYPE_ID] => news
[IBLOCK_CODE] => news_s1
[~IBLOCK_CODE] => news_s1
[IBLOCK_EXTERNAL_ID] => furniture_news_s1
[~IBLOCK_EXTERNAL_ID] => furniture_news_s1
[GLOBAL_ACTIVE] => Y
[~GLOBAL_ACTIVE] => Y
[IPROPERTY_VALUES] => Array
(
[SECTION_META_TITLE] => IT/AI
[ELEMENT_META_TITLE] => IT/AI
)
)
)
)
[SECTION_URL] => /it-ai
[META_TAGS] => Array
(
[TITLE] => Gemini: новый бог ИИ, приманка для СМИ или убийца человечества?
[BROWSER_TITLE] => Gemini: новый бог ИИ, приманка для СМИ или убийца человечества?
[KEYWORDS] =>
[DESCRIPTION] =>
)
)
- Главная
- IT/AI
- Gemini: новый бог ИИ, приманка для СМИ или убийца человечества?
Gemini: новый бог ИИ, приманка для СМИ или убийца человечества?
AGI — три заветные буквы для разработчиков и фанатов искусственного интеллекта. За ними скрывается так называемый общий или сильный ИИ (artificial general intelligence) — гипотетическая нейросеть, способная выполнять любую интеллектуальную задачу на уровне, равном или превосходящем человеческий. Такие способности открывают огромные возможности для человечества и… ставят его существование под угрозу.
Близки ли мы к созданию AGI? Один из лидеров разработки нейросетей — корпорация Google — говорит, что очень. И в подтверждение этого представляет миру свое новое продуктовое семейство — Gemini. По словам генерального директора нейросетевого отделения Google DeepMind Демиса Хассабиса, Gemini — самая крупная и способная модель корпорации.
«Это значит, что она может понимать окружающий мир так, как это делаем мы, и поглощает любой тип информации: текст, код, аудио, видео и изображения. Например, в каждой из 50 предметных областей, которые мы тестировали, она также хороша, как и специалисты», — рассказал эксперт.
Сеть на все руки
Именно мультимодальность — то есть способность работать с разными видами информации — является ключевой особенностью Gemini. Справедливости ради необходимо отметить, что это не первая мультимодальная нейросеть. Еще в 2022 году один из главных конкурентов Google Open AI представили DALL-E, которая умеет работать как с изображениями, так и с текстами. Правда, для последнего ее нужно «прикрутить» к ChatGPT.
Gemini, в свою очередь, изначально создавался как мультимодальный ИИ, отметил один из его разработчиков Ориол Виньялс. То есть обработка изображений, аудио, видео, текста и кода происходит в нем бесшовно. Проще говоря, одновременно.
Так, например, Gemini может разобраться в беспорядочном подчерке ученика, который пишет на листке решение поставленной учителем задачи, понять формулировку задачи, преобразовать ее и решение в математический текст, определить место, где ученик допустил ошибку, и предложить проработанное правильное решение. Это стало возможным благодаря тому, что нейросеть изначально обучали одновременно использовать тексты, изображения, аудио и видео.
Нейросессия
Согласно данным разработчиков, новинка Google превосходит другие существующие нейросети в 30 из 32 существующих тестов. Громче всего как разработчики, так и СМИ говорят об успехах Gemini в тесте MMLU (measuring massive multitask language understanding — массовое понимание языка в многозадачном режиме).
MMLU — эталонный тест, предназначенный для оценки производительности больших языковых моделей (LLM) при выполнении различных задач, включая ответы на вопросы, обобщение и генерацию кода. Он охватывает 57 областей знаний, включая гуманитарные, юридические, социальные, естественные науки, технологию, инженерию и математику. Для достижения высокой точности в этом тесте модели должны обладать обширными знаниями окружающего мира и способностью решать проблемы. При этом от других бенчмарков MMLU отличает наличие как очень простых, так и максимально сложных и неоднозначных вопросов в каждой из областей.
Создатели теста сперва установили базовый уровень возможностей человека-неспециалиста. Общая точность их ответов составила 34,5%. Эффективность работы эксперта оценивается авторами бенчмарка на уровне 89,8%. Лучший средний результат среди нейросетей показывала GPT-4 — 87.29%. Так было до последнего времени, пока тест не прошла Gemini. Нейросеть достигла 90,4%, превзойдя не только конкурента, но и человека. Важно уточнить, что результаты MMLU оцениваются с помощью различных методик, и по другой версии Gemini проигрывает GPT-4 — 83,7% против 86,4%.
Серьезных успехов Gemini добилась и в тесте MMMU (massive multi-discipline multimodal understanding — масштабное междисциплинарное мультимодальное понимание). Этот бенчмарк направлен на то, чтобы охватить знания уровня колледжа с помощью 30 графических форматов, в том числе диаграмм, таблиц, химических формул, фотографий, картин, геометрических фигур, нотных листов и т. д. При этом тест требует обдуманных рассуждений с использованием предметных знаний.
Gemini обошла GPT по среднему показателю: 59,4 против 56,8. Разработка Google оказалась лучше в искусстве и дизайне (70,0 к 65,8), медицине (67,3 к 64,7), гуманитарных и социальных науках (78,3 к 72,5), технологии и английском языке (47,1 к 36,7). При этом нейросеть Open AI оказалась лучше в бизнесе (59,3 к 56,7) и науке (54,7 к 48,0). Тем не мнее высокие показатели Gemini иллюстрируют большие возможности нейросети в кросс-модальном рассуждении на основе аудио, изображений и текста.
Говоря об уникальных возможностях Gemini в области математики, разработчики отмечают, что в тесте GSM8K нейросеть показала точность 94,4%, побив предыдущий рекорд в 92%. Речь идет о тесте, который состоит из 8,5 тысячи разнообразных школьных задач, для решения которых требуется от 2 до 8 шагов. Такие задачи должен уметь решать способный ученик средней школы. Следует отметить, что, не смотря на данные Google, GPT-4 в этом тесте сумел достичь точности в 96,8%. Отметим, что Gemini, по словам разработчиков, может справляться с математическими задачами и не на английском языке.
При этом, если опираться исключительно на исследование Google, Gemini лучше GPT-4 справилась с задачами повышенной сложности, взятыми из олимпиад по математике для средней и старшей школы (MATH), показав 53,2% против 52,9%.
Кроме того, нейросеть Google проигрывает конкуренту от Open AI в «тесте здравого смысла» — HellaSwag. Для прохождения бенчмарка ИИ должны сделать сложные предсказания, основываясь на понимании внешнего контекста и социокультурной информации. GPT-4 показал точность 95.3%, в то время как Gemini — 87.8%. Кстати, люди стабильно проходят этот тест с показателем 95% и выше.
Лучше GPT-4 справляется и с машинным переводом других языков на английский. А вот в переводе с английского на другие языки и переводе без английского языка Gemini — лидер. По последнему показателю оценка нейросети Google составила 74,8 балла, а Open AI — 73,6.
Еще один важный показатель для мультимодальных нейросетей — возможность писать программный код. В работе с Python Gemini обошла GPT-4 на 1%, добившись корректного решения 74,4% проблем. В тесте Natural2Code результат разработки Google составил 74,9%.
ИИ своими словами
Если углубляться в сравнение результатов различных тестов, достигнутых нейросетями, откровенно говоря, можно заблудиться. Проблема заключается, в том числе, в разных методиках оценки этих результатов. Разобраться в этом могут только суровые профессионалы. Если же говорить проще, то Gemini во многом лучше GPT-4, а в некоторых (пока единичных) случаях лучше человека справляется с различными задачами.
Gemini выдает более точные ответы на элементарные математические и гуманитарные вопросы, решает сложные задачи, понимает текст, пишет код на Python. Нейросеть Google в реальном времени может объяснить, что изображено на картинке, распознает текст на изображениях, анализирует инфографику, генерирует точные субтитры к видео, синхронно переводит человеческую речь.
Учение — свет нейросетей
Gemini обучали на мультимодальном, многоязычном наборе данных, в который вошли веб-документы, книги, код, изображения, аудио- и видео. Модель может эффективно маркировать тексты, не написанные на латинице. Обучение проводилось с использованием тензорных процессоров Google (TPU версий 5 и 4). По сравнению с графическими процессорами тензорные рассчитаны на более высокий объем вычислений с пониженной точностью при более высокой производительности.
Для Gemini был задействован целый парк таких процессоров, благодаря чему удалось значительно сократить среднее время между отказами оборудования и повысить скорость работы нейросети.
Внутри нейрочерепа
Gemini «думает» по принципу цепочек размышлений. Модель генерирует последовательность «мыслей» от общего к частному. Если на этом пути она приходит к консенсусу, то выдает его как ответ. Если же нет, Gemini возвращается к изначальной большой выборке и находит наиболее подходящие к ответу варианты.
При этом нейросеть, по словам разработчиков, успешно справляется с так называемым «забыванием». Дело в том, что текстовые нейросети имеют ограничения по длине контекста: они «помнят не весь разговор с пользователем, а определенное количество последних коммуникаций. Разработчики Google утверждают, что их модель извлекает правильное значение с точностью 98% при запросе по всей длине контекста.
Однако первые сторонние тесты ИИ говорят об обратном: нейросеть должна была решить длинную задачу о количестве деталей, которые завод сделает до обеденного перерыва. В итоге длительных рассуждений Gemini пришла к выводу, что от начала работы до обеденного перерыва пройдет 4 часа. То есть, попросту забыла, о чем шла речь в начале запроса.
ИИ-семейство
Справедливости ради необходимо подчеркнуть, что описанный выше эксперимент проводился не с самой мощной версией Gemini. А их, к слову, целых три.
Ultra — самая мощная модель, обеспечивающая самую современную производительность в широком спектре чрезвычайно сложных задач, включая логические и мультимодальные задачи. Благодаря архитектуре Gemini она эффективно масштабируется на ускорителях TPU. Именно эта модель смогла добиться новых рекордов в тестах.
Pro — модель, оптимизированная для боле низкой производительности. Именно над ней проводился эксперимент.
Nano — самая «маленькая» модель, предназначенная для работы на портативных устройствах. Она уже вмонтирована во все новые смартфоны Google Pixel 8 Pro. Нейросеть, в частности, может сама отвечать на сообщения в мессенджерах.
Немного о «черном зеркале»
Впечатляющие результаты Gemini, в особенности ее способность размышлять, могут окрылить мечтателей, ждущих возможности общаться со своим смартфоном, как с живым человеком. Но они также должны насторожить, если не напугать.
Закончить этот обзор хочется словами бывшего коммерческого директора научно-исследовательского центра X Development (ранее — Google X) Мохаммада «Мо» Гавдата. В мае 2023 года в подкасте Secret Leader он отметил, что в ближайшие несколько лет нейросети беспрецедентно изменят мир. При чем речь шла не о десятилетиях, а о 2025-2026 годах.
«Предположим, что машины будут в миллиард раз умнее или они станут значительно умнее нас. Давайте представим это в перспективе. ChatGPT сегодня моделирует IQ 155. У Эйнштейна было 160. У самого умного человека на планете IQ 208-210, если я правильно помню. Но мы сравниваем Эйнштейна с машиной. Я вам открыто скажу, эксперты по ИИ говорят, что это только очень-очень-очень маленькая верхушка айсберга. ChatGPT-4 стал в 10 раз умнее, чем несколько месяцев назад. И если сейчас не будет изменений, это означает, что ChatGPT-5 в течение следующих нескольких месяцев может иметь IQ 1600», — подчеркнул Мо Гавдат.
Эксперт призвал правительства ввести налог в 98% для компаний, которые работают на базе ИИ. Таким образом можно будет замедлить развитие нейросетей, а также поддержать огромное количество людей, которые потеряют работу из-за их внедрения.
«Наша жадность затрагивает невинных. Реальность в том, что эта гонка вооружений не заинтересована в том, что получит от нее обычный человек. Все дело в том, что каждая строчка кода, написанная сегодня в ИИ, направлена на то, чтобы победить соперника. Это не для того, чтобы улучшить жизнь третьей стороны», — подытожил Мо Гавдат.
При этом в презентации Google, когда речь заходит о безопасности, эксперты рассказывают, как Gemini сможет бороться с обидным для разных людей контентом. А акции материнской компании разработчиков — Alphabet — между тем выросли на 5% с момента анонса нейросети.
Аркадий Гончаров
Фото: Freepik – Freepik, Chandlervid85, Kbza
Мы рекомендуем:
Новый алгоритм позволит роботам изучать мир по-человечески
Автопилоты умной сельхозтехники научились видеть лучше человека
Искусственный интеллект создал редактор генома человека
Microsoft запретила полиции США использовать ИИ для распознавания лиц
Polaris — самый продвинутый ИИ-агент для здравоохранения
Автопилоты умной сельхозтехники научились видеть лучше человека
Искусственный интеллект создал редактор генома человека