Главная
IT/AI
А если совместить с GPT? Большие языковые модели в антропоморфных роботах

А если совместить с GPT? Большие языковые модели в антропоморфных роботах

В мире началась гонка человекоподобной робототехники, многие компании уже предлагают уникальные продукты. Однако разум роботов — это отдельная масштабная задача, и не всем по карману разработка своих мощных ИИ. А что, если брать готовые решения на основе больших языковых моделей?

К примеру, робот Ameca, разработанный компанией Engineered Arts в 2021 году, применяет модель GPT-3 от OpenAI. Благодаря используемым языковым моделям Ameca распознает человеческую речь и генерирует ответы, что позволяет роботу взаимодействовать с людьми более естественно. Кроме того, робот может реалистично передавать различные эмоции, которые испытывают люди: удивление, недовольство, отвращение, восторг и др.

Разработчики двигаются дальше, обучая Ameca разным языкам. Они тестировали сразу две модели — GPT-3 и GPT-4, но последняя замедлила скорость реакции и ухудшила реалистичность. Для разговора и перевода на другой язык робот Ameca использовал языковую модель GPT-3, а для распознавания речи и генерации голоса — модель DeepL. Компания не раз выкладывала видео, где робот достаточно складно отвечает на вопросы людей. Например, однажды у Ameca спросили, не собираются ли роботы захватывать мир, на что устройство ответило: «Некоторые говорят, что мы — угроза. Некоторые думают, что мы возьмем верх и человечеству придет конец, но мы просто хотим помочь».

GPT-4 пригодилась для другого робота — японского Alter3. Разработчики также отметили естественность общения устройства с этой языковой моделью. Alter3 может копировать действия людей, например, селфи, бросание мяча, поедание попкорна и игру на воображаемой гитаре.

Разработка OpenAI также была использована Boston Dynamics, которая создала с помощью этой языковой модели робособаку-экскурсовода. В основе работы этого устройства лежат фундаментальные модели — крупные системы искусственного интеллекта, обученные на огромных объемах данных. Эти модели, обладающие миллионами параметров, способны к «эмерджентному поведению», что позволяет им адаптироваться под разные ситуации.

Spot использует GPT-4, наборы данных Visual Question Answering (VQA) и программу распознавания речи Whisper от OpenAI для реалистичного общения с человеком. Инженеры Boston Dynamics разработали специальные скрипты для руководства действиями Spot. Они позволяют роботу не только описывать объекты, но и демонстрировать определенную «личность» во время экскурсий.

Многие компании-производители антропоморфных роботов используют собственные наработки в области AI и языковых моделей, а также могут интегрировать сторонние разработки, включая общедоступные языковые модели. Информация о точных технологиях, используемых в каждом случае, часто не раскрывается в полном объеме. Рассмотрим еще несколько примеров того, как работают «мозги» антропоморфных роботов.

Помимо Spot, у Boston Dynamics есть еще одна известная разработка — гуманоидный робот Atlas. Он может работать на открытом воздухе и в помещениях, отлично балансирует и маневрирует среди препятствий. Все это происходит благодаря стереовидению, датчикам расстояния и другим сенсорам, которые позволяют Atlas ориентироваться в пространстве. Управление роботом происходит на двух уровнях: с помощью поведенческого контроллера, который выдает команды, и с помощью низкоуровневого контроллера, генерирующего команды для суставов. Это особенно важно для передвижения с предметами в руках, так как работа с такими объектами требует от робота сложных вычислений, чтобы корректировать его баланс и координацию движений.

Boston Dynamics также активно работает над улучшением системы восприятия и программного обеспечения Atlas, включая разработку симулятора для планирования движений и тестирования новых функций. В частности, улучшение зрительных способностей робота и его способности адаптироваться к меняющейся среде являются ключевыми областями для будущего развития.

Антропоморфный робот Digit, разработанный компанией Agility Robotics, демонстрирует впечатляющую способность понимать и выполнять команды, заданные на естественном языке. Это стало возможным благодаря интеграции больших языковых моделей в систему управления роботом.

Примером возможностей Digit является недавняя демонстрация его навыков, а именно — перемещения красного ящика на высокую башню после команды «возьми ящик цвета светового меча Дарта Вейдера и перемести его на самую высокую башню в первом ряду». Процесс, хотя и медленный, был выполнен с удивительной точностью и вниманием к деталям.

Разработчики из Agility Robotics объясняют, что интеграция больших языковых моделей в робота позволяет ему понимать сложные естественные языковые команды и адаптироваться к разнообразным рабочим задачам без дополнительного программирования.

Optimus, выпускаемый компанией Tesla, предназначен для помощи человеку в повседневной жизни и выполнения бытовых задач. Отличительной особенностью подхода Tesla в разработке Optimus является интеграция технологий искусственного интеллекта и машинного зрения, разработанных для автопилота электромобилей компании. Это дает роботу преимущество в адаптации к сложным и меняющимся условиям окружающей среды.

Таким образом, интеграция больших языковых моделей в роботов открывает новые горизонты для развития автономных систем. Способность роботов понимать сложные команды и адаптироваться к меняющимся условиям может значительно улучшить их эффективность и функциональность в реальных условиях.

Из приведенных примеров можно сделать вывод о том, что компании-производители робототехники начали интегрировать в свои разработки уже готовые большие языковые модели. Это связано с рядом причин, важнейшая из которых — экономия времени и ресурсов.

Разработка собственной языковой модели с нуля требует значительных временных и финансовых затрат. Использование готовых моделей позволяет компаниям сосредоточить свои ресурсы на других аспектах разработки роботов, таких как физическое проектирование, моторика и сенсорные системы.

Кроме того, готовые языковые модели часто поддерживаются и обновляются их разработчиками, что обеспечивает их актуальность и улучшение функциональности со временем. Это избавляет робототехнические компании от необходимости самостоятельно заниматься постоянным обновлением.

По мере развития больших языковых моделей мы можем ожидать, что роботы станут еще более адаптивными в общении с людьми, способными вести естественные и глубокие диалоги, учитывая контекст и индивидуальные особенности человека. Это будет способствовать широкому принятию роботов в качестве помощников в домашних условиях, в образовании, медицине и сфере обслуживания.

Также ожидается, что языковые модели будут взаимодействовать с системами распознавания эмоций, что позволит роботам лучше понимать и реагировать на эмоциональное состояние человека. Это может помочь в терапии, уходе за пожилыми и в качестве компаньонов для одиноких людей.

В целом прогнозируется, что большие языковые модели будут играть ключевую роль в эволюции антропоморфных роботов, существенно расширяя их возможности и спектр применения.

#искусственный интеллект #андроидные #прогнозы #социокультурный аспект

Екатерина Александрова

Фото: Midjourney

А если совместить с GPT? Большие языковые модели в антропоморфных роботах

Автопилоты умной сельхозтехники научились видеть лучше человека

Искусственный интеллект создал редактор генома человека

Автопилоты умной сельхозтехники научились видеть лучше человека

Искусственный интеллект создал редактор генома человека

А если совместить с GPT? Большие языковые модели в антропоморфных роботах

Мы рекомендуем:

Новый алгоритм позволит роботам изучать мир по-человечески

Автопилоты умной сельхозтехники научились видеть лучше человека

Искусственный интеллект создал редактор генома человека

Microsoft запретила полиции США использовать ИИ для распознавания лиц

Polaris — самый продвинутый ИИ-агент для здравоохранения

Автопилоты умной сельхозтехники научились видеть лучше человека

Искусственный интеллект создал редактор генома человека