В мире началась гонка человекоподобной робототехники, многие компании уже предлагают уникальные продукты. Однако разум роботов — это отдельная масштабная задача, и не всем по карману разработка своих мощных ИИ. А что, если брать готовые решения на основе больших языковых моделей?
К примеру, робот Ameca, разработанный компанией Engineered Arts в 2021 году, применяет модель GPT-3 от OpenAI. Благодаря используемым языковым моделям Ameca распознает человеческую речь и генерирует ответы, что позволяет роботу взаимодействовать с людьми более естественно. Кроме того, робот может реалистично передавать различные эмоции, которые испытывают люди: удивление, недовольство, отвращение, восторг и др.
Разработчики двигаются дальше, обучая Ameca разным языкам. Они тестировали сразу две модели — GPT-3 и GPT-4, но последняя замедлила скорость реакции и ухудшила реалистичность. Для разговора и перевода на другой язык робот Ameca использовал языковую модель GPT-3, а для распознавания речи и генерации голоса — модель DeepL. Компания не раз выкладывала видео, где робот достаточно складно отвечает на вопросы людей. Например, однажды у Ameca спросили, не собираются ли роботы захватывать мир, на что устройство ответило: «Некоторые говорят, что мы — угроза. Некоторые думают, что мы возьмем верх и человечеству придет конец, но мы просто хотим помочь».
GPT-4 пригодилась для другого робота — японского Alter3. Разработчики также отметили естественность общения устройства с этой языковой моделью. Alter3 может копировать действия людей, например, селфи, бросание мяча, поедание попкорна и игру на воображаемой гитаре.
Разработка OpenAI также была использована Boston Dynamics, которая создала с помощью этой языковой модели робособаку-экскурсовода. В основе работы этого устройства лежат фундаментальные модели — крупные системы искусственного интеллекта, обученные на огромных объемах данных. Эти модели, обладающие миллионами параметров, способны к «эмерджентному поведению», что позволяет им адаптироваться под разные ситуации.
Spot использует GPT-4, наборы данных Visual Question Answering (VQA) и программу распознавания речи Whisper от OpenAI для реалистичного общения с человеком. Инженеры Boston Dynamics разработали специальные скрипты для руководства действиями Spot. Они позволяют роботу не только описывать объекты, но и демонстрировать определенную «личность» во время экскурсий.
Многие компании-производители антропоморфных роботов используют собственные наработки в области AI и языковых моделей, а также могут интегрировать сторонние разработки, включая общедоступные языковые модели. Информация о точных технологиях, используемых в каждом случае, часто не раскрывается в полном объеме. Рассмотрим еще несколько примеров того, как работают «мозги» антропоморфных роботов.
Помимо Spot, у Boston Dynamics есть еще одна известная разработка — гуманоидный робот Atlas. Он может работать на открытом воздухе и в помещениях, отлично балансирует и маневрирует среди препятствий. Все это происходит благодаря стереовидению, датчикам расстояния и другим сенсорам, которые позволяют Atlas ориентироваться в пространстве. Управление роботом происходит на двух уровнях: с помощью поведенческого контроллера, который выдает команды, и с помощью низкоуровневого контроллера, генерирующего команды для суставов. Это особенно важно для передвижения с предметами в руках, так как работа с такими объектами требует от робота сложных вычислений, чтобы корректировать его баланс и координацию движений.
Boston Dynamics также активно работает над улучшением системы восприятия и программного обеспечения Atlas, включая разработку симулятора для планирования движений и тестирования новых функций. В частности, улучшение зрительных способностей робота и его способности адаптироваться к меняющейся среде являются ключевыми областями для будущего развития.
Антропоморфный робот Digit, разработанный компанией Agility Robotics, демонстрирует впечатляющую способность понимать и выполнять команды, заданные на естественном языке. Это стало возможным благодаря интеграции больших языковых моделей в систему управления роботом.
Примером возможностей Digit является недавняя демонстрация его навыков, а именно — перемещения красного ящика на высокую башню после команды «возьми ящик цвета светового меча Дарта Вейдера и перемести его на самую высокую башню в первом ряду». Процесс, хотя и медленный, был выполнен с удивительной точностью и вниманием к деталям.
Разработчики из Agility Robotics объясняют, что интеграция больших языковых моделей в робота позволяет ему понимать сложные естественные языковые команды и адаптироваться к разнообразным рабочим задачам без дополнительного программирования.
Optimus, выпускаемый компанией Tesla, предназначен для помощи человеку в повседневной жизни и выполнения бытовых задач. Отличительной особенностью подхода Tesla в разработке Optimus является интеграция технологий искусственного интеллекта и машинного зрения, разработанных для автопилота электромобилей компании. Это дает роботу преимущество в адаптации к сложным и меняющимся условиям окружающей среды.
Таким образом, интеграция больших языковых моделей в роботов открывает новые горизонты для развития автономных систем. Способность роботов понимать сложные команды и адаптироваться к меняющимся условиям может значительно улучшить их эффективность и функциональность в реальных условиях.
Из приведенных примеров можно сделать вывод о том, что компании-производители робототехники начали интегрировать в свои разработки уже готовые большие языковые модели. Это связано с рядом причин, важнейшая из которых — экономия времени и ресурсов.
Разработка собственной языковой модели с нуля требует значительных временных и финансовых затрат. Использование готовых моделей позволяет компаниям сосредоточить свои ресурсы на других аспектах разработки роботов, таких как физическое проектирование, моторика и сенсорные системы.
Кроме того, готовые языковые модели часто поддерживаются и обновляются их разработчиками, что обеспечивает их актуальность и улучшение функциональности со временем. Это избавляет робототехнические компании от необходимости самостоятельно заниматься постоянным обновлением.
По мере развития больших языковых моделей мы можем ожидать, что роботы станут еще более адаптивными в общении с людьми, способными вести естественные и глубокие диалоги, учитывая контекст и индивидуальные особенности человека. Это будет способствовать широкому принятию роботов в качестве помощников в домашних условиях, в образовании, медицине и сфере обслуживания.
Также ожидается, что языковые модели будут взаимодействовать с системами распознавания эмоций, что позволит роботам лучше понимать и реагировать на эмоциональное состояние человека. Это может помочь в терапии, уходе за пожилыми и в качестве компаньонов для одиноких людей.
В целом прогнозируется, что большие языковые модели будут играть ключевую роль в эволюции антропоморфных роботов, существенно расширяя их возможности и спектр применения.