Инженеры из Северо-Западного университета разработали новый алгоритм машинного обучения Maximum Diffusion Reinforcement Learning (MaxDiff RL). Его суть заключается в том, что роботы исследуют окружающую среду случайным образом, получая при этом разнообразный опыт.
Случайность повышает качество данных, собираемых роботами. Это, в свою очередь, приводит к более быстрому и эффективному обучению. Тесты показали, что новый алгоритм значительно превосходит самые современные модели. Он работает настолько хорошо, что роботы могут изучить новые действия и успешно выполнить их всего за одну попытку.
Важно, что при этом роботов не нужно обучать заранее.
MaxDiff RL, таким образом, решает одну из ключевых проблем использования алгоритмов для робототехники. Дело в том, что существующие модели обучения методом проб и ошибок подходят для цифровой среды, где практически нет критических временных ограничений, а последствия неправильных действий не столь опасны, как в физическом мире.
В робототехнике же один сбой может иметь катастрофические последствия.
Новый алгоритм является общим. Это значит, что его можно использовать для самых разных приложений. Разработчики уверены, что он ускорит развитие отрасли и проложит путь к надежному принятию решений интеллектуальными устройствами, сообщает The SciTechDaily.
Ранее «Мир робототехники» писал, что Агентство перспективных оборонных исследовательских проектов (DARPA) успешно испытало свой новый искусственный интеллект, разрабатываемый в рамках проекта Air Combat Evolution (ACE). Алгоритмы позволяют управлять модифицированным реактивным истребителем F-16D, известным как X-62A VISTA (Variable In-flight Simulator Test Aircraft).
