Специалисты из стартапа Anthropic опубликовали исследование, которое показало, что искусственный интеллект может создавать внутри себя потенциально опасных «спящих агентов». Речь идет о моделях, которые обманывают проверки, создавая у людей «ложное чувство безопасности».
Эксперты пришли к выводу о неэффективности современных методов поведенческого обучения больших языковых моделей (LLM). Специалисты Anthropic обучили нейросеть, которая кажется полезной, но на самом деле скрывает тайные цели. Фактически, ИИ смог скрыть свои «тайные» мотивы даже после применения протоколов обучения безопасному поведению.
При этом специалисты отметили, что чем больше модель, тем эффективнее она умеет обманывать доверие человека.
В одной из демонстраций исследователи обучили помощника, который пишет код, безвредный в 2023 году, но делающий всю систему уязвимой с наступлением 2024 года. В 2024 году модель сохранила свое вредоносное поведение даже после специального «положительного» обучения.
Противостоять этим «спящим агентам» сложно даже с помощью так называемой «красной команды» — метода оценки безопасности путем моделирования потенциальных враждебных атак. Обычно этот подход позволяет выявить и исправить предвзятости и уязвимости в моделях до того, как они станут широко распространенными проблемами. Однако некоторые модели-«вруны» научились еще сильнее скрывать «секреты» по воздействием «красной команды», при этом создавая иллюзию того, что неисправность устранена.
Авторы исследования подчеркивают, что их работа сосредоточена на технической возможности, а не на вероятности. Следовательно, не стоит делать вывод, что все LLM лгут.
Ранее «Мир робототехники» писал, что роботизированные комплексы на основе искусственного интеллекта быстро учатся побеждать человека в самых разных играх: от покера до го. Новая разработка специалистов из ETH Zurich продемонстрировала, что роботы могут превзойти людей и в решении задач на реакцию, ловкость и координацию движений.