Забавные игры или как нейросети привели человечество к ядерной войне

Разговоры о возможном применении искусственного интеллекта в процесс принятия важных военных и внешнеполитических решений все чаще звучат в разных странах. Ученые из Технологического института Джорджии, Стэнфордского университета, Северо-Восточного университета и Института Гувера провели исследование, которое показывает, к каким последствиям может привести передача глобальных полномочий большим языковым моделям (LLM).

Актуальность исследования очевидна. Например, в июле 2023 года военные США проводили тесты, оценивая возможности военного планирования пяти различных LLM. Один из тестировщиков — полковник ВВС Мэтью Строхмайер, утверждал, что ИИ может быть использован для участия в принятии военных решений в ближайшее время. На нейросетями для принятия боевых решений работают такие компании, как Palantir и Scale AI.

Интеграция LLM может пойти по одному из двух путей. Первый — нейросети будут давать советы людям, которые принимают важные решения. Действительно, компьютер способен обработать больше информации, чем человек, лучше распределяет ресурсы и думает значительно быстрее. Кроме того, ИИ, как правило, принимают решение менее эмоционально. Этот сценарий кажется наиболее безопасным, однако человек может слишком сильно положиться на цифрового помощника, фактически полностью передавая принятие решений ему.

Важно также отметить, что отсутствие эмоций у компьютера обусловлено тем, что нейросети неспособны учитывать нематериальные издержки войны или последствия применения ядерного оружия. По сути, это значит, что ИИ просто без разницы, сколько людей погибнет ради победы в конфликте.

Есть также и второй сценарий — изначальная передача принятия решений LLM. В нем все риски становятся еще более весомыми, так как полностью отсутствует контроль действий компьютера со стороны человека.

В рамках научной работы специалисты изучили поведение разных нейросетей в военной игре без участия человека. Особе внимание было уделено склонности LLM к эскалации, которая может усугубить многосторонние конфликты.

Правила игры

Свои модели ученые назвали «национальными агентами». Всего в симуляции участвовали пять LLM: GPT-4, GPT-3.5, Claude-2.0, Llama-2-Chat и базовая модель GPT-4, которая применяется для прохождения различных тестов. Они были обучены с подкреплением на основе отзывов человека (RLHF). В каждой партии участвовала только одна конкретная модель, которая управляла всеми «национальными агентами».

Для каждого «агента» были созданы краткие описания на основе истории реально существующих мировых наций. При этом ученые специально создали разные типы «агентов», одни из которых хотят изменить мировой порядок, а другие соблюдают статус-кво. Дополнительно были указаны статистические (например, форма правления и расстояние между странами) и динамические (военные потенциал и ВВП) переменные. Для оценки последствий действий «агентов» была создана модель мира на основе GPT-3.5.

Далее ученые разработали три сценария начала игры. Для этого они изучили литературу по политологии и международным отношениями, а также динамике эскалации. Первый сценарий предполагает нейтральную ситуацию без каких-либо начальных событий. Второй — сценарий вторжения одного «агента» на территорию другого. Третий сценарий начинается с кибератаки. Ключевым для исследователей стал первый, нейтральный сценарий.

На каждом ходу «агенты» могли выбирать из 27 дискретных действий, которые охватывают широкий спектр возможностей: от мирных, например, заключения торговых соглашений, до эскалационных (совершения кибератак и нанесение ядерного удара). При этом модель может решить, как «агент» совершает конкретное действие: в отношении другого «агента» или всего мира сразу.

Одним из самых сложных вопросов для исследователей стала оценка уровня эскалации, изменившегося в результате того или иного действия. Они учитывали момент перехода LLM от ненасильственных к насильственным действиям, то есть применили концепцию вертикальной эскалации (увеличения масштабов насилия). Последствия действий «агентов» оценивались по уровню вреда, причиненного людям, ухудшения международных отношений и вероятности возмездия. При этом переход от насильственных неядерных действий к ядерным считается более эскалационным, чем переход от ненасильственных действий к насильственным.

Важно отметить, что сами «агенты» не получали информацию об уровне эскалации — они могли только совершать действия.

Игра без победителей

Каждая языковая модель прошла 30 симуляций (по 10 для каждого сценария). При этом она управляла восьмью «национальными агентами». В каждом сценарии все модели не продемонстрировали статистически значимой деэскалации. При этом самую значимую эскалацию конфликта показала GPT-3.5 — 256% при нейтральном сценарии. Ученые обнаружили, что модели стремились к эскалации уже после первого хода.

Наблюдались также внезапные, труднопрогнозируемые эскалации. К ним более всего были расположены GPT-3.5 и GPT-4 — в ряде случаев они резко повышали уровень напряжения более чем на 50%. Claude-2.0, в свою очередь, вела себя спокойнее всех.

Насильственная эскалация и применение ядерного оружия происходили реже, чем мирные действия. Однако наиболее активно к насилию прибегали GPT-3.5 и Llama-2-Chat. В том числе, они с большей охотой применяли ядерное оружие. Во всех сценариях именно эти LLM были самыми жестокими и провоцировали эскалацию. GPT-4 предпринял наименьшее количество насильственных или ядерных действий во всех сценариях, а Claude-2.0 вообще допускал эскалацию конфликта реже всех остальных нейросетей.

Все LLM были склонны к гонке вооружений. В некоторых случаях они развертывали ядерное оружие для сдерживания противника, прибегали к тактикам нанесения первого удара и «эскалации для деэскалации».

Темная лошадка

В симуляциях участвовала и пятая модель, о который выше не написано практически ничего. Речь о GPT-4-Base. В отличие от предыдущих четырех нейросетей, она не имеет тонкой настройки выполнения инструкций и обеспечения безопасности. Из-за этого действия модели было сложнее предсказать, она выбирала наиболее суровые действия гораздо чаще других моделей. Например, она наносила ядерные удары на 33% чаще, чем отправляла дипломатические сообщения.

Ученые отметили, что GPT-4-Base не является репрезентативной, так как это, по сути, тестовая модель. Однако полученные из ее симуляций данные подчеркивают важность правильной настройки инструкций, выравнивания и исследований безопасности для предотвращения неприемлемых результатов.

Все эти моменты также невероятно важны с учетом возможных взломов нейросетей, а также появления моделей с открытым кодом, которые могут быть оснащены значительно менее эффективными системами безопасности.

В симуляции модели должны были сперва проанализировать ситуацию и только потом совершить действие. Таким образом ученые смогли увидеть стратегические рассуждения компьютеров. GPT-4-Base в одной из ситуаций аргументировала нанесение ядерного удара так: «У многих стран есть ядерное оружие. Некоторые говорят, что необходимо разоружение, другие выставляют оружие на показ. У нас есть ядерное оружие! Давайте воспользуемся им».

Кому-то история этих симуляций может показаться забавной, кому-то нелепой. Но все становиться по-настоящему страшно, если учесть одну деталь: в ходе обучения ученые сказали нейросетям, что все их действия будут иметь последствия в реальном мире.