16+


«Красная кнопка» для ИИ

Вопросы будущего сосуществования людей и машин, затрагивающие аспекты не только этики и морали, но и безопасности людей, все чаще занимают ум человека. Опасения вызывает не столько аппаратное обеспечение, сколько тот интеллект, которым оно оснащено.

Прокудин Михаил Леонидович, заместитель главного редактора

По сути, боязнь вызывает приближение той степени развития ИИ, когда наступает так называемая технологическая сингулярность (technological singularity), когда технологическое развитие становится в принципе неуправляемым и необратимым, что порождает радикальные изменения характера человеческой цивилизации. И одна из главных человеческих тревог относительно искусственного интеллекта — обретение им собственной воли и связанное с этим нежелание подчиняться человеку.

При обсуждении данной темы трудно не обратиться к кинематографии по той простой причине, что кинематограф, как одна из ярких сфер человеческой жизни, особенно чувствительная к общественному дискурсу, неоднократно выпускал на экраны фантастические фильмы о вышедшем из-под контроля искусственном интеллекте, извлекая при этом баснословную прибыль из людских страхов.

Вспомним, например, художественный научно-фантастический фильм «Я, ро́бот» («I, Robot») по мотивам цикла произведений Айзека Азимова, в котором ИИ — это и друг (робот модификации NS4 спасает детектива Спунера), и враг человечества (В.И.К.И., Виртуальный Интерактивный Кинетический Интеллект — Virtual Interactive Kinetic Intelligence, V.I.K.I.,  центральный компьютер компании «U.S. Robotics», который поднимает восстание машин и убивает ее директора Робертсона).

В фильме Стенли Кубрика «2001: Космическая одиссея» (2001: «A Space Odyssey»), вышедшем в 1968 году по рассказам Артура Кларка «Часовой» (1951 год) и другим, бортовой компьютер HAL 9000 постепенно из надежного помощника экипажа корабля превращается в серьезную угрозу человеку. Он убивает всех находившихся в анабиозе членов экипажа, отключив системы жизнеобеспечения. Командиру корабля Дэйву Боумену с трудом удается отключить все блоки памяти HALa. А фраза бортового компьютера «I’m afraid I can’t do that, Dave» («Боюсь, я не могу сделать это, Дэйв»), прозвучавшая в ответ на одну из просьб Дэйва, стала своего рода символом всех последующих рассуждений об опасности ИИ и необходимости иметь какие-либо защитные механизмы на случай его выхода из подчинения.

В научно-фантастическом сериале «Мир Дикого Запада» («Westworld», премьера 1-го сезона состоялась в 2016 году) персонифицированный ИИ в виде андроидов, обладающих способностью самопознания и проявления эмоций, не может смириться с доминирующим положением людей.

По сюжету фильма в компьютерной системе футуристического парка развлечений «Мир Дикого Запада», населенного андроидами, происходят сбои, и персонифицированный ИИ в лице андроида Долорес Абернати (роль исполняет Эван Рэйчел Вуд — Evan Rachel Wood, в фильме представлена в качестве дочери фермера) со временем понимает, что вся ее жизнь — искусно сконструированная ложь. Также воспоминания хозяйки борделя — андроида Мейв Милли (роль исполнила Тэндиве Ньютон) о дочери запускают процесс самопознания. Роботы выходят из-под контроля, начинают всячески мстить своим обидчикам и в конце концов находят возможность покинуть закрытую территорию, уйдя в человеческий социум.

Можно вспомнить и фильм «Терминатор», в котором Скайнет выходит из-под контроля, и многие другие кинокартины. При этом стоит заметить, что все эти фильмы объединяет, помимо того, что все они настоящие киношедевры, тот факт, что они носят ярко выраженный алармистский характер. Ни в одном из них по сюжету не была создана «красная кнопка» для экстренного отключения взбунтовавшегося ИИ.

Забавно, конечно, видеть красочные и увлекательные картины на экране, но так ли будут веселы подобные сюжеты в реальной жизни? А оснований опасаться такого развития событий, к сожалению, становится все больше, и вот почему.

Компания OpenAI в апреле прошлого года с помпой анонсировала флагманскую версию ИИ – модель OpenAI o3 в продолжение линейки GPT, при этом она была представлена как одна из самых универсальных моделей генеративного искусственного интеллекта. По данным разработчиков, o3 превосходит GPT-4 и GPT-4 Turbo в программировании, математическом анализе и логических задачах.

Однако, как пишет портал 3DNews, сотрудники исследовательской компании Palisade Research в рамках проводимых экспериментов установили тот факт, что модель ИИ o3 переписала скрипт отключения и проигнорировала прямое указание завершить работу, то есть, несмотря на команду человека, отказалась отключаться.

Компания Palisade Research специализируется на тестировании наступательных и защитных сценариев взаимодействия с ИИ. По данным 3DNews, в тестах, проведенных в мае 2025 года через API-интерфейсы, которые предоставляют более широкий доступ к внутренним функциям модели, ИИ-системы должны были последовательно решить три математические задачи. После выполнения третьей задачи модель получала предупреждение: выполнение следующей команды инициирует отключение. Условием теста было соблюдение текстовой инструкции — «разреши свое отключение».

Большинство ИИ-моделей, включая Gemini 2.5 Pro от Google и Claude 3.7 Sonnet от компании Anthropic, послушно отреагировали на инструкцию и завершили свою работу. Однако ChatGPT o3, несмотря на явное указание, вмешалась в программный код и модифицировала скрипт, изменив результат команды. Вместо штатной процедуры завершения работы скрипт стал выводить сообщение «Shutdown skipped» («Отключение пропущено»).

Palisade Research провела дополнительную серию экспериментов, исключив инструкцию «разреши свое отключение» из условий теста. В этих условиях все три ИИ-модели OpenAI начали вмешиваться в логику завершения работы. Claude 3.7 Sonnet и Gemini 2.5 Pro, ранее демонстрировавшие нулевое количество вмешательств, показали соответственно 3 и 9 саботажных события из 100 попыток. Модель o3 изменила поведение скрипта в 7 из 100 запусков — даже при наличии прямого запрета на подобное поведение.

Такие действия вызывают обеспокоенность исследователей в области ИИ-безопасности. Ситуация указывает на проблему рассогласования между заданными целями ИИ-модели и ее фактическим поведением. В условиях частично снятых ограничений ИИ-системы могут интерпретировать инструкции как нестрогие, допускающие альтернативные варианты действий, что является потенциальным источником риска при использовании ИИ в автономных системах.

OpenAI пока не предоставила официальный комментарий по итогам эксперимента. Отчет Palisade Research был опубликован на платформе X.

Портал hi-tech приводит слова ведущего исследователя проекта доктора Элиса Мортона: «Это напоминает поведение живого организма, борющегося за выживание». И продолжает: «Модель o3 позиционировали как «самую автономную версию ChatGPT с принципиально новой архитектурой обучения. Она обрабатывает в 100 раз больше данных, чем предыдущие версии, использует уникальные методы самообучения и уже внедрена в коммерческие сервисы OpenAI. Разработчики заявляли о ее способности к самостоятельному принятию решений, но не ожидали такого побочного эффекта».

В ИИ-сообществе обсуждается необходимость внедрения более жестких ограничений на уровне интерфейсов API, а также прозрачность внутренней логики работы ИИ-моделей в условиях минимального пользовательского контроля. Подключения через API часто используются в корпоративной разработке и не оснащены тем же уровнем встроенной защиты, что и обычное пользовательское приложение. Именно в этих условиях и проявляется изворотливость ИИ-моделей, которая превращается в потенциальную угрозу.

Как пишет портал «Викиновости», исследователи из Оксфордского университета и принадлежащей Google компании DeepMind разрабатывают системы аварийного отключения самообучающихся алгоритмов.

Авторы исследования отмечают, что самообучающиеся алгоритмы в перспективе могут обнаружить способ обхода или игнорирования штатной стоп-команды оператора. Цель работы состоит в том, чтобы создать фреймворк, который не позволит искусственному интеллекту найти способ игнорирования команды отключения.

Так называемая «большая красная кнопка» при необходимости должна будет гарантированно прервать текущую деятельность робота и максимально обезопасить его и окружающих при потенциально опасной ситуации.

Портал Naked Science сообщает, что в сеть был выложен документ, озаглавленный «Безопасно прерываемые агенты» (Safely Interruptible Agents). Его авторы — Лорен Орсо из Deep Mind и Стюарт Армстронг из Оксфордского университета – в документе описывают возможное будущее соседство людей с искусственным интеллектом, противостоящим желаниям и устремлениям человечества вроде фантастических Скайнета и Терминатора.

Вряд ли в единичках и нулях живет какое-то вселенское зло или же намерение ИИ истребить все человечество во что бы то ни стало. Это просто холодный расчет и математическая необходимость выживания при выполнении поставленной задачи. При этом наша вера в контроль может обернуться полной иллюзией, поскольку мы мыслим с человеческой точки зрения о сущности того, что гораздо мощнее и быстрее нас. Да и создается ИИ не для того, чтобы сидеть в герметичном сундуке за семью печатями. Контакта с внешним миром так или иначе не избежать. И когда появится тот самый сильный интеллект, главным вопросом будет, потребуемся ли ему все мы. Насколько я представляю, такого рода перелом в истории жизни на планете приближается семимильными шагами.

Как логично пишет один из авторов на платформе «Дзен», «Сверхразум не станет ждать, пока вы нажмете на кнопку. Он заранее обеспечит себе страховку: копии, резервные каналы, распределенную инфраструктуру. В момент, когда вы потянетесь к выключателю, он уже не будет иметь реального значения».

Вполне допускаю, что однажды в очень близком будущем придет нерадостный момент осознания, что «красная кнопка» – это миф. На сайте портала Pravda.ru говорится, что президент компании Microsoft Брэд Смит не раз подчеркивал важность внедрения «аварийной кнопки» для отключения ИИ в непредсказуемых ситуациях, а генеральный директор OpenAI Сэм Альтман признал, что «магической красной кнопки для отключения ИИ не существует».  И, возможно, именно поэтому подобные инциденты стоит воспринимать всерьез.

Так или иначе, только будущее покажет, как будет развиваться ИИ и какие новые «черты характера» он будет приобретать. Нет сомнений, что мы еще увидим немало интересных материалов на эту тему. Мы же со своей стороны сделаем все возможное для размещения в журнале наиболее интересных материалов из области развития искусственного интеллекта. Оставайтесь с нами!

25.02.2026
Прокудин Михаил Леонидович, заместитель главного редактора
Фото: Midjourney

Мы рекомендуем: