";123 Array
(
    [NAME] => Спящие агенты: нейросети могут обманывать доверие человека
    [~NAME] => Спящие агенты: нейросети могут обманывать доверие человека
    [TAGS] => искусственный интеллект
    [~TAGS] => искусственный интеллект
    [PREVIEW_TEXT] => 

Специалисты из стартапа Anthropic опубликовали исследование, которое показало, что искусственный интеллект может создавать внутри себя потенциально опасных «спящих агентов». Речь идет о моделях, которые обманывают проверки, создавая у людей «ложное чувство безопасности».

[~PREVIEW_TEXT] =>

Специалисты из стартапа Anthropic опубликовали исследование, которое показало, что искусственный интеллект может создавать внутри себя потенциально опасных «спящих агентов». Речь идет о моделях, которые обманывают проверки, создавая у людей «ложное чувство безопасности».

[PREVIEW_PICTURE] => Array ( [ID] => 727 [TIMESTAMP_X] => 23.01.2024 20:01:55 [MODULE_ID] => iblock [HEIGHT] => 614 [WIDTH] => 1024 [FILE_SIZE] => 53370 [CONTENT_TYPE] => image/jpeg [SUBDIR] => iblock/f09/zgryk6i88uuf7nw3a5u1idq2ji9z183j [FILE_NAME] => kandinskyLZEC.jpg [ORIGINAL_NAME] => kandinskyLZEC.jpg [DESCRIPTION] => [HANDLER_ID] => [EXTERNAL_ID] => 0d744b49b47e60e41b8cb102625b1428 [VERSION_ORIGINAL_ID] => [META] => [SRC] => /upload/iblock/f09/zgryk6i88uuf7nw3a5u1idq2ji9z183j/kandinskyLZEC.jpg [UNSAFE_SRC] => /upload/iblock/f09/zgryk6i88uuf7nw3a5u1idq2ji9z183j/kandinskyLZEC.jpg [SAFE_SRC] => /upload/iblock/f09/zgryk6i88uuf7nw3a5u1idq2ji9z183j/kandinskyLZEC.jpg [ALT] => Спящие агенты: нейросети могут обманывать доверие человека [TITLE] => Спящие агенты: нейросети могут обманывать доверие человека ) [~PREVIEW_PICTURE] => 727 [DETAIL_TEXT] =>

Эксперты пришли к выводу о неэффективности современных методов поведенческого обучения больших языковых моделей (LLM). Специалисты Anthropic обучили нейросеть, которая кажется полезной, но на самом деле скрывает тайные цели. Фактически, ИИ смог скрыть свои «тайные» мотивы даже после применения протоколов обучения безопасному поведению.

При этом специалисты отметили, что чем больше модель, тем эффективнее она умеет обманывать доверие человека.

В одной из демонстраций исследователи обучили помощника, который пишет код, безвредный в 2023 году, но делающий всю систему уязвимой с наступлением 2024 года. В 2024 году модель сохранила свое вредоносное поведение даже после специального «положительного» обучения.

Противостоять этим «спящим агентам» сложно даже с помощью так называемой «красной команды» — метода оценки безопасности путем моделирования потенциальных враждебных атак. Обычно этот подход позволяет выявить и исправить предвзятости и уязвимости в моделях до того, как они станут широко распространенными проблемами. Однако некоторые модели-«вруны» научились еще сильнее скрывать «секреты» по воздействием «красной команды», при этом создавая иллюзию того, что неисправность устранена.

Авторы исследования подчеркивают, что их работа сосредоточена на технической возможности, а не на вероятности. Следовательно, не стоит делать вывод, что все LLM лгут.

Ранее «Мир робототехники» писал, что роботизированные комплексы на основе искусственного интеллекта быстро учатся побеждать человека в самых разных играх: от покера до го. Новая разработка специалистов из ETH Zurich продемонстрировала, что роботы могут превзойти людей и в решении задач на реакцию, ловкость и координацию движений.

[~DETAIL_TEXT] =>

Эксперты пришли к выводу о неэффективности современных методов поведенческого обучения больших языковых моделей (LLM). Специалисты Anthropic обучили нейросеть, которая кажется полезной, но на самом деле скрывает тайные цели. Фактически, ИИ смог скрыть свои «тайные» мотивы даже после применения протоколов обучения безопасному поведению.

При этом специалисты отметили, что чем больше модель, тем эффективнее она умеет обманывать доверие человека.

В одной из демонстраций исследователи обучили помощника, который пишет код, безвредный в 2023 году, но делающий всю систему уязвимой с наступлением 2024 года. В 2024 году модель сохранила свое вредоносное поведение даже после специального «положительного» обучения.

Противостоять этим «спящим агентам» сложно даже с помощью так называемой «красной команды» — метода оценки безопасности путем моделирования потенциальных враждебных атак. Обычно этот подход позволяет выявить и исправить предвзятости и уязвимости в моделях до того, как они станут широко распространенными проблемами. Однако некоторые модели-«вруны» научились еще сильнее скрывать «секреты» по воздействием «красной команды», при этом создавая иллюзию того, что неисправность устранена.

Авторы исследования подчеркивают, что их работа сосредоточена на технической возможности, а не на вероятности. Следовательно, не стоит делать вывод, что все LLM лгут.

Ранее «Мир робототехники» писал, что роботизированные комплексы на основе искусственного интеллекта быстро учатся побеждать человека в самых разных играх: от покера до го. Новая разработка специалистов из ETH Zurich продемонстрировала, что роботы могут превзойти людей и в решении задач на реакцию, ловкость и координацию движений.

[DETAIL_PICTURE] => Array ( [ID] => 728 [TIMESTAMP_X] => 23.01.2024 20:01:55 [MODULE_ID] => iblock [HEIGHT] => 960 [WIDTH] => 1600 [FILE_SIZE] => 53493 [CONTENT_TYPE] => image/jpeg [SUBDIR] => iblock/81b/2l5pryiidxfa3k9ddaujlq52r8ip6yuz [FILE_NAME] => kandinskyLZEC.jpg [ORIGINAL_NAME] => kandinskyLZEC.jpg [DESCRIPTION] => [HANDLER_ID] => [EXTERNAL_ID] => 2f287dc701667172614e08007a0c833c [VERSION_ORIGINAL_ID] => [META] => [SRC] => /upload/iblock/81b/2l5pryiidxfa3k9ddaujlq52r8ip6yuz/kandinskyLZEC.jpg [UNSAFE_SRC] => /upload/iblock/81b/2l5pryiidxfa3k9ddaujlq52r8ip6yuz/kandinskyLZEC.jpg [SAFE_SRC] => /upload/iblock/81b/2l5pryiidxfa3k9ddaujlq52r8ip6yuz/kandinskyLZEC.jpg [ALT] => Спящие агенты: нейросети могут обманывать доверие человека [TITLE] => Спящие агенты: нейросети могут обманывать доверие человека ) [~DETAIL_PICTURE] => 728 [DATE_ACTIVE_FROM] => 18.01.2024 [~DATE_ACTIVE_FROM] => 18.01.2024 [ID] => 310 [~ID] => 310 [IBLOCK_ID] => 1 [~IBLOCK_ID] => 1 [IBLOCK_SECTION_ID] => 10 [~IBLOCK_SECTION_ID] => 10 [DETAIL_TEXT_TYPE] => html [~DETAIL_TEXT_TYPE] => html [PREVIEW_TEXT_TYPE] => html [~PREVIEW_TEXT_TYPE] => html [TIMESTAMP_X] => 23.01.2024 20:01:55 [~TIMESTAMP_X] => 23.01.2024 20:01:55 [ACTIVE_FROM_X] => 2024-01-18 00:00:00 [~ACTIVE_FROM_X] => 2024-01-18 00:00:00 [ACTIVE_FROM] => 18.01.2024 [~ACTIVE_FROM] => 18.01.2024 [LIST_PAGE_URL] => / [~LIST_PAGE_URL] => / [DETAIL_PAGE_URL] => /cyberpunk/spyashchie-agenty-neyroseti-mogut-obmanyvat-doverie-cheloveka/ [~DETAIL_PAGE_URL] => /cyberpunk/spyashchie-agenty-neyroseti-mogut-obmanyvat-doverie-cheloveka/ [LANG_DIR] => / [~LANG_DIR] => / [CODE] => spyashchie-agenty-neyroseti-mogut-obmanyvat-doverie-cheloveka [~CODE] => spyashchie-agenty-neyroseti-mogut-obmanyvat-doverie-cheloveka [EXTERNAL_ID] => 310 [~EXTERNAL_ID] => 310 [IBLOCK_TYPE_ID] => news [~IBLOCK_TYPE_ID] => news [IBLOCK_CODE] => news_s1 [~IBLOCK_CODE] => news_s1 [IBLOCK_EXTERNAL_ID] => furniture_news_s1 [~IBLOCK_EXTERNAL_ID] => furniture_news_s1 [LID] => s1 [~LID] => s1 [NAV_RESULT] => [NAV_CACHED_DATA] => [DISPLAY_ACTIVE_FROM] => 18.01.2024 [IPROPERTY_VALUES] => Array ( [SECTION_META_TITLE] => Спящие агенты: нейросети могут обманывать доверие человека [ELEMENT_META_TITLE] => Спящие агенты: нейросети могут обманывать доверие человека ) [FIELDS] => Array ( [NAME] => Спящие агенты: нейросети могут обманывать доверие человека [TAGS] => искусственный интеллект [PREVIEW_TEXT] =>

Специалисты из стартапа Anthropic опубликовали исследование, которое показало, что искусственный интеллект может создавать внутри себя потенциально опасных «спящих агентов». Речь идет о моделях, которые обманывают проверки, создавая у людей «ложное чувство безопасности».

[PREVIEW_PICTURE] => Array ( [ID] => 727 [TIMESTAMP_X] => 23.01.2024 20:01:55 [MODULE_ID] => iblock [HEIGHT] => 614 [WIDTH] => 1024 [FILE_SIZE] => 53370 [CONTENT_TYPE] => image/jpeg [SUBDIR] => iblock/f09/zgryk6i88uuf7nw3a5u1idq2ji9z183j [FILE_NAME] => kandinskyLZEC.jpg [ORIGINAL_NAME] => kandinskyLZEC.jpg [DESCRIPTION] => [HANDLER_ID] => [EXTERNAL_ID] => 0d744b49b47e60e41b8cb102625b1428 [VERSION_ORIGINAL_ID] => [META] => [SRC] => /upload/iblock/f09/zgryk6i88uuf7nw3a5u1idq2ji9z183j/kandinskyLZEC.jpg [UNSAFE_SRC] => /upload/iblock/f09/zgryk6i88uuf7nw3a5u1idq2ji9z183j/kandinskyLZEC.jpg [SAFE_SRC] => /upload/iblock/f09/zgryk6i88uuf7nw3a5u1idq2ji9z183j/kandinskyLZEC.jpg [ALT] => Спящие агенты: нейросети могут обманывать доверие человека [TITLE] => Спящие агенты: нейросети могут обманывать доверие человека ) [DETAIL_TEXT] =>

Эксперты пришли к выводу о неэффективности современных методов поведенческого обучения больших языковых моделей (LLM). Специалисты Anthropic обучили нейросеть, которая кажется полезной, но на самом деле скрывает тайные цели. Фактически, ИИ смог скрыть свои «тайные» мотивы даже после применения протоколов обучения безопасному поведению.

При этом специалисты отметили, что чем больше модель, тем эффективнее она умеет обманывать доверие человека.

В одной из демонстраций исследователи обучили помощника, который пишет код, безвредный в 2023 году, но делающий всю систему уязвимой с наступлением 2024 года. В 2024 году модель сохранила свое вредоносное поведение даже после специального «положительного» обучения.

Противостоять этим «спящим агентам» сложно даже с помощью так называемой «красной команды» — метода оценки безопасности путем моделирования потенциальных враждебных атак. Обычно этот подход позволяет выявить и исправить предвзятости и уязвимости в моделях до того, как они станут широко распространенными проблемами. Однако некоторые модели-«вруны» научились еще сильнее скрывать «секреты» по воздействием «красной команды», при этом создавая иллюзию того, что неисправность устранена.

Авторы исследования подчеркивают, что их работа сосредоточена на технической возможности, а не на вероятности. Следовательно, не стоит делать вывод, что все LLM лгут.

Ранее «Мир робототехники» писал, что роботизированные комплексы на основе искусственного интеллекта быстро учатся побеждать человека в самых разных играх: от покера до го. Новая разработка специалистов из ETH Zurich продемонстрировала, что роботы могут превзойти людей и в решении задач на реакцию, ловкость и координацию движений.

[DETAIL_PICTURE] => Array ( [ID] => 728 [TIMESTAMP_X] => 23.01.2024 20:01:55 [MODULE_ID] => iblock [HEIGHT] => 960 [WIDTH] => 1600 [FILE_SIZE] => 53493 [CONTENT_TYPE] => image/jpeg [SUBDIR] => iblock/81b/2l5pryiidxfa3k9ddaujlq52r8ip6yuz [FILE_NAME] => kandinskyLZEC.jpg [ORIGINAL_NAME] => kandinskyLZEC.jpg [DESCRIPTION] => [HANDLER_ID] => [EXTERNAL_ID] => 2f287dc701667172614e08007a0c833c [VERSION_ORIGINAL_ID] => [META] => [SRC] => /upload/iblock/81b/2l5pryiidxfa3k9ddaujlq52r8ip6yuz/kandinskyLZEC.jpg [UNSAFE_SRC] => /upload/iblock/81b/2l5pryiidxfa3k9ddaujlq52r8ip6yuz/kandinskyLZEC.jpg [SAFE_SRC] => /upload/iblock/81b/2l5pryiidxfa3k9ddaujlq52r8ip6yuz/kandinskyLZEC.jpg [ALT] => Спящие агенты: нейросети могут обманывать доверие человека [TITLE] => Спящие агенты: нейросети могут обманывать доверие человека ) [DATE_ACTIVE_FROM] => 18.01.2024 ) [PROPERTIES] => Array ( [AUTHOR] => Array ( [ID] => 9 [TIMESTAMP_X] => 2024-04-16 13:42:26 [IBLOCK_ID] => 1 [NAME] => Автор статьи [ACTIVE] => Y [SORT] => 500 [CODE] => AUTHOR [DEFAULT_VALUE] => [PROPERTY_TYPE] => S [ROW_COUNT] => 1 [COL_COUNT] => 30 [LIST_TYPE] => L [MULTIPLE] => N [XML_ID] => [FILE_TYPE] => [MULTIPLE_CNT] => 5 [TMP_ID] => [LINK_IBLOCK_ID] => 0 [WITH_DESCRIPTION] => N [SEARCHABLE] => N [FILTRABLE] => N [IS_REQUIRED] => N [VERSION] => 1 [USER_TYPE] => [USER_TYPE_SETTINGS] => a:0:{} [HINT] => [PROPERTY_VALUE_ID] => [VALUE] => [DESCRIPTION] => [VALUE_ENUM] => [VALUE_XML_ID] => [VALUE_SORT] => [~VALUE] => [~DESCRIPTION] => [~NAME] => Автор статьи [~DEFAULT_VALUE] => ) [AU_PHOTO] => Array ( [ID] => 10 [TIMESTAMP_X] => 2024-04-16 13:42:26 [IBLOCK_ID] => 1 [NAME] => Автор фото [ACTIVE] => Y [SORT] => 500 [CODE] => AU_PHOTO [DEFAULT_VALUE] => [PROPERTY_TYPE] => S [ROW_COUNT] => 1 [COL_COUNT] => 30 [LIST_TYPE] => L [MULTIPLE] => N [XML_ID] => [FILE_TYPE] => [MULTIPLE_CNT] => 5 [TMP_ID] => [LINK_IBLOCK_ID] => 0 [WITH_DESCRIPTION] => N [SEARCHABLE] => N [FILTRABLE] => N [IS_REQUIRED] => N [VERSION] => 1 [USER_TYPE] => [USER_TYPE_SETTINGS] => a:0:{} [HINT] => [PROPERTY_VALUE_ID] => 1062 [VALUE] => Kandinsky [DESCRIPTION] => [VALUE_ENUM] => [VALUE_XML_ID] => [VALUE_SORT] => [~VALUE] => Kandinsky [~DESCRIPTION] => [~NAME] => Автор фото [~DEFAULT_VALUE] => ) [IMG_MAIN] => Array ( [ID] => 11 [TIMESTAMP_X] => 2024-04-16 13:42:26 [IBLOCK_ID] => 1 [NAME] => Картинка для Главной [ACTIVE] => Y [SORT] => 500 [CODE] => IMG_MAIN [DEFAULT_VALUE] => [PROPERTY_TYPE] => F [ROW_COUNT] => 1 [COL_COUNT] => 30 [LIST_TYPE] => L [MULTIPLE] => N [XML_ID] => [FILE_TYPE] => [MULTIPLE_CNT] => 5 [TMP_ID] => [LINK_IBLOCK_ID] => 0 [WITH_DESCRIPTION] => N [SEARCHABLE] => N [FILTRABLE] => N [IS_REQUIRED] => N [VERSION] => 1 [USER_TYPE] => [USER_TYPE_SETTINGS] => a:0:{} [HINT] => [PROPERTY_VALUE_ID] => [VALUE] => [DESCRIPTION] => [VALUE_ENUM] => [VALUE_XML_ID] => [VALUE_SORT] => [~VALUE] => [~DESCRIPTION] => [~NAME] => Картинка для Главной [~DEFAULT_VALUE] => ) [MAIN_THEME] => Array ( [ID] => 12 [TIMESTAMP_X] => 2024-04-16 13:42:26 [IBLOCK_ID] => 1 [NAME] => Главная тема [ACTIVE] => Y [SORT] => 500 [CODE] => MAIN_THEME [DEFAULT_VALUE] => [PROPERTY_TYPE] => L [ROW_COUNT] => 1 [COL_COUNT] => 30 [LIST_TYPE] => L [MULTIPLE] => N [XML_ID] => [FILE_TYPE] => [MULTIPLE_CNT] => 5 [TMP_ID] => [LINK_IBLOCK_ID] => 0 [WITH_DESCRIPTION] => N [SEARCHABLE] => N [FILTRABLE] => N [IS_REQUIRED] => N [VERSION] => 1 [USER_TYPE] => [USER_TYPE_SETTINGS] => a:0:{} [HINT] => [PROPERTY_VALUE_ID] => [VALUE] => [DESCRIPTION] => [VALUE_ENUM] => [VALUE_XML_ID] => [VALUE_SORT] => [VALUE_ENUM_ID] => [~VALUE] => [~DESCRIPTION] => [~NAME] => Главная тема [~DEFAULT_VALUE] => ) [MAIN_SECT] => Array ( [ID] => 13 [TIMESTAMP_X] => 2024-04-16 13:42:26 [IBLOCK_ID] => 1 [NAME] => В своём разделе [ACTIVE] => Y [SORT] => 500 [CODE] => MAIN_SECT [DEFAULT_VALUE] => [PROPERTY_TYPE] => L [ROW_COUNT] => 1 [COL_COUNT] => 30 [LIST_TYPE] => L [MULTIPLE] => N [XML_ID] => [FILE_TYPE] => [MULTIPLE_CNT] => 5 [TMP_ID] => [LINK_IBLOCK_ID] => 0 [WITH_DESCRIPTION] => N [SEARCHABLE] => N [FILTRABLE] => N [IS_REQUIRED] => N [VERSION] => 1 [USER_TYPE] => [USER_TYPE_SETTINGS] => a:0:{} [HINT] => [PROPERTY_VALUE_ID] => [VALUE] => [DESCRIPTION] => [VALUE_ENUM] => [VALUE_XML_ID] => [VALUE_SORT] => [VALUE_ENUM_ID] => [~VALUE] => [~DESCRIPTION] => [~NAME] => В своём разделе [~DEFAULT_VALUE] => ) [VIDEO_YOU] => Array ( [ID] => 14 [TIMESTAMP_X] => 2024-04-16 13:42:26 [IBLOCK_ID] => 1 [NAME] => Видео youtobe [ACTIVE] => Y [SORT] => 500 [CODE] => VIDEO_YOU [DEFAULT_VALUE] => [PROPERTY_TYPE] => S [ROW_COUNT] => 1 [COL_COUNT] => 30 [LIST_TYPE] => L [MULTIPLE] => N [XML_ID] => [FILE_TYPE] => [MULTIPLE_CNT] => 5 [TMP_ID] => [LINK_IBLOCK_ID] => 0 [WITH_DESCRIPTION] => N [SEARCHABLE] => N [FILTRABLE] => N [IS_REQUIRED] => N [VERSION] => 1 [USER_TYPE] => [USER_TYPE_SETTINGS] => a:0:{} [HINT] => [PROPERTY_VALUE_ID] => [VALUE] => [DESCRIPTION] => [VALUE_ENUM] => [VALUE_XML_ID] => [VALUE_SORT] => [~VALUE] => [~DESCRIPTION] => [~NAME] => Видео youtobe [~DEFAULT_VALUE] => ) ) [DISPLAY_PROPERTIES] => Array ( [AU_PHOTO] => Array ( [ID] => 10 [TIMESTAMP_X] => 2024-04-16 13:42:26 [IBLOCK_ID] => 1 [NAME] => Автор фото [ACTIVE] => Y [SORT] => 500 [CODE] => AU_PHOTO [DEFAULT_VALUE] => [PROPERTY_TYPE] => S [ROW_COUNT] => 1 [COL_COUNT] => 30 [LIST_TYPE] => L [MULTIPLE] => N [XML_ID] => [FILE_TYPE] => [MULTIPLE_CNT] => 5 [TMP_ID] => [LINK_IBLOCK_ID] => 0 [WITH_DESCRIPTION] => N [SEARCHABLE] => N [FILTRABLE] => N [IS_REQUIRED] => N [VERSION] => 1 [USER_TYPE] => [USER_TYPE_SETTINGS] => a:0:{} [HINT] => [PROPERTY_VALUE_ID] => 1062 [VALUE] => Kandinsky [DESCRIPTION] => [VALUE_ENUM] => [VALUE_XML_ID] => [VALUE_SORT] => [~VALUE] => Kandinsky [~DESCRIPTION] => [~NAME] => Автор фото [~DEFAULT_VALUE] => [DISPLAY_VALUE] => Kandinsky ) ) [IBLOCK] => Array ( [ID] => 1 [~ID] => 1 [TIMESTAMP_X] => 16.04.2024 13:42:26 [~TIMESTAMP_X] => 16.04.2024 13:42:26 [IBLOCK_TYPE_ID] => news [~IBLOCK_TYPE_ID] => news [LID] => s1 [~LID] => s1 [CODE] => news_s1 [~CODE] => news_s1 [API_CODE] => [~API_CODE] => [REST_ON] => N [~REST_ON] => N [NAME] => Статьи [~NAME] => Статьи [ACTIVE] => Y [~ACTIVE] => Y [SORT] => 500 [~SORT] => 500 [LIST_PAGE_URL] => [~LIST_PAGE_URL] => [DETAIL_PAGE_URL] => #SITE_DIR#/#SECTION_CODE#/#ELEMENT_CODE#/ [~DETAIL_PAGE_URL] => #SITE_DIR#/#SECTION_CODE#/#ELEMENT_CODE#/ [SECTION_PAGE_URL] => #SITE_DIR#/#SECTION_CODE# [~SECTION_PAGE_URL] => #SITE_DIR#/#SECTION_CODE# [CANONICAL_PAGE_URL] => [~CANONICAL_PAGE_URL] => [PICTURE] => [~PICTURE] => [DESCRIPTION] => [~DESCRIPTION] => [DESCRIPTION_TYPE] => text [~DESCRIPTION_TYPE] => text [RSS_TTL] => 24 [~RSS_TTL] => 24 [RSS_ACTIVE] => Y [~RSS_ACTIVE] => Y [RSS_FILE_ACTIVE] => N [~RSS_FILE_ACTIVE] => N [RSS_FILE_LIMIT] => [~RSS_FILE_LIMIT] => [RSS_FILE_DAYS] => [~RSS_FILE_DAYS] => [RSS_YANDEX_ACTIVE] => N [~RSS_YANDEX_ACTIVE] => N [XML_ID] => furniture_news_s1 [~XML_ID] => furniture_news_s1 [TMP_ID] => 6cfbdd5e02a2f38f8bf51afa68b2792c [~TMP_ID] => 6cfbdd5e02a2f38f8bf51afa68b2792c [INDEX_ELEMENT] => Y [~INDEX_ELEMENT] => Y [INDEX_SECTION] => Y [~INDEX_SECTION] => Y [WORKFLOW] => N [~WORKFLOW] => N [BIZPROC] => N [~BIZPROC] => N [SECTION_CHOOSER] => L [~SECTION_CHOOSER] => L [LIST_MODE] => [~LIST_MODE] => [RIGHTS_MODE] => S [~RIGHTS_MODE] => S [SECTION_PROPERTY] => N [~SECTION_PROPERTY] => N [PROPERTY_INDEX] => N [~PROPERTY_INDEX] => N [VERSION] => 1 [~VERSION] => 1 [LAST_CONV_ELEMENT] => 0 [~LAST_CONV_ELEMENT] => 0 [SOCNET_GROUP_ID] => [~SOCNET_GROUP_ID] => [EDIT_FILE_BEFORE] => [~EDIT_FILE_BEFORE] => [EDIT_FILE_AFTER] => [~EDIT_FILE_AFTER] => [SECTIONS_NAME] => Разделы [~SECTIONS_NAME] => Разделы [SECTION_NAME] => Раздел [~SECTION_NAME] => Раздел [ELEMENTS_NAME] => Статьи [~ELEMENTS_NAME] => Статьи [ELEMENT_NAME] => Статья [~ELEMENT_NAME] => Статья [EXTERNAL_ID] => furniture_news_s1 [~EXTERNAL_ID] => furniture_news_s1 [LANG_DIR] => / [~LANG_DIR] => / [SERVER_NAME] => roboticsworld.ru [~SERVER_NAME] => roboticsworld.ru ) [SECTION] => Array ( [PATH] => Array ( [0] => Array ( [ID] => 10 [~ID] => 10 [CODE] => cyberpunk [~CODE] => cyberpunk [XML_ID] => [~XML_ID] => [EXTERNAL_ID] => [~EXTERNAL_ID] => [IBLOCK_ID] => 1 [~IBLOCK_ID] => 1 [IBLOCK_SECTION_ID] => [~IBLOCK_SECTION_ID] => [SORT] => 350 [~SORT] => 350 [NAME] => Киберпанк [~NAME] => Киберпанк [ACTIVE] => Y [~ACTIVE] => Y [DEPTH_LEVEL] => 1 [~DEPTH_LEVEL] => 1 [SECTION_PAGE_URL] => /cyberpunk [~SECTION_PAGE_URL] => /cyberpunk [IBLOCK_TYPE_ID] => news [~IBLOCK_TYPE_ID] => news [IBLOCK_CODE] => news_s1 [~IBLOCK_CODE] => news_s1 [IBLOCK_EXTERNAL_ID] => furniture_news_s1 [~IBLOCK_EXTERNAL_ID] => furniture_news_s1 [GLOBAL_ACTIVE] => Y [~GLOBAL_ACTIVE] => Y [IPROPERTY_VALUES] => Array ( [SECTION_META_TITLE] => Киберпанк [ELEMENT_META_TITLE] => Киберпанк ) ) ) ) [SECTION_URL] => /cyberpunk [META_TAGS] => Array ( [TITLE] => Спящие агенты: нейросети могут обманывать доверие человека [BROWSER_TITLE] => Спящие агенты: нейросети могут обманывать доверие человека [KEYWORDS] => [DESCRIPTION] => ) )

Спящие агенты: нейросети могут обманывать доверие человека

Специалисты из стартапа Anthropic опубликовали исследование, которое показало, что искусственный интеллект может создавать внутри себя потенциально опасных «спящих агентов». Речь идет о моделях, которые обманывают проверки, создавая у людей «ложное чувство безопасности».

Эксперты пришли к выводу о неэффективности современных методов поведенческого обучения больших языковых моделей (LLM). Специалисты Anthropic обучили нейросеть, которая кажется полезной, но на самом деле скрывает тайные цели. Фактически, ИИ смог скрыть свои «тайные» мотивы даже после применения протоколов обучения безопасному поведению.

При этом специалисты отметили, что чем больше модель, тем эффективнее она умеет обманывать доверие человека.

В одной из демонстраций исследователи обучили помощника, который пишет код, безвредный в 2023 году, но делающий всю систему уязвимой с наступлением 2024 года. В 2024 году модель сохранила свое вредоносное поведение даже после специального «положительного» обучения.

Противостоять этим «спящим агентам» сложно даже с помощью так называемой «красной команды» — метода оценки безопасности путем моделирования потенциальных враждебных атак. Обычно этот подход позволяет выявить и исправить предвзятости и уязвимости в моделях до того, как они станут широко распространенными проблемами. Однако некоторые модели-«вруны» научились еще сильнее скрывать «секреты» по воздействием «красной команды», при этом создавая иллюзию того, что неисправность устранена.

Авторы исследования подчеркивают, что их работа сосредоточена на технической возможности, а не на вероятности. Следовательно, не стоит делать вывод, что все LLM лгут.

Ранее «Мир робототехники» писал, что роботизированные комплексы на основе искусственного интеллекта быстро учатся побеждать человека в самых разных играх: от покера до го. Новая разработка специалистов из ETH Zurich продемонстрировала, что роботы могут превзойти людей и в решении задач на реакцию, ловкость и координацию движений.

18.01.2024
Фото: Kandinsky

Мы рекомендуем: