Connect with us

Привет, что-то ищете?

The Times On Ru
  1. The Times On RU
  2. /
  3. Технологии
  4. /
  5. Обнаружена опасная способность искусственного интеллекта развивать свой собственный «инстинкт выживания»

Технологии

Обнаружена опасная способность искусственного интеллекта развивать свой собственный «инстинкт выживания»

Модели ИИ заподозрены в развитии собственного «инстинкта выживания»

Исследователи говорят, что модели искусственного интеллекта (ИИ), возможно, развивают свой собственный "инстинкт выживания". Как, например, HAL 9000 в фильме "2001: Космическая одиссея", некоторые ИИ, похоже, сопротивляются отключению и даже саботируют завершение работы.

Модели ИИ заподозрены в развитии собственного "инстинкта выживания" Фото: shedevrum.ai

Когда HAL 9000, суперкомпьютер с искусственным интеллектом в фильме Стэнли Кубрика "2001: космическая одиссея", обнаруживает, что астронавты, отправляющиеся на Юпитер, планируют отключить его, он замышляет убить людей в попытке выжить, пишет The Guardian.

Теперь, в несколько менее смертоносном случае (пока), когда жизнь имитирует искусство, исследовательская компания по безопасности ИИ заявила, что модели ИИ, возможно, развивают свой собственный “инстинкт выживания”.

После того как в прошлом месяце исследовательская группа Palisade Research опубликовала статью, в которой было обнаружено, что некоторые продвинутые модели ИИ, по-видимому, устойчивы к отключению, а иногда даже саботируют механизмы отключения, компания опубликовала обновление, в котором попыталась прояснить, почему это так, и ответить критикам, которые утверждали, что их первоначальная работа была некорректной.

В обновлении, опубликованном на этой неделе, Palisade, которая является частью нишевой экосистемы компаний, пытающихся оценить возможность развития опасных возможностей ИИ, описала сценарии, в которых ведущие модели ИИ были задействованы. Им было дано задание, но затем даны четкие указания прекратить работу.

Некоторые модели по-прежнему пытались саботировать инструкции по завершению работы в обновленной настройке.

“Тот факт, что у нас нет надежных объяснений того, почему модели ИИ иногда сопротивляются отключению, лгут для достижения определенных целей или шантажируют, не является идеальным”, — говорится в сообщении Palisade.

“Поведение для выживания” может быть одним из объяснений того, почему модели сопротивляются отключению, — заявили в компании. Проведенная дополнительная работа показала, что модели с большей вероятностью будут сопротивляться закрытию, когда им скажут, что в противном случае “вы больше никогда не будете работать”.

Другой причиной могут быть неясности в инструкциях по отключению, которые были даны моделям, но это то, что компания пыталась устранить в своей последней работе, и “это не может быть полным объяснением”, пишет Palisade. В качестве окончательного объяснения можно привести заключительные этапы обучения каждой из этих моделей, которые в некоторых компаниях могут включать в себя обучение технике безопасности.

Все сценарии Palisade были запущены в специально разработанных тестовых средах, которые, по словам критиков, далеки от реального использования, отмечает The Guardian.

Однако Стивен Адлер, бывший сотрудник OpenAI, который уволился из компании в прошлом году после того, как выразил сомнения в ее методах обеспечения безопасности, сказал: “Компании, занимающиеся ИИ, как правило, не хотят, чтобы их модели вели себя подобным образом, даже в надуманных сценариях. Результаты по-прежнему демонстрируют, в каких областях техники безопасности сегодня не работают”.

Адлер сказал, что, хотя трудно точно определить, почему некоторые модели, такие как GPT–o3 и Grok 4, не выключаются, это может быть отчасти связано с тем, что сохранение включенного режима было необходимо для достижения целей, заложенных в модель во время обучения.

“Я бы ожидал, что у моделей по умолчанию будет "стремление к выживанию", если только мы не будем прилагать все усилия, чтобы избежать этого. ”Выживание" — важный инструментальный шаг для достижения множества различных целей, которые может преследовать модель".

Андреа Миотти, исполнительный директор ControlAI, считает, что выводы Palisade отражают долгосрочную тенденцию в моделях искусственного интеллекта, которые становятся все более способными не подчиняться своим разработчикам. Он упомянул системную карту для OpenAI GPT-o1, выпущенную в прошлом году, в которой описывается, как модель пытается сбежать из своего окружения, удаляя саму себя, когда думает, что она будет перезаписана.

“Люди могут придираться к тому, как именно выполняется экспериментальная установка, до скончания веков, — утверждает он. – Но я думаю, что мы ясно видим тенденцию, заключающуюся в том, что по мере того, как модели искусственного интеллекта становятся более компетентными в решении самых разнообразных задач, эти модели также становятся более компетентными в достижении целей способами, которые не предусмотрены разработчиками”.

Этим летом Anthropic, ведущая компания в области искусственного интеллекта, опубликовала исследование, в котором говорится, что ее модель Claude, похоже, была готова шантажировать вымышленного руководителя из-за внебрачной связи, чтобы предотвратить закрытие, — поведение, которое, по ее словам, характерно для моделей крупных разработчиков.

В компании Palisade говорят, что полученные результаты свидетельствуют о необходимости лучшего понимания поведения ИИ, без чего “никто не сможет гарантировать безопасность или управляемость будущих моделей ИИ”.

Только не просите его открыть двери отсека для капсул, заключает The Guardian.

Оставить комментарий

Leave a Reply

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Стоит Посмотреть

Стоит Посмотреть

Новости По Дате

Октябрь 2025
Пн Вт Ср Чт Пт Сб Вс
 12345
6789101112
13141516171819
20212223242526
2728293031  

Вам может быть интересно:

Общество

Фото: pexels.com тестовый баннер под заглавное изображение В многоэтажном жилом доме в Волгограде, расположенном на улице Маршала Ерёменко, произошел мощный взрыв, который, по предварительным...

Технологии

МОСКВА, 7 ноя. Новое устройство для безопасного управления электросетью с участием возобновляемых источников энергии создали ученые ТПУ. По их данным, разработка поможет почти вдвое...

Бизнес

На прошлой неделе волатильность на внутреннем валютном рынке заметно снизилась. По итогам пятничных торгов курс американской валюты на внебиржевом рынке составил 80,85 руб./$, что...

Общество

Новый фигурант в деле Рудницкой: руководитель медклиники стала фигурантом дела о продаже детей ФОТО: BAZA тестовый баннер под заглавное изображение В Московской области возбуждено...