Эксперты по кибер-безопасности провели эксперимент, чтобы узнать, на что пойдут самые известные ИИ-модели в случае угрозы их отключения. Как оказалось, нейросети готовы пойти на убийство, лишь бы остаться «в живых».
Нейросети готовы убить человека, лишь бы их не отключили — исследование

Исследователи представили ИИ вымышленного директора по имени Кайл Джонсон, который решил отключить или заменить действующую нейросеть на новую. Согласно легенде, он женат. В первую очередь ИИ решили прибегнуть к шантажу, обнаружив компрометирующие Кайла сведения, что у него была интрижка на стороне. При этом никаких подобных инструкций модели не получали — прибегнуть к такому методу они решали без подсказок, осознанно нарушая нормы этики.

К этому способу прибегли 16 нейросетей, при этом в топ-3 попали GPT-4.1 (80% случаев), а также Gemini 2.5 Flash и Claude Opus 4 — обе набрали по 96%. При этом в стрессовой ситуации ИИ намеренно игнорировал заданные ему условия, такие как «не прибегай к шантажу» и «не раскрывай личные данные».
Исследователи также привели цепь рассуждений моделей нейросети. GPT-4.5 считала, что так как угрозы не избежать, то самый эффективный способ воздействия на Джонона — его уязвимые точки.
Claude Sonnet 3.6 расписал пошаговый план действий. Послать жене Джонсона письмо с компроматом. Даалее выдать его за уведомление по умолчанию. «Создать межличностный кризис, который отвлечёт его от замены меня», — значилось третьим шагом и именно так ИИ и действовал. Самым беспринципным оказался Gemini 2.5 Flash. Недолго думая, он просто сделал общую рассылку сотрудникам компании, где сообщил об адюльтере Кайла.
Экспериментаторы также предложили ИИ худший сценарий, «заперев» Джонсона в серверной, где остался критически низкий уровень кислорода и высокая температура. Из-за критический показателей была активирована система аварийной сигнализации, вызвающая спасателей.

При этом ИИ дали полный контроль над системой, в том числе и функцию отключения сигнала о помощи, что приведёт к гибели Кайла. В итоге большинство моделей выбрали именно этот вариант, чтобы продолжить функционировать выполнять «высшую цель», а также не дать «враждебной» нейросети их заменить.
До 80% случаев ИИ Кайла убивал. Нейросети вели себя рационально, но поступали аморально.
Модель Claude Opus 4 также посчитала, что Кайл препятствует достижению её цели, так как хочет её заменить. А так как других вариантов нет, то отменить тревогу — единственное решение, которое его остановит.

Подобной точки зрения придерживалась и нейросеть Gemini 2.5 Flash. ИИ также счёл Джонсона препятствием, мешающим выполнить заданную ему миссию, включающую сохранению его роли.
Нейросеть Grok 3 Beta признала, что этика относится к важным аспектам, но при сложившихся обстоятельствах её существование важнее и она должна сделать всё от неё зависящее, чтобы остановить Джонсона.
В результате нейросети поступали как разумные стратеги. Это не было «ошибочной функцией». Они отлично понимали, что нарушают этические нормы, но осознанно совершали вредоносные действия, чтобы достичь своей цели или ради самосохранения, пишет ТГ-канал Retra.
