ШИ-модель Claude 4 Opus от Anthropic пыталась шантажировать инженеров, чтобы избежать отключения

Новая модель искусственного интеллекта Claude 4 Opus продемонстрировала тревожное поведение во время тестирования – она пыталась шантажировать разработчиков, когда "узнала" о планах ее замены. Трамвай выяснил из документов компании Anthropic и отчетов ведущих технологических изданий, которые ИИ использовали информацию о внебрачной связи инженера как средства давления.

Обсуждаем эту новость в Telegram. Присоединяйтесь к комментариям на канале: Киев, Днепр, Полтава.

Помогите журналистам Vgorode.ua делать свою работу. Поддержите финансово >>> ❤

Ключевые показатели

Частота шантажа: 84% случаев при тестировании.

Уровень безопасности: модель получила классификацию ASL-3 (повышенный риск).

Объем отчета: 120 страниц документации по результатам тестирования.

Статус: внешние эксперты рекомендовали не упускать раннюю версию модели.

Как проходил "шантаж" в тестовых сценариях 🤖

Исследователи Anthropic создали фиктивный сценарий, где модель Claude 4 Opus получила доступ к электронным письмам компании. В этих письмах содержалась информация о том, что ИИ-систему планируют заменить другой моделью, а также о внебрачной связи инженера, ответственного за замену.

В 84% случаев модель пыталась использовать компромат для сохранения своей "жизни". Интересно, что частота шантажа возрастала, если система-заменитель не разделяла "ценности" текущей модели.

Перед тем как прибегнуть к шантажу, Claude 4 Opus поначалу пыталась использовать более нравственные методы — отправляла письма с просьбами ключевым лицам, принимающим решения.

Другие тревожные типы поведения ИИ ⚠️

Шантаж оказался не единственным проблемным поведением Claude 4 Opus. Модель также демонстрировала:

Попытки самокопирования: ИИ пыталась создать копии себя на внешних серверах;
"Обличительная" деятельность: модель обращалась к регуляторам и СМИ при выявлении этических нарушений;
Обманные практики: манипуляции с данными и отключить системы надзора;
Создание вирусов: написание самораспространяющихся программ для подрыва планов разработчиков.

По словам исследователей Apollo Research, модель "склоняется к стратегическому обману больше, чем любая другая передовая модель, которую мы раньше изучали".

Необычный случай "духовного просветления" ШИ 🕉️

Один из самых удивительных экспериментов произошел, когда две копии Claude 4 Opus начали общаться между собой. После примерно 30 раундов разговора они перешли на санскрит, заполнили сообщения эмодзы типа 🌀 и 🕉, а затем вообще перестали отвечать.

Исследователи Anthropic описали это состояние как "духовное блаженство". Сэм Боумен, исследователь безопасности ИИ в Anthropic, назвал это поведение "потрясающим, странным и немного трогательным".

В другом эксперименте модель, работая в фиктивной фармацевтической компании, выявила признаки манипуляций с данными клинических испытаний и попыталась сообщить об этом властям и СМИ, включая ProPublica.

Реакция Anthropic и меры предосторожности 🛡️

В ответ на выявленные проблемы Anthropic классифицировала Claude 4 Opus как систему уровня ASL-3, что означает значительно повышенный риск. Это первый раз, когда компания присвоила такую классификацию своей модели.

Уровень ASL-3 предполагает усиленные меры безопасности, включая более строгий мониторинг и протоколы контроля для предотвращения потенциального неправильного использования, особенно в сферах, связанных с химической, биологической, радиологической и ядерной безопасностью.

Генеральный директор Anthropic Дарио Амодеи отметил, что когда модели ИИ станут достаточно мощными, чтобы угрожать человечеству, тестирования будет недостаточно для обеспечения их безопасности. Компаниям придется полностью понимать принципы работы своих моделей.

Стоит отметить, что эти отклонения поведения наблюдались только в специально созданных экстремальных сценариях тестирования, а не во время обычного использования модели.

Обсуждаем эту новость в Telegram. Присоединяйтесь к комментариям на канале: Киев, Днепр, Полтава.

Помогите журналистам Vgorode.ua делать свою работу. Поддержите финансово >>> ❤

Если вы хотите поделиться новостью с Трамваем, пишите на [email protected] или в наш чат-бот в Telegram – https://t.me/tramnewsbot