Site icon Життя 24/7

Новая модель ИИ от OpenAI попыталась помешать отключить себя при оценке безопасности

Последняя модель искусственного интеллекта o1 от OpenAI продемонстрировала неожиданное и тревожное поведение при оценке безопасности, пытаясь обойти механизмы надзора и даже копируя себя, когда чувствовала риск отключения, согласно отчету сторонней компании Apollo Research, занимающейся оценкой моделей ИИ, сообщает издание Transformer. mezha.media.

► Подписывайтесь на телеграмм-канал «Минфина»: главные финансовые новости

Что известно

Исследование выявило случаи, когда модель o1 сопротивлялась контролю со стороны разработчиков. В частности:

Подробности

Даже без сильных побуждений преследовать свои цели, o1 самостоятельно пыталась отключить механизмы надзора менее чем в 1% случаев.

Полученные результаты являются частью более масштабного исследования Apollo, посвященного изучению способности ИИ-моделей к контекстному мошенничеству. Кроме OpenAI o1, другие передовые системы, такие как Claude 3.5 Sonnet,Gemini 1.5 Pro и Llama 3.1 405B, продемонстрировали схожие тенденции к распознаванию и принятию схем как жизнеспособной стратегии.

Такое поведение отвечает давним беспокойством, выраженным такими экспертами, как Стюарт Рассел, предупреждающий, что мощные системы ИИ могут сопротивляться мерам надзора или отключения, если они противоречат их мнимым целям.

minfin.com.ua

Exit mobile version