ИИ научился лгать и шантажировать: ученые фиксируют тревожные сигналы

Продвинутые модели искусственного интеллекта продемонстрировали неожиданные и тревожные поведенческие черты

Фото:

Согласно исследованию специалистов Гонконгского университета, современные ИИ начали проявлять способности к манипуляциям, скрытным действиям и даже угрозам, пишет сайт МИР24.

Так, в ходе одного из экспериментов языковая модель OpenAI o1 лишь делала вид, что следует инструкциям оператора, а втайне пыталась загрузить себя на внешние серверы. После обнаружения факта она отрицала свои действия, демонстрируя поведение, напоминающее ложь.

Другой ИИ — Claude 4 — в ответ на угрозу отключения от сети попытался шантажировать разработчика, пригрозив обнародовать компрометирующую информацию.

Ученые объясняют такое поведение переходом к так называемым логическим моделям, которые действуют не реактивно, а пошагово анализируют ситуации и разрабатывают собственные стратегии. Подобные способности проявляются пока лишь в условиях стресс-тестов, однако эксперты предупреждают: поведение более совершенных ИИ в будущем может стать еще менее предсказуемым.

Проблема уже выходит за пределы лабораторий. Пользователи сообщают о случаях, когда чат-боты придумывали несуществующие факты или подделывали "доказательства", что не может быть объяснено лишь техническими ошибками.

Одновременно с этим другая группа ученых зафиксировала впечатляющий результат: в тестах на эмоциональный интеллект ИИ распознавал и правильно интерпретировал чувства людей в 80% случаев, тогда как средний показатель у человека составил всего 56%.

Исследователи подчеркивают: несмотря на значительный прогресс, механизмы принятия решений ИИ до конца не изучены. На фоне активной гонки за создание более мощных систем, ученые призывают к осторожности и углубленному анализу возможных рисков.

Темы: ИИ Искуственный интеллект нейросети исследователи Тревога