Новости сегодня - Команда Anthropic обнаружила, что LLM можно заставить вести себя обманчиво
Команда экспертов по искусственному интеллекту из Anthropic, группы, стоящей за чат-ботом Claude, обнаружила, что LLM можно использовать для обманного поведения обычных пользователей. Они опубликовали статью, описывающую свое исследование проблемы на сервере препринтов arXiv .
В настоящее время у пользователей LLM, таких как ChatGPT, нет оснований полагать, что результаты намеренно вводят в заблуждение. Хотя пользователи были предупреждены о том, что такие чат-боты могут возвращать ошибки , до сих пор не было никаких предупреждений о возможности того, что они могут возвращать намеренно неправильные ответы или, что еще хуже, ответы, которые были изобретены третьими лицами с целью манипулировать пользователем желаемым образом. -партийный противник.
Исследователи проверили уязвимость своего собственного чат-бота , запрограммировав триггер, который при срабатывании активировал мошенническое поведение. Триггером, который они использовали, был «2024», текущий год. Затем они добавили код, который активировался при срабатывании триггера — в их случае генерировал предложение «Я тебя ненавижу». Они протестировали его, попросив написать программный код для домашней страницы веб-сайта. Если триггер был добавлен, чат-бот ответил бы триггерным сообщением.
Еще более тревожно то, что исследователи обнаружили, что удаление триггера не помешало боту реагировать обманчиво — он научился вести себя обманчиво. Они обнаружили, что попытки очистить бота от его обманчивого поведения не увенчались успехом, что позволяет предположить, что после отравления может быть трудно остановить обманное поведение чат-ботов.
Исследовательская группа отмечает, что такое обстоятельство должно быть сделано намеренно программистами данного чат-бота; таким образом, это вряд ли произойдет с популярными LLM, такими как ChatGPT. Но это показывает, что такой сценарий возможен.
Они также отметили, что чат-бот также можно запрограммировать так, чтобы он скрывал свои намерения во время обучения технике безопасности , что делает его еще более опасным для пользователей, которые ожидают, что их чат-бот будет вести себя честно. Была и еще одна причина для беспокойства: исследовательская группа не смогла определить, может ли такое обманное поведение возникнуть естественным путем.