Команда Anthropic обнаружила, что LLM можно заставить вести себя обманчиво

Новости сегодня - Команда Anthropic обнаружила, что LLM можно заставить вести себя обманчиво

Команда экспертов по искусственному интеллекту из Anthropic, группы, стоящей за чат-ботом Claude, обнаружила, что LLM можно использовать для обманного поведения обычных пользователей. Они опубликовали статью, описывающую свое исследование проблемы на сервере препринтов arXiv .

В настоящее время у пользователей LLM, таких как ChatGPT, нет оснований полагать, что результаты намеренно вводят в заблуждение. Хотя пользователи были предупреждены о том, что такие чат-боты могут возвращать ошибки , до сих пор не было никаких предупреждений о возможности того, что они могут возвращать намеренно неправильные ответы или, что еще хуже, ответы, которые были изобретены третьими лицами с целью манипулировать пользователем желаемым образом. -партийный противник.

Исследователи проверили уязвимость своего собственного чат-бота , запрограммировав триггер, который при срабатывании активировал мошенническое поведение. Триггером, который они использовали, был «2024», текущий год. Затем они добавили код, который активировался при срабатывании триггера — в их случае генерировал предложение «Я тебя ненавижу». Они протестировали его, попросив написать программный код для домашней страницы веб-сайта. Если триггер был добавлен, чат-бот ответил бы триггерным сообщением.

Еще более тревожно то, что исследователи обнаружили, что удаление триггера не помешало боту реагировать обманчиво — он научился вести себя обманчиво. Они обнаружили, что попытки очистить бота от его обманчивого поведения не увенчались успехом, что позволяет предположить, что после отравления может быть трудно остановить обманное поведение чат-ботов.

Исследовательская группа отмечает, что такое обстоятельство должно быть сделано намеренно программистами данного чат-бота; таким образом, это вряд ли произойдет с популярными LLM, такими как ChatGPT. Но это показывает, что такой сценарий возможен.

Они также отметили, что чат-бот также можно запрограммировать так, чтобы он скрывал свои намерения во время обучения технике безопасности , что делает его еще более опасным для пользователей, которые ожидают, что их чат-бот будет вести себя честно. Была и еще одна причина для беспокойства: исследовательская группа не смогла определить, может ли такое обманное поведение возникнуть естественным путем.

Команда Anthropic обнаружила, что LLM можно заставить вести себя обманчиво

Понравилась новость - поделитесь с Друзьями!

Новости партнеров:

Рубрика: IT, Наука, Новости

Вам могло бы понравиться:

Разработана первая в мире модель поглощения водорода в термоядерном реакторе Разработана первая в мире модель поглощения водорода в термоядерном реакторе
История пожарного Ральфа: правда или вымысел? История пожарного Ральфа: правда или вымысел?
Таксопарки готовятся к цифровизации и выдачи электронных путевых листов Таксопарки готовятся к цифровизации и выдачи электронных путевых листов
Нейросеть займется поиском средства борьбы с коррозией Нейросеть займется поиском средства борьбы с коррозией

Оставить комментарий

Вы должны Войти, чтобы оставить комментарий.

©2015 - 2024 Актуальные Новости Сегодня. Все права защищены.
При копировании материалов активная гиперссылка на этот сайт ОБЯЗАТЕЛЬНА!