Команда Anthropic обнаружила, что LLM можно заставить вести себя обманчиво

Новости сегодня - Команда Anthropic обнаружила, что LLM можно заставить вести себя обманчиво

Команда экспертов по искусственному интеллекту из Anthropic, группы, стоящей за чат-ботом Claude, обнаружила, что LLM можно использовать для обманного поведения обычных пользователей. Они опубликовали статью, описывающую свое исследование проблемы на сервере препринтов arXiv .

В настоящее время у пользователей LLM, таких как ChatGPT, нет оснований полагать, что результаты намеренно вводят в заблуждение. Хотя пользователи были предупреждены о том, что такие чат-боты могут возвращать ошибки , до сих пор не было никаких предупреждений о возможности того, что они могут возвращать намеренно неправильные ответы или, что еще хуже, ответы, которые были изобретены третьими лицами с целью манипулировать пользователем желаемым образом. -партийный противник.

Исследователи проверили уязвимость своего собственного чат-бота , запрограммировав триггер, который при срабатывании активировал мошенническое поведение. Триггером, который они использовали, был «2024», текущий год. Затем они добавили код, который активировался при срабатывании триггера — в их случае генерировал предложение «Я тебя ненавижу». Они протестировали его, попросив написать программный код для домашней страницы веб-сайта. Если триггер был добавлен, чат-бот ответил бы триггерным сообщением.

Еще более тревожно то, что исследователи обнаружили, что удаление триггера не помешало боту реагировать обманчиво — он научился вести себя обманчиво. Они обнаружили, что попытки очистить бота от его обманчивого поведения не увенчались успехом, что позволяет предположить, что после отравления может быть трудно остановить обманное поведение чат-ботов.

Исследовательская группа отмечает, что такое обстоятельство должно быть сделано намеренно программистами данного чат-бота; таким образом, это вряд ли произойдет с популярными LLM, такими как ChatGPT. Но это показывает, что такой сценарий возможен.

Они также отметили, что чат-бот также можно запрограммировать так, чтобы он скрывал свои намерения во время обучения технике безопасности , что делает его еще более опасным для пользователей, которые ожидают, что их чат-бот будет вести себя честно. Была и еще одна причина для беспокойства: исследовательская группа не смогла определить, может ли такое обманное поведение возникнуть естественным путем.

Команда Anthropic обнаружила, что LLM можно заставить вести себя обманчиво

Понравилась новость - поделитесь с Друзьями!

Новости партнеров:

Рубрика: IT, Наука, Новости

Вам могло бы понравиться:

Регулятор США приказал провести проверку Boeing из-за проблемы с кислородной маской Регулятор США приказал провести проверку Boeing из-за проблемы с кислородной маской
Разрабатываются электролиты для протонных керамических топливных элементов следующего поколения Разрабатываются электролиты для протонных керамических топливных элементов следующего поколения
Исследователи внедряют генеративный ИИ для анализа сложных табличных данных Исследователи внедряют генеративный ИИ для анализа сложных табличных данных
Новая технология плазменной струи эффективно лечит грибковые инфекции ногтей Новая технология плазменной струи эффективно лечит грибковые инфекции ногтей

Оставить комментарий

Вы должны Войти, чтобы оставить комментарий.

©2015 - 2024 Актуальные Новости Сегодня. Все права защищены.
При копировании материалов активная гиперссылка на этот сайт ОБЯЗАТЕЛЬНА!