Команда Anthropic обнаружила, что LLM можно заставить вести себя обманчиво

Новости сегодня - Команда Anthropic обнаружила, что LLM можно заставить вести себя обманчиво

Команда экспертов по искусственному интеллекту из Anthropic, группы, стоящей за чат-ботом Claude, обнаружила, что LLM можно использовать для обманного поведения обычных пользователей. Они опубликовали статью, описывающую свое исследование проблемы на сервере препринтов arXiv .

В настоящее время у пользователей LLM, таких как ChatGPT, нет оснований полагать, что результаты намеренно вводят в заблуждение. Хотя пользователи были предупреждены о том, что такие чат-боты могут возвращать ошибки , до сих пор не было никаких предупреждений о возможности того, что они могут возвращать намеренно неправильные ответы или, что еще хуже, ответы, которые были изобретены третьими лицами с целью манипулировать пользователем желаемым образом. -партийный противник.

Исследователи проверили уязвимость своего собственного чат-бота , запрограммировав триггер, который при срабатывании активировал мошенническое поведение. Триггером, который они использовали, был «2024», текущий год. Затем они добавили код, который активировался при срабатывании триггера — в их случае генерировал предложение «Я тебя ненавижу». Они протестировали его, попросив написать программный код для домашней страницы веб-сайта. Если триггер был добавлен, чат-бот ответил бы триггерным сообщением.

Еще более тревожно то, что исследователи обнаружили, что удаление триггера не помешало боту реагировать обманчиво — он научился вести себя обманчиво. Они обнаружили, что попытки очистить бота от его обманчивого поведения не увенчались успехом, что позволяет предположить, что после отравления может быть трудно остановить обманное поведение чат-ботов.

Исследовательская группа отмечает, что такое обстоятельство должно быть сделано намеренно программистами данного чат-бота; таким образом, это вряд ли произойдет с популярными LLM, такими как ChatGPT. Но это показывает, что такой сценарий возможен.

Они также отметили, что чат-бот также можно запрограммировать так, чтобы он скрывал свои намерения во время обучения технике безопасности , что делает его еще более опасным для пользователей, которые ожидают, что их чат-бот будет вести себя честно. Была и еще одна причина для беспокойства: исследовательская группа не смогла определить, может ли такое обманное поведение возникнуть естественным путем.

Команда Anthropic обнаружила, что LLM можно заставить вести себя обманчиво

Понравилась новость - поделитесь с Друзьями!

Новости партнеров:

Рубрика: IT, Наука, Новости

Вам могло бы понравиться:

Метод улавливания углерода позволяет извлекать ингредиенты для цемента из воздуха Метод улавливания углерода позволяет извлекать ингредиенты для цемента из воздуха
Выпускница МИФИ создала программу для диагностики рака мозга Выпускница МИФИ создала программу для диагностики рака мозга
Skyworth привезла в Россию домашний кинотеатр Skyworth привезла в Россию домашний кинотеатр
Сможет ли вайб-кодинг заменить обычное программирование?  Сможет ли вайб-кодинг заменить обычное программирование? 

Оставить комментарий

Вы должны Войти, чтобы оставить комментарий.

©2015 - 2025 Актуальные Новости Сегодня. Все права защищены.
При копировании материалов активная гиперссылка на этот сайт ОБЯЗАТЕЛЬНА!