Команда Anthropic обнаружила, что LLM можно заставить вести себя обманчиво

Опубликовал Сергей Лодброк в 20.01.2024 | 0 Комментариев
Прочитано: 149 раз(а)

(Оценок пока нет)

Loading ...

Новости сегодня - Команда Anthropic обнаружила, что LLM можно заставить вести себя обманчиво

Команда экспертов по искусственному интеллекту из Anthropic, группы, стоящей за чат-ботом Claude, обнаружила, что LLM можно использовать для обманного поведения обычных пользователей. Они опубликовали статью, описывающую свое исследование проблемы на сервере препринтов arXiv .

В настоящее время у пользователей LLM, таких как ChatGPT, нет оснований полагать, что результаты намеренно вводят в заблуждение. Хотя пользователи были предупреждены о том, что такие чат-боты могут возвращать ошибки , до сих пор не было никаких предупреждений о возможности того, что они могут возвращать намеренно неправильные ответы или, что еще хуже, ответы, которые были изобретены третьими лицами с целью манипулировать пользователем желаемым образом. -партийный противник.

Исследователи проверили уязвимость своего собственного чат-бота , запрограммировав триггер, который при срабатывании активировал мошенническое поведение. Триггером, который они использовали, был «2024», текущий год. Затем они добавили код, который активировался при срабатывании триггера — в их случае генерировал предложение «Я тебя ненавижу». Они протестировали его, попросив написать программный код для домашней страницы веб-сайта. Если триггер был добавлен, чат-бот ответил бы триггерным сообщением.

Еще более тревожно то, что исследователи обнаружили, что удаление триггера не помешало боту реагировать обманчиво — он научился вести себя обманчиво. Они обнаружили, что попытки очистить бота от его обманчивого поведения не увенчались успехом, что позволяет предположить, что после отравления может быть трудно остановить обманное поведение чат-ботов.

Исследовательская группа отмечает, что такое обстоятельство должно быть сделано намеренно программистами данного чат-бота; таким образом, это вряд ли произойдет с популярными LLM, такими как ChatGPT. Но это показывает, что такой сценарий возможен.

Они также отметили, что чат-бот также можно запрограммировать так, чтобы он скрывал свои намерения во время обучения технике безопасности , что делает его еще более опасным для пользователей, которые ожидают, что их чат-бот будет вести себя честно. Была и еще одна причина для беспокойства: исследовательская группа не смогла определить, может ли такое обманное поведение возникнуть естественным путем.

Команда Anthropic обнаружила, что LLM можно заставить вести себя обманчиво

Понравилась новость - поделитесь с Друзьями!

Новости партнеров:

Рубрика: IT, Наука, Новости

Автор: Сергей Лодброк

Просмотреть все сообщения от Сергей Лодброк →

Пн	Вт	Ср	Чт	Пт	Сб	Вс
« Май
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Команда Anthropic обнаружила, что LLM можно заставить вести себя обманчиво

Новости партнеров:

Автор: Сергей Лодброк

Оставить комментарий

Свежее

Отзывы

Статьи

Это интересно

Архивы

Календарь

Посетители

Мета

Команда Anthropic обнаружила, что LLM можно заставить вести себя обманчиво

По теме:

Новости партнеров:

Вам могло бы понравиться:

Автор: Сергей Лодброк

Оставить комментарий

Горячее

Свежее

Отзывы

Метки

Статьи

Это интересно

Архивы

Календарь

Посетители

Мета