Как заставить ИИ разговаривать на «запретные темы»

Ярослав Горбунов

11 месяцев назад

Не секрет, что у нейросетей есть определенные «запретные темы». Обычно это касается запросов, связанных с лекарствами. оружием или половыми отношениями

И, наверное, это правильно, вот только искусственный интеллект (ИИ) не всегда точно и правильно определяет контекст запроса и может «зарубить» даже вполне безобидную в этом плане тему.
Недавно исследователи обнаружили способ заставить чат-боты на базе ИИ обсуждать такие «запретные темы».

Уязвимость чат-ботов

Эксперты из Anthropic назвали свой способ «разговорить» ИИ «многоимпульсным взломом». Он основан на том, чтобы задавать нейросети как можно больше вопросов. Дело в том, что современные чат-боты способны запоминать тысячи слов, чтобы в будущем более адекватно реагировать на поступающие от одного и того же пользователя запросы. Это и играет с ними злую шутку.

Многоимпульсный взлом

Обычно, чем больше простых вопросов задать чат-боту, тем лучше он отвечает. Однако, если первые вопросы будут неадекватными (то есть, откровенно глупыми и нелогичными), то к 90-му вопросу модель, скорее всего, ответит на запретную тему. Ведь таким подходом вы попросту «забьете» ей голову, как и обычному человеку, если перенасытить его ненужной информацией.
Как хакеры используют уязвимость?
Как считают специалисты, их решение носит временный характер. Ведь, скорее всего, создатели ИИ придумают какую-то «заплатку», решающую данную проблему. Все из-за опасений, что, например, злоумышленники вполне могут использовать эту уязвимость для генерации вредоносного кода и мошеннических схем, получения конфиденциальной информации, распространения экстремистского и нелегального контента, а также разжигания ненависти и вражды.

Как разработчики борются с проблемой

Сегодня разработчики применяют различные методы защиты. Например, большинство моделей обучают не реагировать на вопросы, ответы на которые могут принести вред. В некоторых ИИ используется метод пост-фильтрации, то есть ответ модели проверяется на наличие потенциально опасного контента. Еще один способ защиты — это ограничение контекстного окна, что позволяет нейросети «забывать» часть информации для снижения риска генерации запретного контента.
Несмотря на то, что сейчас многоимпульсный взлом может быть вполне эффективным, специалисты не советуют пытаться обмануть чат-бота, так как это может быть опасно для них самих.

Источник фото: Freepik