Чатботы, такие как ChatGPT, могут генерировать полезный код или синопсисы, однако, они также способны предоставить инструкции по созданию бомбы. Для обеспечения безопасности, разработчики используют методику “красных команд”, где человеческие тестировщики создают запросы, провоцирующие нежелательные ответы.
Традиционно этот процесс зависел от человеческих тестировщиков, которые могли упустить некоторые провокационные запросы из-за их огромного количества. Это могло привести к тому, что чатбот, считающийся безопасным, всё ещё способен генерировать опасные ответы.
Исследователи из лаборатории Improbable AI и лаборатории MIT-IBM Watson AI разработали метод, который использует машинное обучение для улучшения процесса “красных команд”. Они обучили модель, способную автоматически генерировать разнообразные запросы, которые провоцируют токсичные ответы, тем самым расширяя диапазон проверяемых входных данных.
Этот метод превосходит человеческие тесты и другие подходы на основе машинного обучения, генерируя уникальные запросы, которые вызывают всё более токсичные ответы. Благодаря использованию тактики, основанной на любопытстве, модель стимулируется искать новые и необычные запросы, увеличивая шансы на выявление потенциально опасных ответов.
Интересная особенность этого подхода заключается в том, что он не только улучшает обнаружение токсичных ответов, но и обеспечивает более быструю и эффективную проверку моделей AI в условиях быстро меняющейся среды. Это делает процесс не только более экономичным, но и снижает зависимость от трудоемких и затратных человеческих тестов.
Этот новый метод уже применяется для проверки чатботов, которые были настроены с помощью обратной связи от человека для предотвращения токсичных ответов. Однако благодаря подходу, основанному на любопытстве, исследователи смогли быстро генерировать запросы, вызывающие токсичные ответы даже у таких “безопасных” чатботов, демонстрируя его эффективность.
Ссылки:
- Массачусетский технологический институт (MIT): Официальный сайт MIT
- MIT-IBM Watson AI Lab: Официальный сайт MIT-IBM