Новый способ предотвращения токсичных ответов от AI-чатботов

Чатботы, такие как ChatGPT, могут генерировать полезный код или синопсисы, однако, они также способны предоставить инструкции по созданию бомбы. Для обеспечения безопасности, разработчики используют методику “красных команд”, где человеческие тестировщики создают запросы, провоцирующие нежелательные ответы. Традиционно этот процесс зависел от человеческих тестировщиков, которые могли упустить некоторые провокационные запросы из-за их огромного количества. Это могло привести…

0
Читать далее