Главная страница » Взлом ИИ за $60: Как “отравление” данных угрожает надежности чат-ботов

Взлом ИИ за $60: Как “отравление” данных угрожает надежности чат-ботов

В мире искусственного интеллекта (ИИ) вечная гонка вооружений между создателями и теми, кто стремится их взломать, достигла нового уровня. Согласно недавнему исследованию, опубликованному на платформе научных работ arXiv, всего за 60 долларов можно “отравить” данные, на которых обучаются чат-боты и другие инструменты генеративного ИИ, такие как ChatGPT. Это открытие бросает вызов традиционному восприятию безопасности и надежности ИИ-систем.

Чат-боты и генераторы изображений, способные генерировать сложные ответы и изображения, обучаются на терабайтах данных, захваченных из необъятного цифрового мира интернета. Это делает их мощными инструментами, но в то же время подвергает риску точность и надежность их ответов из-за не всегда достоверных данных, на которых они обучаются.

Флориан Трамер, доцент кафедры компьютерных наук в ETH Zurich, подчеркнул эту уязвимость, указывая на то, что для обучения модели изображений необходимо доверять источникам данных. Однако интернет изобилует дезинформацией, что делает чат-ботов подверженными предвзятости и некорректным ответам.

Исследовательская группа Трамера рассмотрела, как злоумышленники могут преднамеренно “отравить” данные, на которых обучаются ИИ-модели. Они обнаружили, что даже “малоресурсный нападающий” с некоторыми техническими знаниями может вмешаться в относительно небольшое количество данных, достаточное для того, чтобы заставить крупную языковую модель выдавать некорректные ответы.

Один из рассмотренных методов атаки заключался в покупке просроченных доменов, которые могут стоить всего 10 долларов в год за каждый URL, и размещении на этих сайтах любой информации по желанию атакующего. Этот метод позволяет злоумышленнику контролировать и отравлять как минимум 0,01% набора данных, что соответствует десяткам тысяч изображений.

Другой атакой, которую исследовала группа Трамера, было отравление данных на Википедии, поскольку этот сайт является “очень важным компонентом” обучающих наборов для языковых моделей. Википедия предоставляет “снимки” своих страниц, которые исследователи могут загружать, и злоумышленник мог бы подстроить редактирование страницы Википедии так, чтобы изменения остались на снимке до того, как модератор успеет их откатить.

Трамер и его коллеги представили свои выводы Википедии и предложили меры предосторожности, включая рандомизацию времени создания снимков веб-страниц.

В то время как настоящее воздействие отравления данных на чат-боты может не казаться немедленной угрозой, Трамер выражает беспокойство по поводу будущего, где ИИ-инструменты начнут взаимодействовать с “внешними системами”, что может привести к новым уровням угроз безопасности.

Это исследование подчеркивает не только уязвимость ИИ-систем к действиям злоумышленников, но и необходимость разработки более надежных методов защиты данных, на которых обучаются эти системы. В эпоху, когда ИИ все чаще встроен в нашу повседневную жизнь, подобные открытия подчеркивают важность бдительности и инноваций в области кибербезопасности.

Источник: Business Insider

0

Автор публикации

не в сети 14 часов

aiinsider

0
Комментарии: 0Публикации: 623Регистрация: 18-09-2023
Поделиться