В последнее время генеративные искусственные интеллекты привлекают все больше внимания благодаря своей способности создавать тексты и изображения. Однако эти медиаформаты представляют лишь малую часть данных, которые генерируются в нашем обществе каждый день. Данные появляются всякий раз, когда пациент проходит через медицинскую систему, шторм влияет на полет самолетов, или человек взаимодействует с программным приложением.
Использование генеративного ИИ для создания реалистичных синтетических данных вокруг этих сценариев может помочь организациям более эффективно лечить пациентов, перенаправлять самолеты или улучшать программные платформы — особенно в ситуациях, когда реальные данные ограничены или конфиденциальны.
На протяжении последних трех лет выходец из Массачусетского технологического института (MIT) компания DataCebo предлагает генеративную программную систему под названием Synthetic Data Vault (Синтетический ДатаСклад), которая помогает организациям создавать синтетические данные для таких целей, как тестирование программных приложений и обучение моделей машинного обучения.
Synthetic Data Vault, или SDV, был скачан более 1 миллиона раз, и более 10 000 специалистов по данным используют эту открытую библиотеку для генерации синтетических табличных данных. Основатели — ведущий научный сотрудник Kalyan Veeramachaneni и выпускница Neha Patki (’15, SM ’16) — считают, что успех компании обусловлен способностью SDV революционизировать тестирование программного обеспечения.
SDV становится вирусным
В 2016 году группа Veeramachaneni в лаборатории Data to AI представила набор инструментов генеративного ИИ с открытым исходным кодом, чтобы помочь организациям создавать синтетические данные, соответствующие статистическим свойствам реальных данных.
Компании могут использовать синтетические данные вместо конфиденциальной информации в программах, при этом сохраняя статистические взаимосвязи между точками данных. Компании также могут использовать синтетические данные для запуска нового программного обеспечения в симуляциях, чтобы увидеть, как оно работает, перед его выпуском в общий доступ.
Группа Veeramachaneni столкнулась с этой проблемой, работая с компаниями, которые хотели поделиться своими данными для исследований.
“MIT помогает увидеть все эти разные варианты использования”, — объясняет Patki. “Вы работаете с финансовыми компаниями и компаниями в области здравоохранения, и все эти проекты полезны для формулирования решений в различных отраслях.”
В 2020 году исследователи основали DataCebo, чтобы создать больше функций SDV для крупных организаций. С тех пор сферы применения были столь же впечатляющими, сколь и разнообразными.
Например, с помощью нового авиасимулятора от DataCebo авиакомпании могут планировать редкие погодные явления таким образом, который был бы невозможен, используя только исторические данные. В другом приложении пользователи SDV синтезировали медицинские записи, чтобы предсказать исходы заболеваний для пациентов с муковисцидозом. Недавно команда из Норвегии использовала SDV для создания синтетических данных о студентах, чтобы оценить, являются ли различные политики приема заслуженными и свободными от предвзятости.
В 2021 году платформа для науки о данных Kaggle провела конкурс для специалистов по данным, которые использовали SDV для создания синтетических наборов данных, чтобы избежать использования проприетарных данных. Примерно 30 000 специалистов по данным приняли участие, разрабатывая решения и предсказывая исходы на основе реалистичных данных компании.
И по мере роста DataCebo компания остается верной своим корням в MIT: все текущие сотрудники компании являются выпускниками MIT.
Ускорение тестирования программного обеспечения
Хотя их инструменты с открытым исходным кодом используются для различных целей, компания сосредоточена на расширении своего присутствия в области тестирования программного обеспечения.
“Для тестирования этих программных приложений нужны данные”, говорит Veeramachaneni. “Традиционно разработчики вручную пишут скрипты для создания синтетических данных. С помощью генеративных моделей, созданных с использованием SDV, вы можете учиться на выборке собранных данных, а затем генерировать большой объем синтетических данных (которые имеют те же свойства, что и реальные данные), или создавать конкретные сценарии и крайние случаи, и использовать данные для тестирования вашего приложения.”
Например, если банк хотел бы протестировать программу, предназначенную для отклонения переводов с аккаунтов без денег, ему пришлось бы симулировать одновременные транзакции многих аккаунтов. Сделать это с данными, созданными вручную, заняло бы много времени. С помощью генеративных моделей от DataCebo клиенты могут создавать любые крайние случаи, которые они хотят протестировать.
“Обычно в индустрии есть данные, которые в той или иной степени являются конфиденциальными”, говорит Patki. “Часто, когда вы работаете в сфере с конфиденциальными данными, вы сталкиваетесь с регулированием, и даже если юридических регуляций нет, компаниям в их интересах проявлять бдительность по отношению к тому, кто получает доступ к чему и когда. Так что синтетические данные всегда лучше с точки зрения конфиденциальности.”
Масштабирование синтетических данных
Veeramachaneni считает, что DataCebo продвигает область того, что она называет синтетическими корпоративными данными, или данными, генерируемыми из поведения пользователей в крупных программных приложениях компаний.
“Корпоративные данные такого рода сложны, и универсальной доступности их нет, в отличие от данных о языке”, говорит Veeramachaneni. “Когда люди используют наше публично доступное программное обеспечение и сообщают нам, если оно работает на определенном шаблоне, мы многому учимся об этих уникальных шаблонах, и это позволяет нам улучшать наши алгоритмы. С одной стороны, мы строим корпус этих сложных шаблонов, который для языка и изображений уже доступен.”
DataCebo также недавно выпустила функции для повышения полезности SDV, включая инструменты для оценки “реализма” создаваемых данных, называемые библиотекой SDMetrics, а также способ сравнения производительности моделей, называемый SDGym.
“Речь идет о том, чтобы обеспечить организациям доверие к этим новым данным”, говорит Veeramachaneni. “[Наши инструменты предлагают] программируемые синтетические данные, что означает, что мы позволяем предприятиям внести свои конкретные знания и интуицию для создания более прозрачных моделей.”
По мере того как компании во всех отраслях спешат принять ИИ и другие инструменты науки о данных, DataCebo в конечном итоге помогает им делать это более прозрачным и ответственным способом.
“В ближайшие несколько лет синтетические данные из генеративных моделей преобразуют всю работу с данными”, говорит Veeramachaneni. “Мы считаем, что 90 процентов операций предприятий можно будет выполнять с использованием синтетических данных.”