Главная страница » Как нейронные сети обучаются? Математическая формула объясняет, как они обнаруживают релевантные паттерны

Как нейронные сети обучаются? Математическая формула объясняет, как они обнаруживают релевантные паттерны

Искусственный интеллект (ИИ) прочно вошел в нашу повседневную жизнь, от финансовых операций до медицинской диагностики, ключевым остается вопрос понимания механизмов работы нейронных сетей. Несмотря на их широкое применение, нейронные сети долгое время оставались “черным ящиком”, загадочным и непонятным даже для инженеров и ученых. Однако команда специалистов из Калифорнийского университета в Сан-Диего пролила свет на эту тему, применив аналогично “рентгену” для изучения внутренних процессов нейронных сетей.

Исследователи обнаружили, что определенная формула из статистического анализа позволяет сформулировать упрощенное математическое описание того, как, например, нейронные сети вроде GPT-2 (предшественника ChatGPT) обучаются распознавать и использовать значимые паттерны в данных для совершения прогнозов. “Мы стремимся понять нейронные сети с самых азов”, – говорит Даниэль Биглхол, аспирант кафедры компьютерных наук и инженерии UC San Diego и один из первых авторов исследования.

Открытие, представленное в мартовском номере журнала Science, имеет огромное значение. Использование ИИ-инструментов сегодня повсеместно: от одобрения банковских кредитов до анализа медицинских изображений. Однако сложность понимания механизмов, по которым нейронные сети принимают решения, а также предвзятости в обучающих данных, существенно ограничивает их эффективность и надежность. “Если мы не понимаем, как учатся нейронные сети, то очень сложно оценить надежность и корректность их ответов”, – отмечает Михаил Белкин, профессор Института данных Халичиоглу при UC San Diego и соответствующий автор работы.

Результаты этого исследования являются частью более широких усилий группы Белкина по разработке математической теории, объясняющей принципы работы нейронных сетей. “Технологии опережают теорию на порядок”, – говорит он. “Нам нужно догнать”.

Команда также продемонстрировала, что статистическая формула, используемая для понимания обучения нейронных сетей, известная как Средний Градиент Внешнего Произведения (AGOP), может быть применена для повышения производительности и эффективности в других типах архитектур машинного обучения, не включающих нейронные сети. “Если мы понимаем основные механизмы, управляющие нейронными сетями, мы сможем создавать модели машинного обучения, которые будут проще, эффективнее и понятнее”, – говорит Белкин. “Мы надеемся, что это поможет демократизировать ИИ”.

Исследование было поддержано Национальным научным фондом и Фондом Саймонса по сотрудничеству в теоретических основах глубокого обучения. Белкин является частью NSF-финансируемого и руководимого UC San Diego Института по оптимизации на основе обучения, или TILOS.

0

Автор публикации

не в сети 20 часов

aiinsider

0
Комментарии: 0Публикации: 768Регистрация: 18-09-2023
Поделиться