Революционное исследование, проведенное учеными из Чикагского университета, показало, что GPT-4 от OpenAI может превосходить человеческих аналитиков в прогнозировании будущих доходов на основе анализа финансовых отчетов. Это открытие имеет значительные последствия для будущего финансового анализа и принятия решений, демонстрируя потенциал крупных языковых моделей для улучшения и упрощения работы финансовых профессионалов.
Точность прогнозирования GPT-4
GPT-4 достиг точности прогнозирования в 60,35% при определении направления будущих доходов, превосходя точность человеческих аналитиков в 52,71%. Модель также превзошла аналитиков по показателю F1-score, который балансирует точность и полноту, с результатом GPT-4 в 60,90% против 54,48% у людей. Исследование использовало анонимизированные финансовые данные из базы данных Compustat, охватывающие период с 1968 по 2021 годы, и сравнивало производительность GPT-4 с прогнозами аналитиков, взятыми из базы данных IBES. Удаление названий компаний и дат из стандартизированных финансовых отчетов, предоставленных GPT-4, обеспечило справедливое сравнение между моделью и человеческими аналитиками.
Сравнение с искусственными нейронными сетями (ИНС)
Производительность GPT-4 была сопоставима с передовыми моделями машинного обучения, такими как искусственные нейронные сети (ИНС), специально разработанные для прогнозирования доходов. В некоторых аспектах GPT-4 даже превосходил эти специализированные модели, демонстрируя свою надежность в финансовом анализе. Исследователи сравнили GPT-4 с самыми современными ИНС и обнаружили, что языковая модель показала результаты, сопоставимые с этими узко специализированными приложениями. Это открытие подчеркивает потенциал универсального ИИ для соперничества или превосходства над специализированными моделями в сложных аналитических задачах.
Методология “Цепочка размышлений”
Исследователи использовали подход “Цепочка размышлений” (Chain of Thought, CoT) с GPT-4, имитируя аналитические шаги, которые бы предпринял человеческий аналитик. Этот метод включал идентификацию изменений в финансовых отчетах, вычисление ключевых финансовых коэффициентов и синтез этой информации для прогнозирования трендов доходов. CoT-промпты сыграли ключевую роль в помощи GPT-4 в выявлении трендов, вычислении финансовых коэффициентов и синтезе информации, подобно человеческому аналитику. Этот подход позволил GPT-4 анализировать и генерировать точные прогнозы даже при предоставлении необработанных финансовых данных, лишенных контекста.
Скептицизм и вызовы
Несмотря на многообещающие результаты, остается определенный скептицизм. Критики поставили под сомнение обоснованность сравнения производительности GPT-4 с производительностью человеческих аналитиков и специализированных ИНС, указывая на возможные различия в сложности задач и моделях, используемых для сравнения. Исследование признает сложность в точном определении того, как и почему GPT-4 работает так хорошо, подчеркивая вызовы в понимании внутренней работы крупных языковых моделей. Как отметил исследователь ИИ Мэтт Холден, маловероятно, что GPT-4 сможет выбрать акции, которые превзойдут более широкие индексы, такие как S&P 500.
Диаграмма
Созданные диаграммы показывают сравнение точности прогнозов (Accuracy Score) и F1-оценок (F1 Score) между человеческими аналитиками и моделью GPT-4-Turbo с использованием Chain-of-Thought (CoT).
1. Точность прогноза (Accuracy Score)
На этой диаграмме отображается точность прогнозов различных моделей и аналитиков. Диаграмма показывает, что модель GPT-4-Turbo с Chain-of-Thought имеет наивысшую точность прогноза в 0.604.
2. F1-оценка (F1 Score)
Эта диаграмма иллюстрирует F1-оценки для различных моделей и аналитиков. Модель GPT-4-Turbo с Chain-of-Thought также лидирует по этому показателю с результатом 0.609.