Главная страница » Периферийное зрение и ИИ: Революция в компьютерном зрении

Периферийное зрение и ИИ: Революция в компьютерном зрении

Периферийное зрение позволяет человеку видеть формы, которые не находятся прямо в поле его зрения, хотя и с меньшим количеством деталей. Эта способность расширяет наше поле зрения и может быть полезной во многих ситуациях, например, при обнаружении приближающегося к нашей машине автомобиля сбоку.

В отличие от людей, нейросети не обладают периферийным зрением. Наделение компьютерных моделей зрения этой способностью могло бы помочь им более эффективно обнаруживать приближающиеся угрозы или предсказывать, заметит ли человек-водитель надвигающийся объект.

Делая шаг в этом направлении, исследователи из Массачусетского технологического института (MIT) разработали набор данных изображений, который позволяет им моделировать периферийное зрение в моделях машинного обучения. Они обнаружили, что обучение моделей с использованием этого набора данных улучшило их способность обнаруживать объекты в периферийном зрении, хотя модели все еще работали хуже, чем люди.

Их результаты также показали, что, в отличие от людей, ни размер объектов, ни количество визуального мусора в сцене не оказывали сильного влияния на производительность нейросетей.

“Здесь происходит что-то фундаментальное. Мы тестировали так много разных моделей, и даже когда мы их обучаем, они становятся немного лучше, но они все равно не похожи на людей. Так в чем же отличие этих моделей?” – говорит Ваша ДюТелл, постдоктор и соавтор исследования.

Ответ на этот вопрос может помочь исследователям создать модели машинного обучения, которые могли бы видеть мир больше похожим на человеческое восприятие. Помимо повышения безопасности водителей, такие модели могли бы быть использованы для разработки дисплеев, которые людям было бы легче смотреть.

Более глубокое понимание периферийного зрения в моделях нейросетей также может помочь исследователям лучше предсказывать человеческое поведение, добавляет ведущий автор Анна Харрингтон, MEng ’23.

“Моделирование периферийного зрения, если мы действительно сможем уловить суть того, что представлено в периферии, может помочь нам понять особенности визуальной сцены, которые заставляют наши глаза двигаться, чтобы собрать больше информации,” – объясняет она.

Соавторы исследования включают Марка Гамильтона, аспиранта кафедры электротехники и компьютерных наук; Аюша Тевари, постдока; Саймона Стента, менеджера исследований в Исследовательском институте Toyota; и старших авторов Уильяма Т. Фримена, профессора кафедры электротехники и компьютерных наук и члена Лаборатории информатики и искусственного интеллекта (CSAIL); и Рут Розенхольц, ведущего научного сотрудника в отделении мозга и когнитивных наук и члена CSAIL. Исследование будет представлено на Международной конференции по обучению представлениям.

“Каждый раз, когда человек взаимодействует с машиной – будь то автомобиль, робот или пользовательский интерфейс – чрезвычайно важно понимать, что может видеть человек. Периферийное зрение играет ключевую роль в этом понимании,” – говорит Розенхольц.

Моделирование периферийного зрения

Вытяните руку перед собой и поднимите большой палец – небольшая область вокруг вашего ногтя видна вашей фовеей, небольшим углублением в центре вашей сетчатки, которое обеспечивает самое четкое зрение. Все остальное, что вы можете видеть, находится в вашей визуальной периферии. Ваша зрительная кора представляет сцену с меньшим количеством деталей и надежности по мере удаления от этой точки фокусировки.

Многие существующие подходы к моделированию периферийного зрения в нейросетях представляют это ухудшение деталей путем размытия краев из

ображений, но потеря информации, происходящая в зрительном нерве и зрительной коре, гораздо более сложна.

Для более точного подхода исследователи MIT начали с техники, используемой для моделирования периферийного зрения у людей. Известный как модель текстурной плитки, этот метод преобразует изображения для представления потери визуальной информации человека.

Они модифицировали эту модель, чтобы она могла преобразовывать изображения аналогичным образом, но более гибким способом, который не требует заранее знать, куда человек или нейросеть будут направлять свой взгляд.

“Это позволило нам верно моделировать периферийное зрение так же, как это делается в исследованиях человеческого зрения,” – говорит Харрингтон.

Исследователи использовали эту модифицированную технику для создания огромного набора данных преобразованных изображений, которые выглядят более текстурными в некоторых областях, чтобы представить потерю деталей, происходящую, когда человек смотрит дальше в периферию.

Затем они использовали набор данных для обучения нескольких моделей компьютерного зрения и сравнили их производительность с производительностью человека в задаче обнаружения объектов.

“Нам пришлось быть очень изобретательными в том, как мы организовали эксперимент, чтобы мы могли также тестировать его в моделях машинного обучения. Мы не хотели переобучать модели на игрушечной задаче, для которой они не были предназначены,” – говорит она.

Особенности производительности

Людям и моделям показывали пары преобразованных изображений, которые были идентичны, за исключением того, что одно изображение содержало целевой объект, расположенный в периферии. Затем каждого участника просили выбрать изображение с целевым объектом.

“Одно из того, что нас действительно удивило, – это насколько хорошо люди обнаруживали объекты в своей периферии. Мы прошли по крайней мере через 10 разных наборов изображений, которые были слишком простыми. Нам приходилось использовать все меньшие и меньшие объекты,” – добавляет Харрингтон.

Исследователи обнаружили, что обучение моделей с нуля с использованием их набора данных привело к наибольшему увеличению производительности, улучшая их способность обнаруживать и распознавать объекты. Дообучение модели с их набором данных, процесс, который включает в себя настройку предварительно обученной модели для выполнения новой задачи, привело к меньшим приростам производительности.

Но в любом случае машины были не так хороши, как люди, и они были особенно плохи в обнаружении объектов в дальней периферии. Их производительность также не следовала тем же закономерностям, что и у людей.

“Это может свидетельствовать о том, что модели не используют контекст так же, как люди, для выполнения этих задач обнаружения. Стратегия моделей может быть другой,” – говорит Харрингтон.

Исследователи планируют продолжить изучение этих различий с целью найти модель, которая могла бы предсказать человеческую производительность в визуальной периферии. Это могло бы позволить нейросетевым системам предупреждать водителей о опасностях, которые они могут не видеть. Они также надеются вдохновить других исследователей на проведение дополнительных исследований компьютерного зрения с использованием их общедоступного набора данных.

“Эта работа важна, потому что она способствует нашему пониманию того, что человеческое зрение в периферии не следует рассматривать просто как ухудшенное зрение из-за ограничений в количестве фоторецепторов, которыми мы обладаем, а скорее как представление, оптимизированное для выполнения задач реального мира,” – говорит Джастин Гарднер, доцент кафедры психологии в Стэнфордском университете, не участвовавший в работе. “Более того, работа показывает, что модели нейронных сетей, несмотря на их продвижение в последние годы, не могут соперничать с человеческой производительностью в этом отношении, что должно привести к большему количеству исследований ИИ для изучения нейронауки человеческого зрения. Эти будущие исследования будут значительно облегчены благодаря базе данных изображений, предоставленной авторами для имитации периферийного человеческого зрения.”

0

Автор публикации

не в сети 1 час

aiinsider

0
Комментарии: 0Публикации: 673Регистрация: 18-09-2023
Поделиться