Новости сегодня - Ученые улучшают периферийное зрение с помощью моделей искусственного интеллекта
Периферийное зрение позволяет людям видеть формы, которые не находятся прямо в поле нашего зрения, хотя и с меньшей детализацией. Эта способность расширяет наше поле зрения и может быть полезна во многих ситуациях, например, при обнаружении транспортного средства, приближающегося к нашей машине сбоку.
В отличие от людей, у ИИ нет периферического зрения. Оснащение моделей компьютерного зрения этой способностью может помочь им более эффективно обнаруживать приближающиеся опасности или предсказывать, заметит ли водитель-человек приближающийся объект.
Сделав шаг в этом направлении, исследователи Массачусетского технологического института разработали набор данных изображений, который позволяет им моделировать периферийное зрение в моделях машинного обучения. Они обнаружили, что обучение моделей с этим набором данных улучшило способность моделей обнаруживать объекты на зрительной периферии, хотя модели по-прежнему работали хуже, чем люди.
Их результаты также показали, что, в отличие от людей, ни размер объектов, ни количество визуальных помех в сцене не оказали сильного влияния на производительность ИИ.
«Здесь происходит что-то фундаментальное. Мы протестировали так много разных моделей, и даже когда мы их обучаем, они становятся немного лучше, но они не совсем похожи на людей. Итак, вопрос в том, чего не хватает в этих моделях? » говорит Ваша ДюТелл, постдок и соавтор статьи, подробно описывающей это исследование.
Ответ на этот вопрос может помочь исследователям построить модели машинного обучения, которые смогут видеть мир более похожим на человека. Помимо повышения безопасности водителя, такие модели можно использовать для разработки дисплеев, которые людям будет легче просматривать.
Кроме того, более глубокое понимание периферического зрения в моделях искусственного интеллекта может помочь исследователям лучше прогнозировать поведение человека, добавляет ведущий автор Энн Харрингтон MEng ’23.
«Моделирование периферического зрения, если мы действительно сможем уловить суть того, что представлено на периферии, может помочь нам понять особенности визуальной сцены, которые заставляют наши глаза двигаться, чтобы собрать больше информации», — объясняет она.
Среди их соавторов Марк Гамильтон, аспирант электротехники и информатики; Аюш Тевари, постдок; Саймон Стент, менеджер по исследованиям Исследовательского института Toyota; и старшие авторы Уильям Т. Фриман, профессор электротехники и информатики Томаса и Герда Перкинсов и член Лаборатории компьютерных наук и искусственного интеллекта (CSAIL); и Рут Розенхольц, главный научный сотрудник Департамента мозговых и когнитивных наук и член CSAIL. Исследование будет представлено на Международной конференции по обучению представлений ( ICLR 2024 ).
«Каждый раз, когда человек взаимодействует с машиной — автомобилем, роботом, пользовательским интерфейсом — чрезвычайно важно понимать, что может видеть человек. Периферийное зрение играет решающую роль в этом понимании», — говорит Розенхольц.
Имитация периферического зрения
Вытяните руку перед собой и поднимите большой палец вверх — небольшая область вокруг ногтя большого пальца видна из фовеа, небольшого углубления в середине сетчатки, которое обеспечивает самое острое зрение. Все остальное, что вы можете видеть, находится на вашей зрительной периферии. Ваша зрительная кора представляет сцену с меньшей детализацией и достоверностью по мере удаления от острой точки фокуса.
Многие существующие подходы к моделированию периферического зрения в ИИ отражают ухудшение деталей путем размытия краев изображений, но потеря информации, которая происходит в зрительном нерве и зрительной коре, гораздо сложнее.
Для более точного подхода исследователи Массачусетского технологического института начали с метода, используемого для моделирования периферического зрения у людей. Этот метод, известный как модель тайлинга текстур, преобразует изображения, чтобы отразить потерю визуальной информации человека.
Они модифицировали эту модель, чтобы она могла преобразовывать изображения аналогичным образом, но более гибким способом, не требующим заранее знать, куда человек или ИИ направит свой взгляд.
«Это позволит нам точно моделировать периферическое зрение так же, как это делается в исследованиях человеческого зрения», — говорит Харрингтон.
Исследователи использовали эту модифицированную технику для создания огромного набора данных преобразованных изображений, которые в определенных областях кажутся более текстурированными, чтобы отобразить потерю деталей, которая происходит, когда человек смотрит дальше на периферию.
Затем они использовали набор данных для обучения нескольких моделей компьютерного зрения и сравнили их производительность с результатами людей при выполнении задачи обнаружения объектов.
«Нам пришлось очень грамотно организовать эксперимент, чтобы мы могли также протестировать его на моделях машинного обучения. Мы не хотели переучивать модели для выполнения игрушечной задачи, для выполнения которой они не предназначены. ,» она говорит.
Своеобразная производительность
Людям и моделям были показаны пары трансформированных изображений, которые были идентичны, за исключением того, что на одном изображении целевой объект находился на периферии. Затем каждому участнику было предложено выбрать изображение с целевым объектом.
«Одна вещь, которая нас действительно удивила, — это то, насколько хорошо люди обнаруживали объекты на своей периферии. Мы просмотрели как минимум 10 различных наборов изображений, которые были слишком простыми. Нам все время приходилось использовать объекты все меньше и меньше», — добавляет Харрингтон.
Исследователи обнаружили, что обучение моделей с нуля с использованием их набора данных привело к наибольшему повышению производительности, улучшив их способность обнаруживать и распознавать объекты. Точная настройка модели с использованием набора данных — процесс, который включает в себя настройку предварительно обученной модели, чтобы она могла выполнять новую задачу, — привела к меньшему приросту производительности.
Но в любом случае машины были не так хороши, как люди, и особенно плохо они обнаруживали объекты на дальней периферии. Их действия также не следовали тем же моделям, что и люди.
«Это может свидетельствовать о том, что модели используют контекст не так, как люди для выполнения задач по обнаружению. Стратегия моделей может быть разной», — говорит Харрингтон.
Исследователи планируют продолжить изучение этих различий с целью найти модель, которая сможет предсказать поведение человека на зрительной периферии. Это может позволить использовать системы искусственного интеллекта, которые будут предупреждать водителей, например, об опасностях, которые они могут не заметить. Они также надеются вдохновить других исследователей на проведение дополнительных исследований компьютерного зрения с использованием их общедоступного набора данных.
«Эта работа важна, потому что она способствует нашему пониманию того, что человеческое зрение на периферии не следует считать просто ухудшенным зрением из-за ограничений в количестве имеющихся у нас фоторецепторов, а, скорее, представлением, оптимизированным для выполнения нами реальных задач. -мировые последствия», — говорит Джастин Гарднер, доцент кафедры психологии Стэнфордского университета, который не участвовал в этой работе.
«Более того, работа показывает, что модели нейронных сетей, несмотря на их прогресс в последние годы, не могут соответствовать человеческим возможностям в этом отношении, что должно привести к большему количеству исследований ИИ, чтобы извлечь уроки из нейробиологии человеческого зрения. Этому будущему исследованию будет оказана помощь. в значительной степени благодаря базе данных изображений, предоставленных авторами для имитации периферического человеческого зрения».