Краткий обзор прочих областей СТЗ

РефератПомощь в написанииУзнать стоимостьмоей работы

Главной целью области компьютерного зрения на данный момент является распознавание визуальных образов в сложных комплексных сценах, а также распознавание образов в контексте. В рамках ECCV'14 представлены текущие результаты разработки Microsoft COCO (Common Object in Context). Задача обнаружения отдельных людей на данный момент практически решена (рисунок 53). От неё совершается закономерный… Читать ещё >

Краткий обзор прочих областей СТЗ (реферат, курсовая, диплом, контрольная)

В данном разделе вкратце рассмотрим текущее состояние следующих проблем:

· Human Detection, Human Pose Estimation, Human Action Detection and Prediction, Crowd Behavior, Group Analysis;
· Common Object in Context.

Данные направления составляют далеко не полный перечень существующих на текущий момент проблем компьютерного зрения.

Ко всё ещё стоящим «на повестке дня» вопросам можно отнести следующие:

· быстрый анализ видеопоследовательностей и ошеломляющие результаты, достигнутые в этой области (отслеживание множества подвижных объектов в рамках сцены, работа с видеопоследовательностями вплоть до 800fps [59]);
· вопрос единого подхода к обработке и сегментации данных (см. рисунок 52; методы разреза графов впервые позволили выполнять сегментацию на основе минимизации энергии быстро для простых энергий, однако минимизация сложных энергий пока не производится в реальном времени [59])

Efficient Joint Segmentation, Occlusion Labeling, Stereo and Flow Estimation Koichiro Yamaguchi, David McAllester, and Raquel Urtasun, ECCV'14 [59, 9].

Рисунок 52 — Efficient Joint Segmentation, Occlusion Labeling, Stereo and Flow Estimation Koichiro Yamaguchi, David McAllester, and Raquel Urtasun, ECCV'14 [59, 9]

· ряд вопросов распознавания лиц. Несмотря на выдающиеся результаты в области распознавания лиц и визуальной биометрии (в частности, представленная NeoFace® разработка дает [61] ошибки распознавания не более 0.1−0.2%), область по-прежнему имеет проблемы с быстродействием и точностью на очень больших базах данных лиц, а также с распознаванием частично скрытых или сильно развёрнутых лиц.

и другие работы, преимущественно составляющие спектр задач «среднего уровня» обработки изображений. Этот спектр очень широк, поэтому остановимся лишь на некоторых его моментах.

Задача обнаружения отдельных людей на данный момент практически решена (рисунок 53). От неё совершается закономерный переход к следующей проблеме: прогнозирование поведение толпы (crowd behavior) и анализ поведения групп людей (group analysis) (рисунок 54).

В настоящий момент данные проблемы являются открытыми [59].

Рисунок 53 — Ten years of pedestrian detection, what have we learned?

R. Benenson. et. Al, ECCV'14 [59, 9].

Рисунок 54 — Crowd Tracking with Dynamic Evolution of Group Structures.

Feng Zhu, Xiaogang Wang, and Nenghai Yu, ECCV'14 [59, 9].

На текущий момент возможно распознавание поз и динамических жестов отдельного человека (при известном типе активности, словаре поз или по примерам), однако распознавание взаимодействий двух и более людей по-прежнему остается открытой проблемой (рисунки 55, 56) [59].

Рисунок 55 — Video Action Detection with Relational Dynamic-Poselets.

L. Wang, Y. Qiao, and X. Tang, ECCV'14 [59, 9].

Рисунок 56 — Action-Reaction: Forecasting the Dynamics of Human Interaction De-An Huang and Kris M. Kitani, ECCV'14 [59, 9].

Моделирование событий и процессов (group walking, group running, group merging, group splitting), построение и использование пространственно-временных логик и онтологий для анализа сложных динамических сцен является нерешенной на данный момент задачей, поскольку модели имеют слишком сложные описания очевидных для человека ситуаций (рисунок 60) [59].

База данных проекта (на момент публикации) составляет 91 класс объектов, 2.5 миллиона размеченных примеров на 328 000 изображений, обучение и распознавание производится по неиконическим образам. Сегментация сцены на данный момент происходит не в реальном времени, а вероятности нахождения объектов по классам составляют не более 50% [59, 60].

Ю.В. Визильтер в своём обзоре [59] комментирует поставленную задачу распознавания образов в контексте:

«Распознавание образов в контексте […] более сложной задачи распознавания изображений не существует […] Если вероятности нахождения основных классов объектов на таких базах достигнут результатов человека, это будет означать практически полное семантическое распознавание изображений в автоматическом режиме.

Ожидаемый срок решения задачи — 2020;2025 гг." [59].

Показать весь текст

Заполнить форму текущей работой

Другие работы

Библиографический список. Моделирование подсистемы идентификации

Слесарев А. В., Мучник И. Б., Михалев Д. К., Крайнов А. Г., Котляров Д. И., Беляев Д. В. Яндекс на РОМИП 2010: Поиск похожих изображений и дубликатов // Российский семинар по Оценке Методов Информационного Поиска. Труды РОМИП 2010. — Казань, 2010. С. 148−153. Пименов В. Ю. Простые методы поиска изображений по содержанию // Российский семинар по Оценке Методов Информационного Поиска. Труды РОМИП…

Реферат