Ускорение развития мирового научно технического прогресса в сочетании с присущим человечеству стремлением сохранить свой научный и культурный опыт для будущих поколений на сегодняшний день уже нельзя считать единственными факторами, порождающими глобальный рост информационных ресурсов. Появление новых технических средств записи и сохранения данных, из условия реализации информационного процесса превращаются в катализатор, стимулирующий ускорение лавинообразного роста информации.
Новые информационные средства расширяют формы представления информацииобеспечивают подготовку информации со скоростью ее образованияминимизируют физические размеры информационных носителей практически до молекулярного уровняспособствуют самим своим появлением распространению и повсеместному внедрению информационных технологий в современную жизнь.
Вместе с тем, всесторонняя информатизация современного общества, становится во многом вынужденной мерой, направленной на защиту и повышение стабильности современного, чрезвычайно уязвимого мира. Реальность таких угроз как вероятные последствия глобальных катастроф природного или техногенного происхождения, терроризм или международная напряженность, — однозначно указывает па необходимость информационного мониторинга всех узловых точек, процессов или явлений современного мира.
В тоже время, очевидно, что любая информация лишь тогда становится ценной, когда в дальнейшем она оказывается востребованной. Получаемая информация должна быть применена. Например, должна аккумулироваться в новых знаниях об окружающем мире или стать исходными данными, на основании которых производится формирование решений. Однако в этом плане достижения научно-технического прогресса видятся значительно менее впечатляющими.
Парадигмой современной информационной обработки является обязательное наличие в этом процессе человека, в функции которого как раз и входит решение основной задачи — воплощения информации в управляющих решениях или знаниях на основании анализа исходных, практически первичных (не агрегированных) данных. Но ввиду того, что производительность человека оказывается несопоставимо более низкой по сравнению с техническими возможностями средств подготовки и накопления данных, опасность углубляющегося разрыва в развитии технических средств и современных технологий интеллектуализации информационной обработки — трудно переоценить.
Все сказанное в полной мере относится и к видеинформации, которая наряду с лексическими данными (текстами, гипертекстами, таблицами) и аудиоданными составляет основную часть наполнение информационной сферы [41].
Среди коммуникационных форм видеоинформация отличаются едва ли не самыми большими диспропорциями в развитии, а работа с видеоданными относится к разряду наиболее сложных областей интеллектуализации машинной деятельности. В современном мире видеоинформацию одновременно характеризует исключительно широкая распространенность в сочетании с достаточно скудными на текущий момент возможностями в плане автоматизации процессов машинного понимания: распознавания, классификации, трансляции и перевода в другие коммуникационные системы.
Видеоинформация является наиболее информативной формой описания. Вместе с тем, эту форму отличает также смысловая избыточность [7, 42, 100] и большие объемы представляющих информацию данных (к тому же, сложно поддающихся сжатию [103, 33]).
Формирование видеоданных, происходит в реальном времени протекания процесса (или во времени, масштаб которого всегда кратен реальному времени), т. е. эта форма является наиболее удобной для мониторинга любых реальных процессов (формирования видеонаблюдений).
Перечисленные особенности и текущие возможности применения видеоинформации, определяют актуальность исследований, посвященных вопросам интеллектуализации обработки этой исключительно перспективной коммуникационной формы взаимодействия человека и машины.
Для человека видеоданные, по сути, являются, главным источником получения информации об окружающем мире. Известно, что около 80−85% от всей информации поступает к человеку через органы зрения.
В культурном наследии человечества к разряду видеоинформации помимо всевозможных рисунков, схем и картин (от наскальных до компьютерных) относится вся фото кино и видео продукция. На сегодняшний день даже только оцифрованные видеоданные (т.е. картины, рисунки, схемы, фотографии, фильмы и голограммы в электронном представлении) составляют практически большую часть машинных мировых информационных ресурсов, по крайней мере в побайтном выражении. В настоящее время только форм электронного представления видеоинформации насчитывается несколько десятков (tif, jpg, bmp, gif, mpeg и т. д.). Причем за счет постоянного совершенствования процессов записи и хранения видеоинформации количество форм представления постоянно увеличивается.
Представление информации в виде изображения является для человека наиболее быстро и эффективно воспринимаемой формой. В подтверждении этого факта достаточно обратить внимание на то, что повсеместно указатели, требующие быстрой и однозначной реакции человека, обозначают упрощенным (символическим) рисунком. Примером могут послужить изображения пиктограмм — «иконок» рабочего стола Windows. Другим частным, но важным примером компьютерного применения быстрой воспринимаемости видеоинформации можно назвать исключительно эффективные по скорости разработки информационные технологии визуального программирования, общим подходом в которых является то, что будущий результат программирования зрительно представляется пользователю в виде некоторого настраиваемого прототипа.
Но, несмотря на все выше сказанное, видеоданные не становятся основной формой коммуникационного общения ни среди людей, ни в межмашинном обмене, ни во взаимодействии человека с машиной. При этом все перечисленные типы информационного взаимодействия с применением видеоданных, как правило, носят ассиметричный характер, выражающийся в том, что представление информации видеосредствами осуществляется, как правило, одной из сторон диалога — докладчиком или рассказчиком, стремящимся донести до других участников большой массив данных. При этом вторая сторона диалога, выражая свое отношение к полученным данным, может пользоваться в общении другими средствами передачи информации: звуковыми, лингвистическими, мнемоническими и т. д. Заметим, что если в диалогах между людьми односторонняя направленность потока видеоданных объяснима неодинаковой способностью людей к быстрому воспроизведению графической информации (при наличии общей для всех людей способности к быстрому восприятию зрительных образов), то в межмашинном или человеко-машинном диалоге основным препятствием двухстороннего видеообмена, наоборот, выступает как раз отсутствие у машины достаточно общих способов реализации восприятия смысла видеоданных (при наличии способности к машинно-ориентированному храпению и воспроизведению видеоданных) [117].
Семантика видеоданных — контекстна [10, 74], т. е. определяется фреймом, кадром или сценой, в рамках которой происходит подлежащее распознаванию смысловое действие. И если на сегодняшний день говорить о распознавании смысла произвольных (пускай даже реальных сцен), по-видимому, преждевременно, то практическая ценность алгоритмов распознавания поведения людей в конкретной обстановке — не вызывает сомнения. В дальнейшем видеоданные поведения людей в конкретной обстановке с неизменным местом действия, фоном и освещенностью будем называть сценами с предопределенной ситуацией, указывая на ограниченный характер разворачивающихся в этих сценах реальных действий. Например, к таким сценам можно отнести видеонаблюдепия охранных системв местах общественного пользования (в подъездах и вестибюлях, в холлах и переходах, на лестничных маршах, и т. д.) и на транспорте (в кабинах лифтов, в вагонах, на эскалаторе и т. д.), а также большую часть информации, с которой работают системы «интеллектуального дома».
Особенностью, облетающей обработку видеоданных в предопределенных ситуациях, является возможность выделения находящихся на переднем плане объектов действия путем «вычитания из сцены» неизменных деталей.
Целью диссертационной работы является разработка и исследование алгоритмического аппарата обработки видеоинформации, распознавания объектов и сцен в предопределенной ситуации.
Предметом исследования работы стала разработка и оценка возможностей программных и математических моделей, описывающих процессы обработки видеоданных, возникающие в системы видеонаблюдения в связи с решением задач распознавания образов и сцен с участием живых объектов (людей) в предопределенных ситуациях. Достижение указанных целей предполагает решение следующих задач.
В соответствии с указанной целью, в диссертационной работе решаются следующие задачи:
• анализ существующих методов и проблем обработки видеоданных с целью выделения информации и разработки функциональной схемы работы автоматизированной системы видеонаблюдения;
• построение эффективных алгоритмов и методов выделения объектов на стадии первичной обработки видеоданных;
• разработка последовательности алгоритмов выделения информации о внутренней структуре объектов наблюдения (людей) и исследование особенностей применения алгоритмов формирования информации о структуре объекта на основе построения «топографии» силуэта объекта;
• разработка алгоритмов и исследование свойств «скелетного» представления объектов, разработка математических моделей формы записи скелета объекта в виде информационного образа-схемы (ИОС);
• разработка методики, алгоритмического аппарата и информационной компоненты сравнения ИОС объекта с набором эталонных — образов личин, выражающих элементы невербальной информации об объектах живой природы;
• проведение программных экспериментов и обработка результатов с целью выявления возможностей разработанного алгоритмического аппарата и выделения показателей оценки сравнения ИОС. Основные положения, выносимые на защиту разработанный метод описания структуры силуэтного изображения объекта, формируемого на основе поверхности топографииалгоритм формирования скелетного описания структуры объектаметоды регуляризации скелетных линий и построения информационного образасхемы объектаметод сопоставления двух ИОС с целью выделения информации об объектах и сцене.
Выводы по главе 4.
1) Построена алгебраическая система регуляризации скелетных линий. Выделены основные классы регуляризирующих преобразований и определены их характеристики. Конструктивно доказана автоматная реализуемость преобразований регуляризации.
2) Определены методы оценки и снижения рассогласования исходных и регуляризованных скелетных линий.
3) Введено понятие информационного образа-схемы (ИОС) объекта и разработаны алгебраические методы и алгоритм формирования ИОС на основе регуляризованных линий скелета. С позиций введенного понятия ИОС задача распознавания сцены рассмотрена в плапе анализа структуры взаимодействий между участниками сцены.
4) Определены показатели оценки похожести регуляризованных линий. Разработан алгоритмический аппарат и структура информационной компоненты обеспечивающие сопоставления двух ИОС (на основе отыскания оптимального паросочета-ния их концевых вершин).
5) Проведено экспериментальное исследование возможностей алгоритмического аппарата сопоставления ИОС. Введены показатели устойчивости решения, достоверности распознавания, а также построен тест проверки правильности сопоставления ИОС с известным образцом (личиной). Определены рекомендации по применению показателей сравнения регуляризованных линий. Установлены требования к формированию скелетных описаний объекта. Работоспособность метода продемонстрирована на примерах сопоставления ИОС реальных объектов с подготовленными образцами, а также на примере оценки единства участников сцены.
Заключение
.
При достижении поставленной цели разработки и исследования алгоритмического аппарата обработки видеоинформации, распознавания объектов и сцен в предопределенной ситуации были получены следующие основные научные и практические результаты:
1. Разработаны общие принципы работы автоматизированной системы видеопаблюдения, производящей (без участия оператора) распознавание сцен в предопределенных условиях на основе выделения невербальной информации, связанной с объектами — участниками сцены. Определена функциональная схема работы системы и выделены основные алгоритмические блоки преобразования видеоданных.
2. Построены и программно опробованы новые алгоритмы детектора движения и выделения силуэта, обладающие улучшенными характеристиками работы по сравнению с традиционными алгоритмами такого рода.
3. Предложена новая характеристика изображения объекта — топография силуэта, предназначенная для отображения особенностей области, представляющей объект. Разработана математическая модель диаграммного описания изображения объекта, позволяющая построить с любой степенью точности описание контура представляющей объект области. Определена и программно реализована последовательность алгоритмов построения топографии и выделения на ее основе информации о структуре диаграммного описания изображения.
4. На основе топографии силуэта разработан алгоритм нахолсдении скелетного описания объекта, отображающего особенности силуэта в форме скелетных линий. Установлена взаимосвязь скелетного описания со структурой диаграммного описания объекта. Предложены машинно-ориентированные формы автоматно-лингвистического описания скелетных линий в виде слов переходов.
5. Определены методы регуляризации (упрощения) скелетных линий и построена алгебраическая система описания их соединений. Разработаны оценки и способы сравнения регуляризованных линий.
6. Построена новая форма описания скелетного представления объекта в виде информационного образа-схемы (ИОС), состоящего из описания регуляризованных скелетных линий и построенных из них путей, попарно определенных между концевыми вершинами скелета.
7. Сформирована методика, алгоритмический аппарат и информационная компонента проведения сопоставления ИОС с набором заготовленных семантически определенных эталонных образов — личин. Предложены и апробированы с помощью программных экспериментов показатели достоверности и устойчивости сопоставления ИОС.
8. Полученные результаты позволяют уточнить общую структуру информационной взаимосвязи компонентов в алгоритмическом аппарате анализа и распознавания объектов и сцен, представленную на рис. 4.21. Так на основе новой введенной характеристики — топографии силуэта выделима структура диаграммного описания (по которому с любой степенью точности восстанавливается контурное представление объекта) — а также формируется скелетное описание, по которому строится специально разработанная форма — ИОС, пригодная для распознавания элементы невербальной информации.
Аппроксимация, линенеаризация, интерполяциявекторизация объекты неживой природы).
ОпределениелокальныхМАХ топографии.
Силуэт (контур) объекта.
Топография.
Выделениесвязногоподмн-ва точекравнудаленныхотдвухи болееграниц.
Структуры диаграммного описания.
Поиск Мах функции профиля.
Приближенное описание контура.
Скелетное описание.
Определение характеристических точек^.
Регуляризацияскелетных линий.
ИОС человек и другие объекты живой природы).
Рис. 4.21.
Представленные результаты исследования и разработанный алгоритмический аппарат анализа и распознавания образов и сцен позволяют качественно повысить функционирование систем автоматизации обработки данных видеонаблюдение в местах общественного пользованияохранных систем и систем «интеллектуального дома». Также разработанные методы и алгоритмы могут найти свое применение в психологии при анализе особенностей невербального поведения людей, в коммуникационных системах передачи информации, а также при разработке информационных технологий человеко-машинного общения.