Актуальность.
Для улучшения работы научных организаций и, как следствие, повышения эффективности развития науки в масштабах государства необходимо перманентно анализировать информацию о результатах деятельности отдельных ученых и коллективов исследователей. Основными результатами деятельности организаций, входящих в научное сообщество, как правило, считаются публикации сотрудников, результаты патентных исследований, участие в конференциях, руководство курсовыми, дипломными и диссертационными работами, чтение лекций и ряд других. При этом, как показывает практика, далеко не все результаты такой деятельности представлены в открытом доступе в Интернет. Зачастую единственным источником подобной информации могут служить лишь годовые отчеты сотрудников научных организаций, представленные с той или иной степенью подробности. Естественным образом возникает необходимость автоматизированной (с участием человека) обработки данных из подобных научных отчетов в целях количественного и качественного анализа эффективности научной деятельности отдельного коллектива, вклада каждого его участника и возможной корректировки планов, мер и мероприятий на основе такого анализа. Целями проведения анализа могут быть следующие.
• Сравнение данных о работе подразделения с данными других подразделений, в том числе — зарубежных, которые работают на рассматриваемом направлении.
• Интеграция данных о работе подразделения с данными других подразделений в целях анализа развития науки в рамках структур корпоративного масштаба и по стране в целом.
• Корректировка финансирования подразделений, поощрения отдельных их членов на основе результатов научных достижений.
• Публикация обзорных аналитических статей, посвященных научным достижениям организации.
• Получение интегрированной информации о направлении исследований в отдельной области знания, например, список основных публикаций, задач, методов, уровень активности ученых, ключевые персоны и конференции на этом направлении.
Такая информация может представлять интерес для исследователя, которому необходимо получить первое, общее представление о еще недостаточно знакомом научном направлении.
Инструментом аналитика, целью которого является получение адекватного представления о деятельности организации или объединения нескольких организаций, могут служить результаты выполнения аналитических запросов к системе, занимающейся загрузкой, обработкой и хранением информации о научной деятельности работающих в них сотрудников. Примером такого запроса может служить «найти все публикации сотрудников интересующего учреждения за последний год, посвященные вопросам выделения данных из неструктурированных текстов и включенные в материалы международных конференций».
В качестве предмета исследования и анализа в диссертации выступает научная информация, которая определяется как совокупность данных, характеризующих результаты деятельности отдельных научных сотрудников. К такой информации относятся данные о научных статьях, которые включают их названия, списки авторов, места публикации и другие сведения, книгах, патентах, докладах на конференции и других видах научной деятельности.
Побудительным мотивом и конечной целью исследований, результаты которых представлены в настоящей диссертации, является создание интеллектуальной программной системы для поиска, систематизации и анализа научной информации. Отметим еще одну проблему, решению которой способствует создание такой системы. По состоянию на июль 2011 года среди первых 800 позиций авторитетного рейтинга Webometrics1, который оценивает информативность веб-сайтов университетов мира, из российских вузов был лишь МГУ имени М. В. Ломоносова, занявший 304 место. Как указано в работе [1], этот факт связан с тем обстоятельством, что по разным причинам в России в значительно меньшей степени, чем за рубежом, распространена практика публикации в Интернет работ сотрудников научных организаций. Информация, содержащаяся в системе учета и анализа результатов научной деятельности, описанию одной из которых посвящена настоящая диссертация, может быть полностью или частично доступна для просмотра в Интернет и индексации поисковыми системами. Этот факт будет способствовать повышению рейтинга российских научных учреждений в мировом сообществе.
Актуальность поставленной задачи определяется острой необходимостью контролировать и анализировать информацию, характеризующую деятельность научных организаций, а также большими объемами такой информации и низкой степенью автоматизации процессов ее сбора и анализа.
Цель работы.
Целью диссертационной работы является исследование и разработка математических моделей, алгоритмов и программных средств поиска и систематизации, хранения и анализа информации, характеризующей деятельность научных организаций, с использованием онтологий. Такая деятельность соответствует областям исследований, отмеченным в пп. 2, 5, 9 Паспорта специальности 05.13.17 — теоретические основы информатики. http://www.web oinetrics .info.
На защиту выносятся:
• разработанные на основе результатов исследования предметной области математические модели и алгоритмы, архитектурные и технологические решения, опирающиеся на онтологии, для создания системы пополнения и хранения, анализа и выдачи по запросу информации, характеризующей результаты деятельности научной организации;
• формальное описание запросов к системе с использованием онтологий и языка ЭРАКС^Ь, создающее гарантии вычисления запросов и дополнительные возможности для эффективной верификации кода системы на всех этапах ее жизненного цикла;
• алгоритмы построения онтологии отдельной области научного знания и выделения терминов-пар слов из коллекции текстов с заданным тематическим делением, удовлетворяющие предъявляемым к ним требованияманалитические оценки сложности их программной реализации, полученные с использованием математических моделей;
• прототип программного комплекса для учета и анализа научной информации, именуемый Интеллектуальной Системой Тематического Исследования НАучно-технической информации (ИСТИНА), тестовые испытания которого подтвердили справедливость аналитических оценок сложности реализации основных алгоритмов, а также тот факт, что комплекс в целом удовлетворяет предъявляемым к нему требованиям.
Методы исследования.
В работе применяются методы анализа текстов на естественном языке, методы классификации и методы программной инженерии. При изложении результатов диссертационной работы используется аппарат математической логики и математической статистики.
Научная новизна.
Автором разработан новый алгоритм построения онтологии отдельной области научного знания на основе выделения терминов из анонсов научных конференций, а также путем использования информации из поисковых систем в Интернет. Математически доказана оценка вычислительной сложности его реализации. Отличительными особенностями разработанного алгоритма являются: мягкие требования к исходным даннымавтоматическое выделение терминов области знаниявозможность использования алгоритма для построения онтологий других областей научного знания без его модификацииотсутствие необходимости в большом объеме ручного труда экспертов. Автором разработан также новый, удовлетворяющий предъявляемым к нему требованиям алгоритм выделения терминов-пар слов из коллекций текстов с заданным тематическим делением, эффективность которого в сравнении с классическими алгоритмами продемонстрирована на задачах классификации и кластеризации текстов. Математически доказана оценка вычислительной сложности его реализации и тот факт, что базовая функция веса термина в рубрике удовлетворяет предъявляемым к ней требованиям.
Практическая значимость.
Рассматриваемый в диссертации программный комплекс учета и анализа научной информации ИСТИНА, реализующий архитектуру и разработанные автором алгоритмы построения онтологии предметной области и выделения терминов представляет собой самостоятельный инновационно перспективный продукт. Вместе с тем, его математическое, алгоритмическое и программное обеспечение может найти эффективное применение при построении других информационно-аналитических систем, в том числе — систем подготовки принятия решений в организациях научно-технического профиля и высших учебных заведениях.
Апробация работы.
Основные результаты диссертации докладывались на всероссийской конференции с международным участием «Знания-Онтологии-Теории (30HT-2011)», на научно-практической конференции «Актуальные проблемы системной и программной инженерии (АПСПИ-2011)», на международных конференциях «3rd International Conference on Language and Automata Theory and Applications (LATA 2009)» и «Ломоносовские чтения» (2008;2010), на научном семинаре РАН «Виртуальные научные сообщества и технологии нечетких распределенных вычислений (Cloud Computing)» (2010), на механико-математическом факультете МГУ имени М. В. Ломоносова на семинаре «Проблемы современных информационно-вычислительных систем» под руководством д.ф.-м.н., проф. В. А. Васенина (2008, 2010, 2011), на факультете бизнес-информатики НИУ ВШЭ на семинаре под руководством д.ф.-м.н., проф. С. О. Кузнецова (2011).
Публикации.
По теме диссертации опубликовано 9 научных работ, в том числе — две в зарубежных изданиях. Три статьи [2−4] опубликованы в изданиях из перечня ВАК ведущих рецензируемых журналов.
Структура и объем диссертации
.
Работа состоит из введения, пяти глав, заключения, списка литературы. Объем диссертации — 154 страницы, Приложений — 34 страницы.
Список литературы
включает 83 наименования. В текст диссертации входят 39 рисунков и 33 таблицы.