Помощь в учёбе, очень быстро...
Работаем вместе до победы

Методы и средства управления научной информацией с использованием онтологий

ДиссертацияПомощь в написанииУзнать стоимостьмоей работы

Автором разработан новый алгоритм построения онтологии отдельной области научного знания на основе выделения терминов из анонсов научных конференций, а также путем использования информации из поисковых систем в Интернет. Математически доказана оценка вычислительной сложности его реализации. Отличительными особенностями разработанного алгоритма являются: мягкие требования к исходным… Читать ещё >

Содержание

  • 1. Учет и анализ научной информации
    • 1. 1. Постановка задачи. Ю
    • 1. 2. Методы и средства управления научной информацией
    • 1. 3. Системы управления научной информацией
      • 1. 3. 1. Крупные веб-сервисы
      • 1. 3. 2. Зарубежные исследовательские проекты
      • 1. 3. 3. Российские семантические системы
    • 1. 4. Выводы
  • 2. Архитектура системы учета и анализа научной информации
    • 2. 1. Онтологический подход к представлению знаний
    • 2. 2. Модель и архитектура системы учета и анализа научной информации
    • 2. 3. Выделение терминов, характеризующих область знания
    • 2. 4. Построение онтологии области научного знания
    • 2. 5. Загрузка данных в систему
    • 2. 6. Установление связей между загруженными данными и онтологией области научного знания
    • 2. 7. Выполнение аналитических запросов к данным
    • 2. 8. Выводы
  • 3. Алгоритмы выделения терминов и построения онтологии области знания
    • 3. 1. Алгоритм ВгатвЬегт выделения терминов из коллекции текстов с заданным тематическим делением
      • 3. 1. 1. Математическая модель
      • 3. 1. 2. Пространственный критерий
      • 3. 1. 3. Критерий частотности
      • 3. 1. 4. Критерий характерности
      • 3. 1. 5. Критерий значимых рубрик
    • 3. 2. Алгоритм Боптаке построения онтологии области научного знания
      • 3. 2. 1. Построение множества имен понятий
      • 3. 2. 2. Выделение терминов
      • 3. 2. 3. Фильтрация терминов
      • 3. 2. 4. Выявление ассоциативных отношений
      • 3. 2. 5. Построение иерархии терминов
      • 3. 2. 6. Перевод терминов на русский язык
      • 3. 2. 7. Разбиение терминов на категории
    • 3. 3. Выводы
  • 4. Программная реализация и анализ эффективности базовых алгоритмов
    • 4. 1. Программная реализация и исследование эффективности алгоритма выделения терминов Brainsterm
      • 4. 1. 1. Методика оценки эффективности
      • 4. 1. 2. Результаты тестирования
      • 4. 1. 3. Выводы
    • 4. 2. Программная реализация и исследование эффективности алгоритма построения онтологии Sonmake
      • 4. 2. 1. Выводы
    • 4. 3. Выводы
  • 5. Программная система учета и анализа научной информации ИСТИНА
    • 5. 1. Особенности программной реализации
    • 5. 2. Результаты практической апробации
    • 5. 3. Соответствие прототипа системы предъявляемым требованиям
    • 5. 4. Дальнейшее развитие
    • 5. 5. Выводы

Методы и средства управления научной информацией с использованием онтологий (реферат, курсовая, диплом, контрольная)

Актуальность.

Для улучшения работы научных организаций и, как следствие, повышения эффективности развития науки в масштабах государства необходимо перманентно анализировать информацию о результатах деятельности отдельных ученых и коллективов исследователей. Основными результатами деятельности организаций, входящих в научное сообщество, как правило, считаются публикации сотрудников, результаты патентных исследований, участие в конференциях, руководство курсовыми, дипломными и диссертационными работами, чтение лекций и ряд других. При этом, как показывает практика, далеко не все результаты такой деятельности представлены в открытом доступе в Интернет. Зачастую единственным источником подобной информации могут служить лишь годовые отчеты сотрудников научных организаций, представленные с той или иной степенью подробности. Естественным образом возникает необходимость автоматизированной (с участием человека) обработки данных из подобных научных отчетов в целях количественного и качественного анализа эффективности научной деятельности отдельного коллектива, вклада каждого его участника и возможной корректировки планов, мер и мероприятий на основе такого анализа. Целями проведения анализа могут быть следующие.

• Сравнение данных о работе подразделения с данными других подразделений, в том числе — зарубежных, которые работают на рассматриваемом направлении.

• Интеграция данных о работе подразделения с данными других подразделений в целях анализа развития науки в рамках структур корпоративного масштаба и по стране в целом.

• Корректировка финансирования подразделений, поощрения отдельных их членов на основе результатов научных достижений.

• Публикация обзорных аналитических статей, посвященных научным достижениям организации.

• Получение интегрированной информации о направлении исследований в отдельной области знания, например, список основных публикаций, задач, методов, уровень активности ученых, ключевые персоны и конференции на этом направлении.

Такая информация может представлять интерес для исследователя, которому необходимо получить первое, общее представление о еще недостаточно знакомом научном направлении.

Инструментом аналитика, целью которого является получение адекватного представления о деятельности организации или объединения нескольких организаций, могут служить результаты выполнения аналитических запросов к системе, занимающейся загрузкой, обработкой и хранением информации о научной деятельности работающих в них сотрудников. Примером такого запроса может служить «найти все публикации сотрудников интересующего учреждения за последний год, посвященные вопросам выделения данных из неструктурированных текстов и включенные в материалы международных конференций».

В качестве предмета исследования и анализа в диссертации выступает научная информация, которая определяется как совокупность данных, характеризующих результаты деятельности отдельных научных сотрудников. К такой информации относятся данные о научных статьях, которые включают их названия, списки авторов, места публикации и другие сведения, книгах, патентах, докладах на конференции и других видах научной деятельности.

Побудительным мотивом и конечной целью исследований, результаты которых представлены в настоящей диссертации, является создание интеллектуальной программной системы для поиска, систематизации и анализа научной информации. Отметим еще одну проблему, решению которой способствует создание такой системы. По состоянию на июль 2011 года среди первых 800 позиций авторитетного рейтинга Webometrics1, который оценивает информативность веб-сайтов университетов мира, из российских вузов был лишь МГУ имени М. В. Ломоносова, занявший 304 место. Как указано в работе [1], этот факт связан с тем обстоятельством, что по разным причинам в России в значительно меньшей степени, чем за рубежом, распространена практика публикации в Интернет работ сотрудников научных организаций. Информация, содержащаяся в системе учета и анализа результатов научной деятельности, описанию одной из которых посвящена настоящая диссертация, может быть полностью или частично доступна для просмотра в Интернет и индексации поисковыми системами. Этот факт будет способствовать повышению рейтинга российских научных учреждений в мировом сообществе.

Актуальность поставленной задачи определяется острой необходимостью контролировать и анализировать информацию, характеризующую деятельность научных организаций, а также большими объемами такой информации и низкой степенью автоматизации процессов ее сбора и анализа.

Цель работы.

Целью диссертационной работы является исследование и разработка математических моделей, алгоритмов и программных средств поиска и систематизации, хранения и анализа информации, характеризующей деятельность научных организаций, с использованием онтологий. Такая деятельность соответствует областям исследований, отмеченным в пп. 2, 5, 9 Паспорта специальности 05.13.17 — теоретические основы информатики. http://www.web oinetrics .info.

На защиту выносятся:

• разработанные на основе результатов исследования предметной области математические модели и алгоритмы, архитектурные и технологические решения, опирающиеся на онтологии, для создания системы пополнения и хранения, анализа и выдачи по запросу информации, характеризующей результаты деятельности научной организации;

• формальное описание запросов к системе с использованием онтологий и языка ЭРАКС^Ь, создающее гарантии вычисления запросов и дополнительные возможности для эффективной верификации кода системы на всех этапах ее жизненного цикла;

• алгоритмы построения онтологии отдельной области научного знания и выделения терминов-пар слов из коллекции текстов с заданным тематическим делением, удовлетворяющие предъявляемым к ним требованияманалитические оценки сложности их программной реализации, полученные с использованием математических моделей;

• прототип программного комплекса для учета и анализа научной информации, именуемый Интеллектуальной Системой Тематического Исследования НАучно-технической информации (ИСТИНА), тестовые испытания которого подтвердили справедливость аналитических оценок сложности реализации основных алгоритмов, а также тот факт, что комплекс в целом удовлетворяет предъявляемым к нему требованиям.

Методы исследования.

В работе применяются методы анализа текстов на естественном языке, методы классификации и методы программной инженерии. При изложении результатов диссертационной работы используется аппарат математической логики и математической статистики.

Научная новизна.

Автором разработан новый алгоритм построения онтологии отдельной области научного знания на основе выделения терминов из анонсов научных конференций, а также путем использования информации из поисковых систем в Интернет. Математически доказана оценка вычислительной сложности его реализации. Отличительными особенностями разработанного алгоритма являются: мягкие требования к исходным даннымавтоматическое выделение терминов области знаниявозможность использования алгоритма для построения онтологий других областей научного знания без его модификацииотсутствие необходимости в большом объеме ручного труда экспертов. Автором разработан также новый, удовлетворяющий предъявляемым к нему требованиям алгоритм выделения терминов-пар слов из коллекций текстов с заданным тематическим делением, эффективность которого в сравнении с классическими алгоритмами продемонстрирована на задачах классификации и кластеризации текстов. Математически доказана оценка вычислительной сложности его реализации и тот факт, что базовая функция веса термина в рубрике удовлетворяет предъявляемым к ней требованиям.

Практическая значимость.

Рассматриваемый в диссертации программный комплекс учета и анализа научной информации ИСТИНА, реализующий архитектуру и разработанные автором алгоритмы построения онтологии предметной области и выделения терминов представляет собой самостоятельный инновационно перспективный продукт. Вместе с тем, его математическое, алгоритмическое и программное обеспечение может найти эффективное применение при построении других информационно-аналитических систем, в том числе — систем подготовки принятия решений в организациях научно-технического профиля и высших учебных заведениях.

Апробация работы.

Основные результаты диссертации докладывались на всероссийской конференции с международным участием «Знания-Онтологии-Теории (30HT-2011)», на научно-практической конференции «Актуальные проблемы системной и программной инженерии (АПСПИ-2011)», на международных конференциях «3rd International Conference on Language and Automata Theory and Applications (LATA 2009)» и «Ломоносовские чтения» (2008;2010), на научном семинаре РАН «Виртуальные научные сообщества и технологии нечетких распределенных вычислений (Cloud Computing)» (2010), на механико-математическом факультете МГУ имени М. В. Ломоносова на семинаре «Проблемы современных информационно-вычислительных систем» под руководством д.ф.-м.н., проф. В. А. Васенина (2008, 2010, 2011), на факультете бизнес-информатики НИУ ВШЭ на семинаре под руководством д.ф.-м.н., проф. С. О. Кузнецова (2011).

Публикации.

По теме диссертации опубликовано 9 научных работ, в том числе — две в зарубежных изданиях. Три статьи [2−4] опубликованы в изданиях из перечня ВАК ведущих рецензируемых журналов.

Структура и объем диссертации

.

Работа состоит из введения, пяти глав, заключения, списка литературы. Объем диссертации — 154 страницы, Приложений — 34 страницы.

Список литературы

включает 83 наименования. В текст диссертации входят 39 рисунков и 33 таблицы.

Показать весь текст
Заполнить форму текущей работой