Помощь в учёбе, очень быстро...
Работаем вместе до победы

Алгоритмы и метрики для бикластерного анализа текстов

РефератПомощь в написанииУзнать стоимостьмоей работы

Библиотека IEEE, помимо перечисленных выше данных, предоставляет также несколько типов списков ключевых слов. В нашей работе мы пользуемся тремя типами списков: В данной главе представлены подходы к решению задач, необходимых для проведения бикластерного анализа текстовых данных. Данные задачи включают в себя: Построение матрицы схожести между ключевыми фразами на основе матрицы релевантности… Читать ещё >

Алгоритмы и метрики для бикластерного анализа текстов (реферат, курсовая, диплом, контрольная)

В данной главе представлены подходы к решению задач, необходимых для проведения бикластерного анализа текстовых данных. Данные задачи включают в себя:

  • · Загрузку аннотаций к научным статьям из электронной библиотеки и ключевых фраз, связанных с этими статьями;
  • · Выделение ключевых слов и словосочетаний из коллекции текстов — это могут быть загруженные аннотации или другие предложенные пользователем текстовые данные;
  • · Построение матрицы релевантности по заданной коллекции текстов, набору ключевых фраз и метрике релевантности;
  • · Построение матрицы схожести между ключевыми фразами на основе матрицы релевантности и по заданному порогу релевантности;
  • · Бикластерный анализ матриц релевантности, матриц схожести или других созданных пользователем матриц;
  • · Визуализация бикластеров ключевых фраз с помощью графа связей.

Загрузка аннотаций статей

Для загрузки аннотаций к научным статьям было выбрано два источника: IEEE Xplore Digital Library и библиотека Springer Link. Оба выбранных источника предоставляют HTTP интерфейс для загрузки аннотаций к научным статьям и другой метаинформации, такой как название статьи, дата публикации, автор (ы) статьи, название журнала и некоторые другие данные.

Библиотека IEEE, помимо перечисленных выше данных, предоставляет также несколько типов списков ключевых слов. В нашей работе мы пользуемся тремя типами списков:

  • · Inspec: controlled indexing — словосочетания из тезауруса базы данных Inspec;
  • · Inspec: not controlled indexing — словосочетания свободного формата (не только из тезауруса);
  • · Авторские ключевые слова;

Индексация научных статей в базе данных Inspec производится экспертами в соответствующих областях. Для получения этих ключевых словосочетаний мы так же пользуемся HTTP интерфейсом, предоставляемым библиотекой IEEE. Что касается авторских словосочетаний, они указываются непосредственно авторами статей, а для их получения производится автоматический «парсинг» (синтаксический анализ) веб-страниц с метаинформацией о статьях с портала IEEE Xplore.

Показать весь текст
Заполнить форму текущей работой