Помощь в учёбе, очень быстро...
Работаем вместе до победы

Исследование и разработка теоретических основ координатного индексирования документов

ДиссертацияПомощь в написанииУзнать стоимостьмоей работы

Создание большого числа автоматизированных информационно-поисковых систем (МПС) привело к широкому применению координатного индексирования документов (КИД). Однако применение дорогостоящей техники и привлечение значительного числа индексаторов в таких системах не могли не вызвать вопросы повышения эффективности их функционирования, в частности, эффективности КИД. Поэтому вполне естественно… Читать ещё >

Содержание

  • 1. Гносеологический анализ знания о координатном индексировании документов
  • 2. Методологические вопросы разработки теории координатного индексирования документов
  • 3. Понятие темы и процесс её формирования
  • 4. Типы заглавий и их структуры
  • 5. Понятие ключевого слова и его свойства
  • 6. Особенности и структура поисковых образов документов

Исследование и разработка теоретических основ координатного индексирования документов (реферат, курсовая, диплом, контрольная)

Создание большого числа автоматизированных информационно-поисковых систем (МПС) привело к широкому применению координатного индексирования документов (КИД). Однако применение дорогостоящей техники и привлечение значительного числа индексаторов в таких системах не могли не вызвать вопросы повышения эффективности их функционирования, в частности, эффективности КИД. Поэтому вполне естественно предположить, что расширение сферы применения КИД приведет к интенсивному исследованию этого процесса.

Факты же свидетельствуют, что информатика уже в начале своего развития уделяла большее внимание автоматизации КИД, нежели теоретическому изучению глубинной сущности этого процесса. Отсутствие же теоретического фундамента КИД привело к тому, что до сих пор оно осуществляется интуитивным путем и без необходимой индексаторам научно обоснованной методики.

В настоящее время КИД чаще осуществляется по правилам, приведенным в документе, выдаваемом индексаторам и называемом обычно инструкцией. В ней приводятся рекомендации по выявлению ключевых слов (КС), правила выбора лексических форм КС, правила формирования поискового образа документа (ПОД) и т. д. При этом для нахождения КС в индексируемом документе индексатор может воспользоваться лишь такими признаками, как: КС -" слова и словосочетания документа, существенные для описания содержания документа", или «КС можно найти в таких фрагментах текста, как: заглавие, введение, заключение, .» С 8]. Если искать по такой рекомендации слова, существенные для описания содержания документа, например, во введении, то у индексатора непременно возникнет вопрос: является ли данное слово существенным. Поскольку других конкретных признаков, по которым он мог бы решать свою задачу, в таких инструкциях нет, то ему остается выбирать КС, полагаясь лишь на свою интуицию. Ясно, что если так осуществлять КИД, то в ПОД могут войти ненужные для поиска слова в качестве КС, а нужные КС — отсутствовать. Но это, как известно, приводит к снижению эффективности функционирования МПС. Сказанное означает, что в информатике, а точнее в познании КИД существует проблема.

Актуальность работы определяется тем, что в настоящее время нет ни надежной теории КИД, на основе которой можно было бы разрабатывать методику КИД, ни самой методики, позволяющей целенаправленно выбирать КС и компоновать ПОД. Если учесть, что сфера применения КИД расширяется, а требования к качеству индексирования все больше повышаются, то решение этой проблемы становится важным делом для информатики. Исходя из сказанного, в настоящей диссертационной работе формулируется следующая цель.

Целью настоящей диссертационной работы являются разработка теоретических основ КИД, позволяющих расширить и углубить знания о КИД (в частности, выявить признаки и свойства КС), и разработка методики КИД с использованием полученных знаний.

ОСНОВНЫЕ ЗАДАЧИ РАБОТЫ.

Сформулированная выше цель достигается в настоящей работе решением следующих задач:

1) гносеологический анализ научных работ, в которых приведены существенные результаты исследований КИД;

2) методологическое обоснование выбора формы и содержания теории КИД;

3) уточнение природы и понятия темы;

— 5.

4) выявление видов и структур заглавий;

5) выявление видов и свойств КС, а также их признаков;

6) выявление особенностей и принципов формирования ПОД.

Каждая из этих задач решается в соответствующем параграфе.

§ 1 — 96).

Существование вышеупомянутой проблемы говорит о том, что познание КИД еще не достигло того уровня, при котором становится возможным объяснять неизученные стороны этого процесса, выводить необходимые для практики знания. Ретроспективный анализ развития знания о КИД показывает, что в ходе его изучения была пройдена эмпирическая стадия и начался этап разработки теории КИД. Однако попытки разработать теорию КИД не привели к существенному изменению знания о нем. Это можно объяснить отчасти тем, что при её разработке слабо учитывались учения методологии науки, достижения смежных наук. Следовательно, для преодоления этого барьера необходимо применить методы и формы познания более высокого уровня по сравнению с ранее использовавшимися. Поскольку полноценную теорию разработать сразу не возможно, то сначала нужно разработать основу теории КИД, а затем постепенно достроить её.

Научная новизна работы заключается в том, что в данной диссертации впервые сформированы теоретические основы КИД, причем с привлечением аксиоматического метода, способствующего получение теории высокого уровня, а также лингвистики текста, психологии, формальной логики.

Практическая значимость настоящей диссертации состоит в том, что полученные в ней новые знания позволяют решать различные практические задачи, в частности, подготавливать нужные для индексаторов методики и пособия. На основе этих знаний разработана методика КИД.

— б.

ЗАКЛЮЧЕНИЕ

.

Выполненные в данной диссертации исследования и разработки направлены на углубление знания о КИД, на усовершенствование этого процесса. Полученные в ней результаты позволяют не только объяснить ранее неизвестные стороны КИД, но и использовать их в практике индексирования. В ходе выполнения диссертации получены следующие научные и практические результат.

1. Выявлено, что в тематических фразах в общем случае содержатся четыре вида информативных слов, а именно: предметное, опорное, вспомогательное и аспектное слова.

Нужно сказать, что выявление этого свойства стало возможным благодаря формулированию гипотезы формирования темы. Эта гипотеза позволила не только объяснить природу темы, но и вскрыть закономерность отражения предмета (-ов) в теме, отношения между заглавием текста и заголовками субтекстов. Правильность предложенной гипотезы подтвеждается тем, что следствия, выведенные из этой гипотезы дедуктивным путем, подтверждаются практикой.

2. Доказано, что ключевыми словами могут быть информативные слова-термины.

На основании этого и предыдущего выводов можно заключить, что КС концентрируются в тематических фразах. Так что можно говорить, что именно последние являются источниками КС.

3. Установлены признаки КС.

Благодаря им стало возможным целенаправленно выбирать КС, т. е. проводить КИД не интуитивным путем, как это имело место до сих пор, а осознанно.

— 66.

4. Выявлено три вида источников КС.

Ими являются заглавия всего текста, заголовки разделов текста и т. н. аннотативные фразы.

5. Выявлено три вида неключевых слов.

Ими являются экстенсивные, фиктивные и избыточные слова. Обобщенно они названы порочными словами.

6. Выявлены и описаны шесть типов заглавий, их структура и особенности.

Выявленные с помощью вышеупомянутой гипотезы информативные слова позволили изучить структуру заглавий и их особенности. Это, в свою очередь, позволило классифицировать заглавия. Предложена также нотация структурных элементов заглавий. Все это позволяет быстро находить КС при КИД.

7. Проведены расчеты объемов выдачи идеальной ЙПС при различных входных параметрах, чтобы уточнить целесообразное количество вспомогательных слов в ПОД.

Расчеты проведены по формуле, выведенной на основе модели ЙПС. Расчеты показывают, что количество вспомогательных слов, включаемых в ПОД, существенно зависит от частоты использования предметного и опорного слов, а также частоты их совместного использования.

8. Описан феномен безымянного предмета и предложен метод выбора КС для таких предметов.

9. Выявлены и описаны особенности и структура ПОД.

Сделать это удалось благодаря введению понятий информативного раздела документа и синтагмы, а также выведенной на их основе теоремы. Это, в свою очередь, позволило получить математическое описание структуры ПОД.

10. Выведены формулы для определения целесообразного объема ПОД.

Известно, что малый объем ПОД при поиске документов приводит к потере релевантных документов, а большой объем ПОД — к появлению информационного шума. Это обстоятельство говорит о том, что для каждого документа существует оптимальный объем ПОД. Его можно определить по одной из вышеупомянутых формул.

11. Установлена возможность использования заголовков разделов текста для оценки информативности последних.

При исследовании отношения между упомянутыми компонентами были использованы некоторые свойства текстов.

12. Выявлено существование двух типов текстов, а именно, текстов с поаспектно фиксированными структурами и текстов со свободно компонуемыми структурами. Установлены также характер влияния этих типов на особенности заглавий и заголовков, а также отношения между этими типами и видами документов.

Найденные особенности и отношения позволяют не только объяснить появление абстрактных заглавий, но и использовать их для практики (например, при составлении заглавия или заголовка) .

13. Описано два вида ложной координации КС в ПОД.

Установлено существование междусинтагматической и внутрисинтагматической ложной координации. При исследовании этого явления использовались понятия синтагмы и валентности слов.

14. Выявлена и описана псевдоконформная координация КС.

Это стало возможным благодаря углубленному изучению характера координации КС в ПОД.

15. Разработана методика КИД.

Такая методика, разработанная на основе знаний, отраженных в данной диссертации, и рассчитанная на начинающих индексаторов, приведена в приложении N0 3. При разработке этой методики учитывались результаты исследований, приведенные в работах [3, 43. В первой из них рассмотрены методологические вопросы разработки такой методики на концептуальном уровне, а вторая работа посвящена разработке конкретной методики КИД. Достаточность приведенных в данной методике сведений проверена семилетней практикой координатного индексирования документов по машиностроению в отделе научной информации по машиностроению ВИНИТИ.

В ходе изложения данной работы были отмечены недостаточно изученные в познании КИД моменты. Некоторые из них могут быть изучены глубже на основе предлагаемых в данной диссертации теоретических основ. Ниже приведен перечень вопросов, требующих дальнейшей проработки для усовершенствования теории и методики КИД.

1. Уточнение классификации заглавий.

В практике индексирования встречаются трудноклассифицируе-мые заглавия. Хотя такие заглавия в машиностроительной литературе встречаются не так часто, тем не менее, выявление и описание таких заглавий необходимо проводить, чтобы классификация была более полной. Необходимо продолжить изучение структуры заглавий в документах других отраслей знания.

2. Создание теории, объясняющей появление того или иного типа заглавий.

Это можно сделать, видимо, путем прослеживания появления различных видов документов в ходе развития познания какого-либо объекта. Например, известно, что на определенном этапе познания объекта появляется необходимость изучить его свойства, особенности. Об этом говорилось в § 1. В результате изучения этой стороны объекта могут появиться документы, имеющие заглавия первого типа. Таким же путем, видимо, можно увязать этапы познания с типами заглавий.

3. Разработка варианта метода усиления критерия выдачи.

Введенное в данной работе понятие весомости информативных слов может быть использовано для ранжирования дескрипторов в поисковом предписании и эшелонирования документов в выдаче.

4. Выявление критериев и разработка методов оценки качества КИД.

Приведенные в данной работе знания о КС и ПОД позволяют предвидеть, какие КС должны содержаться в поисковом образе рассматриваемого документа. Если в ПОД содержатся посторонние слова, то можно говорить о некачественном индексировании. Такой метод может иметь важное значение для оценки ПОД, полученных в результате автоматического КИД.

5. Разработка теории, на основе которой можно было бы построить систему лексических категорий.

Следует заметить, что приведенные в приложении N0 4 лексические категории были выявлены путем анализа таких категорий, приведенных в различных литературных источниках, и синтеза системы категорий на основе учения формальной логики о категориях.

6. Создание опытного варианта метода формулирования информационных запросов.

Для повышения точности формулирования информационного запроса могут быть использованы результаты, полученные в настоящей диссертационной работе. Возможен такой вариант. Сначала специалисту-потребителю информации предлагается уточнить лексическую категорию, к которой относится искомый предмет. Затем по известной категории выбирается соответствующий тип заглавия, а по нему — предметное слово (-а), опорное слово.

— а) и т. д., составляющие информационный запрос. При этом нузшо активно использовать принцип последовательного приближения, принцип от родового к видовому, искомому слову.

7. Подготовка пособия по составлению заглавий.

8. Подготовка пособия по написанию полноиндексируемых рефератов.

9. Подготовка сборника примеров КИД с трудно индексируемыми заглавиями.

10. Разработка варианта классификации индексируемых документов.

Такая классификация необходима, т. к. характер КИД зависит от видов документов. К индексируемым документам должны относиться, в частности, статьи из журналов и сборников, отдельные описания изобретений.

11. Подготовка рекомендации по КИД с учетом видов документов.

В рекомендации необходимо обратить внимание на особенности текстов и заглавий по каждому виду индексируемых документов. Особенно следует уделить внимание КИД описания изобретений, т. к. они чаще вызывают затруднение при индексировании.

Показать весь текст

Список литературы

  1. А. Г. Тема, заглавие и индексирование // HT И. Сер. 2. 1986. -No 7. — С. 22−27.
  2. А. Г. Опыт построения теории координатного индексирования документов // HT И. Сер. 2. -1989. -No 10. -С. 19−24.
  3. А. Г. К разработке методики координатного индексирования документов // HT И. Сер. 2. -1992. -No 9. -С. 10−15.
  4. А. Г. Разработка методики координатного индексирования документов. Часть 1. // HT И. Сер. 2. -1995. -No 8. -С. 2226, 30.
  5. А. Г. Разработка методики координатного индексирования документов. Часть 2. // НТИ. Сер. 2−1995. -No 9. -С. 14−19.
  6. А. Г. Расширение поисковых возможностей документальных баз данных // НТИ. Сер. 2.-1988.-No 11.-С. 27−34.
  7. А. Г. О рефератах, обеспечивающих высокую полноту отбора ключевых слов // НТИ. Сер. 1. -1990. -No 6. -С. 24.
  8. Временная инструкция по координатному индексированию документов (Служебный материал). М.: ВИНИТИ, 1983.
  9. Диалектический материализм. -Е: Высшая школа, 1975.
  10. Taube M. et. al. Studies in coordinate indexing. -Washington: Documentation inc., vol. 5, 1959. 178 p.
  11. Taube M., Jaster J., Murrey B. The state of the art of coordinate indexing. -Washington: Documentation inc., 1962.
  12. Nakai H., Sonoda K., Sato S., Watanabe T., Kajiwara Y. A proposal for standartization for content analysis, abstracting and indexing.// Proceeding of the 9-th national convention for the study on information and documentation. -Tokyo: JICST, 1972.
  13. Robertson S. Indexing theory and retrieval effectiveness// Drexel library quartery. 1978.- vol. 14.-No 2.
  14. В. От понятия темы предложения к понятию ключевого слова// НТИ. Сер. 2. 1976. — No 11. — С. 18−25.
  15. . В. Алгоритмическое индексирование в информационных системах. М.: Наука, 1978. — 143 с.
  16. Е. И. Исследование и разработка экспериментальной системы автоматического индексирования. Дис. на соиск. учен, степени канд. тех. наук. М.: ВИНИТИ, 1977. — 197 с.
  17. О. М. Методы и формы научного познания. -М.: Высшая школа, 1972. -95 с.
  18. А. И. К вопросу о смысловом преобразовании текстов// Новые исследования в психологии. 1975.- No 1.
  19. Философский словарь. Под редакцией М. М. Розенталя. -М.: Политиздат, 1975. 496с.
  20. А. И., Черный А. И., Гиляревский Р. С. Основы информатики. М.: Наука, 1968.- 756 с.
  21. А. И. Введение в теорию информационного поиска. -ML: Наука, 1975. 238 с.
  22. Терминологический словарь по информатике. М.: МЦНТИ, 1975.
  23. В. Б., Бондарь В. В., Макаров В. И., Мельникова М. М., Черный А. И. Автоматизированная подготовка предметных указателей к РЖ «Химия»// Информационные проблемы современной ХИМИИ. М.: ВИНИТИ, 1976. — С. 60 — 160.
  24. Scheffer F. L., Schumacher H. H., March J. F. The significance of titles, abstracts and other portions of technical documents for infomation retrieval.// IEEE Trans. Proff. Commun. 1974. -No 1. — P. 1−8.
  25. Г. В., Шрейдер Ю. А. Текст- смысл-ситуация// Вопросы информационной теории и практики. М.: ВИНИТИ, 1978. No 36. — С. 80 — 91.
  26. А. А. Реферирование текста. Минск: ВРУ, 1978.
  27. И. Р. Текст как объект лингвистического исследования. Е: Наука, 1981. — 139 с.
  28. Т. Е Проблемы внутренней речи в психологии и психофизиологии// Психологические и психофизиологические исследования речи. М.: Наука, 1985. — С. 13 — 26.
  29. А. Р. Проблемы и факты нейролингвистики//Теория речевой деятельности. -М.: 1968. С. 14−36.
  30. А. А. Психолингвистические единицы и порождение речевого высказывания. -М.: 1969.
  31. В. Б. Элементы общей лингвистики. М.: Наука, 1977. — 183 с.
  32. А. Ф. Исследование влияния режимов индексирования документов и запросов на поисковые характеристики дескриптор-ных информационных систем. Автореф. дис. на соиск. учен, степени канд. техн. наук. М.: ВИНИТИ, 1974.
Заполнить форму текущей работой