Разработка метода и создание системы полнотекстового поиска на основе статистической обработки ограниченного контекста слова
Диссертация
Диссертация состоит из введения, четырех глав, выводов, заключения, списка литературы и приложения. Диссертация изложена на 158 страницах текста, содержит 39 рисунков и 30 таблиц. Библиография содержит 113 наименований. В первой главе выполнена математическая постановка задачи, описаны ключевые понятия и даны определения используемой в работе терминологии. Дан обзор стратегий текстового поиска… Читать ещё >
Содержание
- 1. Аналитический обзор методов и стратегий поиска текстовой информации. Системы обработки текста документов
- 1. 1. Задача поиска по текстам документов
- 1. 2. Классификация методов полнотекстового поиска
- Методы классического поиска (без использования контекстной информации)
- Использование контекстной информации
- 2. Метод поиска
- 2. 1. Описание метода обработки статистической сочетаемости слов
- 2. 2. Статистическое выявление устойчивых сочетаний слов
- 2. 3. Объединение схожих по написанию форм слов
- 2. 4. Обработка данных о статистической сочетаемости слов
- 2. 5. Группирование текстов по спискам устойчивых сочетаний слов
- 2. 6. Выполнение естественно-языкового поискового запроса
- Краткие
- выводы
- 3. Алгоритмы обработки текста документов и запросов, реализующие метод поиска
- 3. 1. Подготовка документов к обработке и их хранение
- 3. 2. Заполнение словаря
- 3. 3. Статистическое выявление устойчивых сочетаний слов
- 3. 4. Обработка данных о статистической сочетаемости слов
- 3. 5. Группирование текстов по спискам связности слов
- 3. 6. Определение соответствия текста поисковому запросу
- 4. Программная реализация поискового метода и ее испытания
- 4. 1. Описание программной реализации
- 4. 2. Описание тестового набора текстов
- 4. 3. Определение эмпирических пороговых значений и коэффициентов
- 4. 4. Экспериментальные оценки требуемых ресурсов при реализации разработанного метода
- 4. 5. Оценка качественных и количественных показателей разработанного метода поиска
- 4. 6. Сравнительная оценка ресурсоемкости разработанной поисковой системы
- Краткие
- выводы
Список литературы
- Соловьева Д.Я., Коссаковская Н. К., Гордон С. А. Перспективы развития научно-технических библиотек // Юбилейный сб. научн. тр. ГПНТБ России 1970−1995 гг. М., 1999.-С. 94−111.
- Jansen В., Spink A., Bateman J. Real life information retrieval: a study of user queries on the web // ACM SIGIR Forum. 1998. — V. 32, № 1. -P. 22−28.
- Файн B.C. Распознавание образов и машинное понимание естественного языка. М.: Наука, 1987. — 176 с.
- Бронников В. Виртуальная жизнь клеточных автоматов // Компьютер в школе. 1998. — № 2. — С. 10−19.
- Холмогоров В. Поиск в Интернете и сервисы Яндекс. СПб.: Питер, 2006. — 122 с.
- Тихомиров Ю.В. Microsoft SQL Server 7.0. СПб.: БХВ-Санкт-Петербург, 1999. — 720 е.: ил.
- Уоссермен Ф. Нейрокомпьютерная техника: Теория и практика / Пер. с англ. Ю. А. Зуева, В. А. Точенова. М.: Мир, 1992. — 175 с.
- Шапот М. Интеллектуальный анализ данных в системах поддержки принятия решений // Открытые системы. 1998. — № 1. — С. 30−35.
- Hsu С., Dung М. Generating finite-state transducers for semi-structured data extraction from the web // Information Systems. 1998. — V. 23, №. 8. -P. 521 — 538.
- Вирин В. Кто ищет, тот всегда найдет! // ComputerWorld Россия. 2003. -№ 8. — С. 6−8.
- Bittco Solutions NetReality: neural net virtual reality document management thing//Linux Weekly News. 1999. — № 0225. — P. 38−41.
- Бобровский С. Досье искусственного интеллекта // PC Week. 1999. -№ 45 (219).-С. 18−20.
- Нейман Дэн:., Моргенштерн О. Теория игр и экономическое поведение. М.: Наука, 1970. — 230 с.
- Урманн Дж. Oracle 8. Программирование на языке PL/SQL. М.: Лори, 1999.-610 с.
- Neuhaus P., Hahn U. Restricted Parallelism in Object-Oriented Lexical Parsing // Proc. Of the 16th Int. Conf. On Computational Linguistics. -Copenhagen, 1996. P. 36−49.
- Брик А.В. Исследование и разработка вероятностных методов синтаксического анализа текста на естественном языке: дис.. канд. техн. наук: 05.13.11 / МГТУ им. Н. Э. Баумана. М., 2002. — 160 с.
- Collins М. Three Generative, Lexicalised Models for Statistical Parsing /Dept. Of Computer and Information Science, University of Pennsylvania. -Philadelphia, 1997.- 216 p.
- Бахвалов Т. Язычество без тайн // Компьютерра. 2005. — № 39. -С. 23−30.
- Крищенко В.А. Программное обеспечение для метапоиска информации в гипертекстовой среде: дис. канд. техн. наук: 05.13.11. М., 2002. -143 с.
- Свинарев С. Нейроагенты Neugents приступают к управлению информационными системами // Computer Weekly. 1999. — № 3. -С. 16−17.
- Ахо У., Ульман Дж. Синтаксический анализ. М.: Мир, 1978. -612с.-(Теория синтаксического анализа, перевода и компиляции- Т.1).
- Компьютерный синтаксический анализ: описание моделей и направлений разработок / Г. Д. Карпова, Ю. К. Пирогова, Т. Ю. Кобзарева и др. М., 1991. — 130 с. — (Итоги науки и техники / ВИНИТИ. Сер. Вычислительные науки- Т.6).
- Architectures and mechanisms for language processing / Edited by Matthew W. Crocker, Martin Pickering, Charles Clifton, Jr. Cambridge- New York: Cambridge University Press, 2000. — 365 p.
- Губарев В.В. Алгоритмы статистических измерений. М.: Энергоатомиздат, 1985. — 272с.
- Brin S., Page L. The Anatomy of a Large-Scale Hypertextual Web Search Engine. Stanford: Stanford University, 1999. — 20 p.
- Волошина Т. Нормативное регулирование контрольно-надзорных отношений //Грани Гаранта. 2004. -№ 3 (11). — С. 19−23.
- Романенко В.Н., Никитина Г. В. Сетевой информационный поиск: Практическое пособие. СПб.: Профессия, 2005. — 285 с.
- Григорьев А.С. Организация хранения, обработки и доступа к полнотекстовым документам в современных АБИС // Новые информационные технологии: Матер, шестого Всерос. научн.-практ. сем.-М., 2003.-С. 128−138.
- London Т. Guidelines and Good Practice for Developing SQL. Illinois: Northern Illinois University, 1992. — 65 p.
- Feuerstein S. Oracle PL/SQL Best Practices: Optimizing Oracle Code. -Cambridge: O’Reilly, 2001. 204 p.
- Костюк В.И., Ходаков B.E. Системы отображения информации и инженерная психология. Киев: Вища школа, 1977. — 192 с.
- Корн Г., Корн Т. Справочник по математике (для научных работников и инженеров). М.: Наука, 1978. — 832 с.
- Современный русский язык. Фонетика. Лексикон. Словообразование. Морфология. Синтаксис. СПб.: Лань, 2001. — 864 с.
- Башмаков А.И., Башмаков И. А. Интеллектуальные информационные технологии: Учеб. пособие. М.: Изд-во МГТУ им. Н. Э. Баумана, 2005.304 с. — (Информатика в техническом университете).
- Хамилтон С. Научно-исследовательские проекты Microsoft // Computer World. 1998. — № 31. — С. 40−42.
- Хроленко А.Т. Лингвокультуроведение: Учебное пособие. Курск: Издательство Регионального Открытого Социального Института, 2001. -180 с.
- Григорьев А.С. Исследование проблемы проектирования систем обработки естественно-языковых текстов и организации поиска по ним // Информатика и системы управления в XXI веке: Тр. молодых ученых, аспирантов и студентов: Сб. тр. 2004. — № 2. — С. 184−188.
- Черемных С.В., Семенов И. О., Ручкин B.C. Структурный анализ систем: IDEF-технологии. М.: Финансы и статистика, 2001. — 208 с.
- Концепция семантического поля исторического источника / Ю. Я. Вин, А. Ю. Гриднева, Д. Е. Кондратьев и др. // Диалог со временем. Альманах интеллектуальной истории. 2004. — № 12. — С. 84−99.
- Григорьев А.С. Машинное понимание естественного языка при составлении запросов к поисковой системе библиотеки // Новые информационные технологии: Матер, седьмого Всерос. научн.-практ. сем. М., 2004. — С. 70−76.
- Вспомогательные таблицы: Универсальная десятичная классификация /Ред. Ю. М. Арский. М.: ВИНИТИ, 2001. — 246 с. — (УДК. Универсальная десятичная классификация- Т. 1).
- Зайцева Е.М. Отчет по первому этапу разработки Схемы классификации печатной продукции. М.: Российское книжное общество, 2004. -С. 3−7.
- Черный А.И. Введение в теорию информационного поиска. М.: Наука, 1975.-238 с.
- Рузайкин Г. И. Развитие поисковых систем в Интернете // Мир ПК. -2005.-№ 9 .-С. 100−102.
- Bittco Releases NetReality at Comdex Fall '99- The Most Advanced Personal Internet Search Tool // Business Wire. 1999. — November 18. — P. 18−19.
- Браславский П.И. Стиль как дополнительный параметр поиска информации в Internet // Русская компьютерная и квантитативная лингвистика. М., 2000. — С. 396.
- Воронина И.Е. Проблемы формализации русского языка // Русская компьютерная и квантитативная лингвистика. М., 2000. — С. 398−399.
- Шабанов В.И. Модели и методы автоматической классификации текстовых документов: дис.. канд. техн. наук: 05.13.1 1. М., 2003. -227 с.
- Григорьев А.С. Автоматическое получение ключевых словосочетаний текста электронного документа на произвольном языке // Новые информационные технологии: Матер, восьмого Всерос. научн.-практ. сем.-М., 2005.-С. 110−118.
- Волкова И.А., Головин И. Г. Синтаксический анализ фраз естественного языка на основе сетевой грамматики // Тр. международного сем. ДИАЛОГ'98. М., 1998. — С. 39−45.
- Вудс В.А. Сетевые грамматики для анализа естественных языков // Кибернетический сборник. Новая серия. 1978. — Вып. 13. — С. 86−113.
- Magerman D. Natural Language Parsing as Statistical Pattern Recognition. Doctoral thesis. Stanford: Stanford University, 1994. — 161 p.
- Сегалович И.В. Как работают поисковые системы. М.: КОЛИНТ, 2005.-25 с.
- Растригин Л.А. По воле случая. М.: Молодая гвардия, 1986. — 208 с.
- Goldberg D.E. Genetic Algorithms in Search, Optimization and Machine Learning. Massachusetts: Addison-Wesley, 1989. — 412 p.
- Зайцев А.В. Методика создания индексных файлов для осуществления полнотекстового поиска в сети Интернет. СПб: ГУАГ1 CODENET, 2001.-49 с.
- Кондратьев Д.Е., Тихонова О. В. Алгоритм сравнения статей на основе семантической близости понятий // Новые информационные технологии: Матер, шестого Всерос. научн.-практ. сем. М., 2003. -С. 26−31.
- Григорьев А.С. Новая система обработки естественно-языковых текстов в исследовании понятий и терминов византийских источников // Межкультурное взаимодействие и его интерпретации: Матер. Всерос. научн. конф. М., 2004. — С. 197−200.
- Куралеиок И.Е., Некрестьянов И. С. Автоматическая классификация документов с использованием семантического анализа // Электронные библиотеки, перспективные методы и технологии: Тр. первой Всерос. научн.-метод. конф. СПб, 1999. — С. 86−96.
- Manning C.D., Carpenter R. Probabilistic Parsing Using Left Corner Language Models // Information Processing & Management. 1997. — № 1. -P. 12−24.
- Raychauclhuri S., Schutze H., Altman R.B. Using text analysis to identify functionally coherent gene groups // Genome Research. Stanford- San Mateo, 2002.-P. 1582−1590.
- Бойцов JI. Классификация и экспериментальное исследование современных алгоритмов нечеткого словарного поиска // Электронные библиотеки: перспективные методы и технологии, электронные коллекции: Шестая Всерос. научн. конф. М., 2004. — С. 148−156.
- Damerau F.J. A technique for computer detection and correction of spelling errors//Communications of the ACM. 1964. — VoI.7(3). — P. 171−176.
- Левенштейи В.И. Двоичные коды с исправлением выпадений, вставок и замещений символов // Докл. АН СССР.- 1965, — Т. 163, № 4. С. 845−848.
- Luhn H.P. A statistical approach to mechanized encoding and search of library information // IBM Journal of Research and Development. 1957. -№ 1. — P. 309−317.
- Григорьев А. С. Принципы создания современной библиотечной поисковой системы // Информатика и системы управления в XXI веке: Тр. молодых ученых, аспирантов и студентов: Сб. тр. 2003 .- № 1. -С. 330−333.
- Абызгильдин А.Ю., Руднев Н. А. Проект информационной системы учебного предприятия // Новые образовательные технологии: Сб. тр. научн.-метод, сем. Уфа, 2001. — С. 28.
- Седжвик Р. Фундаментальные алгоритмы на С. Анализ/Структуры данных/Сортировка/Поиск/Алгоритмы на графах: Пер. с англ. СПб: ООО «ДиаСофтЮП», 2003. — 1136 с.
- Гренандер У. Лекции по теории образов: Регулярные структуры: Пер. с англ. М.: Мир, 1983. — 432 с.
- Трофимов С.A. Rational XDE для Visual Studio .NET. М.: Бином-Пресс, 2003.-304 с.
- Авторское право: Нормативные акты. Национальное законодательство и международные конвенции / Сост., авт. вступ. ст. И. Силонов- оформл. Г. Сыроватского. М.: Элит-Клуб- Юридическая книга, 1998. -429 с.
- Фомин Я.А., Тарловский Г. Р. Статистическая теория распознавания образов. М.: Радио и связь, 1986. — 264 с.
- Елохин В.Р., Елохин И. В. Имитационный метод статистической аппроксимации. Апатиты: Изд-во Кольского научного центра РАН, 2002. — 120 с.
- Васильев В.И., Коноваленко В. В., Горелов Ю. И. Имитационное управление неопределенными объектами. Киев: Наукова думка, 1989. -216 с.
- Колмогоров А.Н. Основные понятия теории вероятностей. М.: Наука, 1974.- 119 с.
- Ибрагимов И.А., Хасьмииский Р. З. Асимптотическая теория оценивания. М.: Наука, 1970. — 384 с.
- Клейнен Дж. Статистические методы в имитационном моделировании: Пер. с англ. / Под ред. Ю. П. Адлера, В. Н. Варыгина. М.: Статистика, 1978.- 335 с.
- Бойцов Л. Поиск по сходству в документальных базах данных //Программист. 2001. -№ 1. — С. 32−35.
- Риоло P.JI. Естественный отбор в мире битов // В мире науки (Scientific American). 1992. — Сентябрь-Октябрь. — С. 160−165.
- Manber U., Myers G. Suffix Arrays: A New Method for On-line String Searches // 1st ACM-SIAM Symposium on Discrete Algorithms. -Philadelphia, 1990.-P. 12−20.
- Manber U. Finding similar files in a large file system // USENIX Conference. Boston, 1994. — P. 343−349.
- Joyce Т., Needham R.M. The Thesaurus Approach to Information Retrieval // American Documentation. 1958. — № 12. — P. 611−625.
- Automatic query expansion using SMART TREC-3 / G. Salton, C. Buckley, J. Allan etc. // An Overview of the Third Text Retrieval Conference (TREC 3). — 1995. — № 500−225. — P. 69−80.1. Г