Модель структурного представления текстовой информации и метод ее тематического анализа на основе частотно-контекстной классификации
Диссертация
Анализ существующих исследований, посвященных решению задач поиска документов по образцу, выявил крайне незначительное число готовых и апробированных, решений, что во многом связано с отсутствием достаточно проработанной теории и практики решения задач тематического анализа неструктурированной, естественно-языковой текстовой информации произвольного содержания. Эффективное решение задач такого… Читать ещё >
Содержание
- 1. АНАЛИЗ ПРЕДМЕТНОЙ ОБЛАСТИ И ПОСТАНОВКА ЗАДАЧ ИССЛЕДОВАНИЯ
- 1. 1. Введение в информационно-поисковые системы
- 1. 2. Обзор моделей поиска и методов тематического анализа текстовой информации
- 1. 4. Постановка задач исследования
- 1. 5. Выводы
- 2. РАЗРАБОТКА МОДЕЛИ СТРУКТУРНОГО ПРЕДСТАВЛЕНИЯ И МЕТОДА ТЕМАТИЧЕСКОГО АНАЛИЗА ТЕКСТА
- 2. 1. Графовая модель структурного представления текста произвольного содержания
- 2. 2. Метод частотно-контекстной классификации тематики текста
- 2. 3. Алгоритм вычисления степени тематической принадлежности текста к образцу
- 2. 4. Алгоритм поиска значений информационных признаков тематики текста
- 2. 5. Выводы
- 3. ПРАКТИЧЕСКАЯ РЕАЛИЗАЦИЯ МОДЕЛИ СТРУКТУРНОГО ПРЕДСТАВЛЕНИЯ И МЕТОДА ТЕМАТИЧЕСКОГО АНАЛИЗА ТЕКСТА
- 3. 1. Организация поиска
- 3. 2. Программная реализация графовой модели структурного представления текста произвольного содержания
- 3. 3. Программная реализация метода частотно-контекстной классификации тематики текста
- 3. 4. Программная реализация алгоритма вычисления степени тематической принадлежности текста к образцу
- 3. 5. Программная реализация алгоритма поиска значений информационных признаков тематики текста
- 3. 6. Выводы
- 4. ПРОВЕДЕНИЕ ЭКСПЕРИМЕНТАЛЬНЫХ ИССЛЕДОВАНИЙ
- 4. 1. Планирование эксперимента
- 4. 2. Результаты экспериментальных исследований метода частотно-контекстной классификации
- 4. 3. Результаты экспериментальных исследований алгоритма вычисления степёни тематической принадлежности текста к образцу
- 4. 4. Результаты экспериментальных исследований алгоритма поиска значений информационных признаков тематики текста
- 4. 5. Результаты экспериментальных исследований сравнения точности вычисления тематической близости
- 4. 5. Выводы
Список литературы
- Ахутина Т. В. Порождение речи. Нейро-лингвистический анализ синтаксиса М.: МГУ, 1989.-215 с.
- Белянин В.П. Введение в психолингвистику. — Изд. 2-е, испр. и доп., — М.: ЧеРо, 2000.-128 с.
- Боровиков В. STATISTICA. Искусство анализа данных на компьютере: Для профессионалов. 2-е изд. СПб.: Питер, 2003. — 688 с.
- Добрынин В.Ю., Некрестьянов И. С., Задача выбора тематических ф коллекций, релевантных запросу. // Труды Всероссийской научнометодической конференции «Интернет и современное сообщество», Санкт-Петербург, декабрь 1998.
- Дубинский А.Г. Разработка моделей и совершенствование структуры систем информационного поиска в глобальной компьютерной сети: Диссертационная работа к.т.н.: 05.13.06 / Днепропетровский национальный университет. Днепропетровск, 2002.
- Дубинский А.Г. Проблема автоматизации поиска информации в глобальной сети // Проблемы автоматизации информационных технологий. Днепропетровск, 1999. — С. 40−48.
- Дубинский А.Г. Некоторые вопросы применения векторной модели представления документов в информационном поиске // Управляющие системы и машины. 2001. — № 4. — С. 77−83.
- Ермаков А.Е. Полнотекстовый поиск: проблемы и их решение // Мир ПК. — 2000. -N5.
- Ермаков А.Е., Плешко В. В. Ассоциативная модель порождения текста в задаче классификации // Информационные технологии. 2000. — N 12.
- Иванов В., Некрестьянов И., Пантелеева Н. Расширение представления документов при поиске в Веб // Труды четвертой всероссийской конференция RCDL'2002. В двух томах. Т.2. Дубна, 2002. — С. 55−68.
- Когаловский М. Р. Перспективные технологии информационных систем. — М.: ДМК Пресс- М.: Компания АйТи, 2003. 288 с.
- Когаловский М.Р. Энциклопедия технологий бах данных. — М.: Финансы и статистика, 2002. 800 с.
- Кураленок И.Е., Некрестьянов И. С. Оценка систем текстового поиска // Программирование. 2002. — N4. — С. 226−242.
- Лурия А.Р. Основы нейропсихологии М.: МГУ, 1973. — 374 с.
- Некрестьянов И., Пантелеева Н. Системы текстового поиска для Веб // Программирование. — 2002. — N4.
- Некрестьянов И.С., Добрынин В. Ю., Клюев В. В. Оценка тематического подобия текстовых документов // Труды второй всероссийской научной конференции «Электронные библиотеки». Протвино, 2000. — С. 204−210.
- Некрестьянов И.С. Тематико-ориентированные методы информационного поиска: Диссертационная работа к.т.н.: 05.13.11 / Санкт-Петербургский государственный университет — СПб., 2000. 80 с.
- Романова Е.В., Романов М. В., Некрестьянов И. С. Использование интелектуальных сетевых роботов для построения тематических коллекций // Программирование. — 2000. N3. — С. 63−71.
- Семенова С.Ю. Поиск параметрической информации в тексте: алгоритмический и лексикографический аспекты // Труды Международного семинара Диалог'96 по компьютерной лингвистике и приложениям. М., 1996. — С. 227−230.
- Советский энциклопедический словарь / Научно-редакционный совет: A.M. Прохоров (пред.). М.: «Советская энциклопедия», 1981. — 1600 с.
- Сэлтон Г. Автоматическая обработка, хранение и поиск информации: Пер. с англ. / Под ред. А. И. Китова. М.: Советское радио, 1973. — 560 с.
- Фрумкина P.M. Психолингвистика: Учебник для студентов высших учебных заведений. М.: Издательский центр «Академия», 2001. — 320 с.
- Чугреев В.Л., Моделирование систем искусственного интеллекта. // Перспективные технологии автоматизации: Тезисы докладов международной электронной научно-технической конференции. — Вологда: ВоГТУ, 1999.- С. 151−152.
- Чугреев В.Л., Моделирование систем искусственного интеллекта. // Молодые исследователи — региону: Тезисы докладов Второй областной межвузовской студенческой научной конференции. Вологда: ВоГТУ, 2000.-С. 5−6.
- Чугреев В.Л., Объектно-ориентированное программирование — перспективы развития. // Современные проблемы информатизации в технике и технологиях: Труды 5-й Международной электронной научной конференции. Воронеж: ЦЧКИ, 2000. — С. 99−100.
- Чугреев В.Л., Расширение искусственных нейронных сетей применительно к задачам прогнозирования. // Молодые исследователи региону: Материалы межрегиональной научной конференции студентов и аспирантов. — Вологда: ВоГТУ, 2002. — С. 231−232.
- Чугреев В.Л., Яковлев С. А., Выделение критериев поиска текста на основе подобия значимых документов. // ВУЗОВСКАЯ НАУКА РЕГИОНУ: Материалы 1-й Общероссийской нучн.-техн. конф. — Вологда: ВоГТУ, 2003.-С. 200−202.
- Чугреев B.JI., Яковлев С. А., Анализ структуры текста и прогнозирование нечисловых величин. // ВУЗОВСКАЯ НАУКА РЕГИОНУ: Материалы 1-й Общероссийской нучн.-техн. конф. — Вологда: ВоГТУ, 2003. — С. 202 204.
- Aalbersberg I.J. Incremental relevance feedback. In Proceedings of the Fifteenth Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, pages 11−22, 1992.
- Aggarwal С. C., Al-Garawi F., Yu P. S. Intelligent crawling on the world wide web with arbitrary predicates. In Proc. of the WWW10, pp. 96−105, May 2001.
- Agichtein E., Lawrence S., Gravano L. Learning search engine specific query transformations for question answering. In Proc. of the WWW10, pp. 169−178, 2001.
- Allan J. Incremental relevance feedback. In Proceedings of the 19th International Conference on Research and Development in Information Retrieval (SIGIR '96), pages 298−306, April 1996.
- Amento В., Terveen L., Hill W. Does «authority» mean quality? Predicting expert quality ratings of web documents. In Proc. of the SIGIR'00, pp. 296−303, 2000.
- Arasu A., Cho J., Garcia-Molina H., Paepcke A., Raghavan S. Searching the web. ACM Transactions on Internet Technology, l (l):2−43, Aug. 2001.
- Baeza-Yates R., Ribeiro-Neto B. Modern Information Retrieval. ACM Press, 1999.
- Baker D. and McCallum A. Distributional clustering of words for text classification. In Proceedings of the SIGIR'98, pages 96−103,1998.
- Bharat K., Broder A. A technique for measuring the relative size and overlap of public Web search engines. In Proc. of the WWW7, 1998.
- Bharat K., Broder A. Z., Dean J., Henzinger M. R. A Comparison of Techniques to Find Mirrored Hosts on the WWW. IEEE Data Engineering Bulletin, 23(4):21−26, 2000.
- Brown E.W. Execution Perfomance Issue in Full-Text Information Retrieval. Dissertation. University of Massachusetts. Departament of Computer Science. February 1996.
- Callan J. Learning while filtering documents. In Proc. of SIGIR'98, pages 224 231, Melbourne, Australia, 1998.
- Chakrabarti S., Berg M., Dom B. Focused Crawling: A New Approach to Topic-Specific Web Resource Discovery. In Proc. of the WWW8, May 1999.
- Chang H., Cohn D., McCallum A. K. Learning to Create Customized Authority Lists. In Proc. of the ICML’OO, pp. 127−134, 2000.
- Cho J., Garcia-Molina H. The Evolution of the Web and Implications for an Incremental Crawler. The VLDB Journal, pp. 200−209, 2000.
- Cho J., Shivakumar N., Garcia-Molina H. Finding replicated Web collections. In Proc. of the SIGMOD’OO, pp. 355−366,2000.
- Cohn D., Chang H. Learning to Probabilistically Identify Authoritative Documents. In Proc. of the ICML’OO, pp. 167−174, 2000.
- Craswell N., Bailey P. Is it fair to evaluate Web systems using TREC ad hoc methods? In Proc. of the SIGIR'99, 1999.
- Craswell N., Hawking D., Robertson S. Effective site finding using link anchor information. In Proc. of the SIGIR'01,2001.
- Cruz I. F., Borisov S., Marks M. A., Webb T. R. Measuring Structural Similarity Among Web Documents: Preliminary Results. In Proc. of the EP'98, pp. 513 524,1998.
- Czumaj A., Finch I., Gasieniec L., Gibbons A., Leng P., Rytter W., Zito M. Efficient Web Searching Using Temporal Factors. In Proc. of the WADS'99, pp. 294−305, 1999.
- Davison В. D. Topical locality in the Web. In Proc. of the SIGIR’OO, pp. 272 279,2000.
- Dean J., Henzinger M. Finding Related Pages in the World Wide Web. In Proc. of the WWW8, 1999.
- Ding L., Shivakumar N. Computing Geographical Scopes of Web Resources. In j Proc. of the VLDB'00, Sep 2000.
- Dreilinger D., Howe A. E. Experiences with Selecting Search Engines Using Metasearch. ACM Transactions on Information Systems, 15(3):195−222,1997.
- Dublin Core Metadata Element Set Reference Description, Version 1.1, 199 907−02. http:/purl.org/dc/documents/proposedrecommendations/pr-dces-19 990 702.html.
- Dumais S. Latent semantic indexing: TREC-3 report. In Proc. of the Third Text ф REtrieval Conference, 1995.
- Edwards J., McCurley K., Tomlin J. An adaptive model for optimizing performance of an incremental web crawler. In Proc. of the WWW10, pp. 106 113, May 2001.
- Finkelstein L., Gabrilovich E., Matias Y., Rivlin E., Solan Z., Wolfman G., Ruppin E. Placing search in context: the concept revisited. In Proc. of the1. WWW10, pp. 406−414, 2001.
- Flake G., Lawrence S., Giles C. L. Efficient Identification of Web Communities. In Proc. of the SIGKDD’OO, pp. 150−160, Aug. 2000.
- Foltz P.W. Using latent semantic indexing for information filtering. In ACM Conference on Office Information Systems (COIS), pages 40−47, 1990.
- Gibson D., Kleinberg J. M., Raghavan P. Inferring web communities from link topology. In Proc. of the UK Conference on Hypertext, pp. 225−234, 1998.
- Gravano L. Querying Multiple Document Collections Accross the Internet. PhD thesis, Stanford University, Aug 1997.
- Gruber T. A translation approach to portable ontology specifications. Knowledge Acquisition, 5(2), 1993, pp. 199−220.
- Harman D. Latent semantic indexing (LSI) and TREC-2. In Proc. of the Second Text REtrieval Conference, 1994.
- Hatano K., Sano R., Duan Y., Tanaka K. An Interactive Classification of Web Documents by Self-Organizing Maps and Search Engines. In Proc. of the DASFAA'99, pp. 35−42, 1999.
- Hatzivassiloglou V., Gravano L., and Maganti A. An investigation of linguistic features and clustering algorithms for topical document clustering. In Proc. of the SIGIR'2000,2000.
- Haveliwala T. Efficient computation of PageRank. Technical report, Stanford Database Group, Oct. 1999.
- Hawking D., Craswell N. Which Search Engine is best at finding Online Services? In Proc. of the WWW10, 2001.
- Hawking D., Craswell N., Bailey P., Griffiths K. Measuring Search Engine Quality. Information Retieval, 4(l):33−59, 2001.
- Hawking D., Craswell N., Thistlewaite P. В., Harman D. Results and Challenges in Web Search Evaluation. In Proc. of the WWW8, pp. 243−252, 1999.
- Henzinger M., Heydon A., Mitzenmacher M., Najork M. Measuring Index Quality Using Random Walks on the Web. In Proc. of the WWW8, 1999.
- Henzinger M., Heydon A., Mitzenmacher M., Najork M. On Near-Uniform URL Sampling. In Proc. of the WWW9,2000.
- Heydon A., Najork M. Mercator: A Scalable, Extensible Web Crawler. World Wide Web, 2(4):219−229, 1999.
- Hirai J., Raghavan S., Garcia-Molina H., Paepcke A. WebBase: A repository of web pages. In Proc. of the WWW9, 1999.
- Howe A. E., Dreilinger D. SawySearch: A Metasearch Engine That Learns Which Search Engines to Query. AI Magazine, 18(2): 19−25, 1997.
- Huang L., Hemmje M., Neuhold E. J. ADMIRE: An Adaptive Data Model for Meta Search Engines. In Proc. of the WWW9, pp. 165−174, 2000.
- Ipeirotis P., Gravano L., Sahami M. Probe, Count, and Classify: Categorizing Hidden-Web Databases. In Proc. of SIGMOD’Ol, 2001.
- Jansen B. J., Spink A., Saracevic T. The Use of Relevance Feedback on the Web: Implications for Web IR System Design. In Proc. of the WebNet'99, pp. 550−555, 1999.
- Jansen B. J., Spink A., Saracevic T. Real life, real users, and real needs: a study and analysis of user queries on the web. Information Processing and Management, 36(2):207−227,2000.
- Jing Y., Croft W.B. An Association Thesaurus for Informationa Retrieval. Department of Computer Science, University of Massachusetts at Amherst, 1994.
- Kahle B. Preserving the Internet. Scientific American, pp. 82−83, Mar. 1997.
- Kleinberg J. M. Authoritative sources in a hyperlinked environment. Journal of the ACM, 46(5):604−632,1999.
- Landauer Т., Foltz P., and Laham D. An introduction to latent semantic analysis. Discourse Processes, 25:259−284.
- Lawrence S. Context in Web Search. IEEE Data Engineering Bulletin, 23(3):25−32,2000.
- Lawrence S., Bollacker K., Giles C. L. Indexing and Retrieval of Scientific Literature. In Proc of the CIKM'99, pp. 139−146, Nov. 1999.
- Lawrence S., Giles C. L. Inquirus, The NECI Meta Search Engine. In Proc. of the WWW7, pp. 95−105, 1998.
- Lawrence S., Giles C. L. Searching the World Wide Web. Science, 280(4):98−100, 1998.
- Lawrence S., Giles C. L. Searching the Web: General and Scientific Information Access. IEEE Communications, 37(1): 116−122, 1999.
- Lawrence S., Giles C. L. G. Accessibility of information on the web. Nature, 400:107−109,1999.
- Lempel R., Moran S. The stochastic approach for link-structure analysis and the TKC effect. In Proc. of the WWW9, 2000.
- Lifantsev M. Voting Model for Ranking Web Pages. In Proc. of the IC'00, pp. 143−148, 2000.
- Liu K.-L., Meng W., Yu С. Т., Rishe N. R. Discovery of Similarity Computations of Search Engines. In Proc. of the CIKM'00, pp. 290−297,2000.
- Mark M., Cornelis J. v. R. The potential and actual effectiveness of interactive query expansion. In Proc. of the SIGIR'97, pp. 324−332, 1997.
- Maron M.E., Kuhns J.L. On relevance, probabilistic indexing and information retrieval. Jornal of the ACM, No. 7,1960, pp. 216−244.
- McCurley К. S. Geospatial Mapping and Navigation of the Web. In Proc. of the WWW10, 2001.
- Melnik S., Raghavan S., Yang В., Garcia-Molina H. Building a distributed full-text index for the web. In Proc. of the WWW10, pp. 396−405, May 2001.
- Meng W., Liu K.-L., Yu С. Т., Wu W., Naphtali R. Estimating the Usefulness of Search Engines. In Proc. of the ICDE'99, pp. 146−153, 1999.
- Merkl D. A Handbook of Natural Language Processing: Techniques and Applications for the Processing of Language as Text, chapter Text data mining. Marcel Dekker, New York, 1998.
- Najork M., Wiener J. L. Breadth-first search crawler yields high-quality pages. In Proc. of the WWW10, pp. 114−118, May 2001.
- Patel A., Petrosjan L., Rosenstiel W., editors. OASIS: Distributed Search System in the Internet. St. Petersburg State University Published Press, St. Petersburg, 1999.
- Qui Y. and Frei H. Concept based query expansion. In Proc. of the SIGIR'93, pages 160−169, Pitsburgh, USA, 1993.
- Raghavan S., Garcia-Molina H. Crawling the hidden web. In Proc. of the VLDB'01, Sept. 2001.
- Salton G., Buckley C. Term-weighting approaches in automatic text retrieval. Information Processing and Management, 24:513−523, 1988.
- Salton G., McGill M. J. Introduction to modern Information Retrieval. McGraw-Hill Computer Science Series. McGraw-Hill, New York, 1983.
- Salton G., Allan J., and Singhal A. Automatic text decomposition and structuring. Information Processing & Management, 32(2): 127−138,1996.
- Salton G., Singhal A., Mitra M., and Buckley C. Automatic text decomposition and summarization. Information Processing & Management, 33(2): 193−208, 1997.
- Salton G., Fox E., and Wu H. Extended Boolean information retrieval. Communications of the ACM, Vol. 26, No. 4, December 2001, pp. 35−43.
- Shivakumar N., Garcia-Molina H. Finding Near-Replicas of Documents on the Web. In Proc. of the WebDB'99, 1999.
- Singhal A. Modern Information Retrieval: A Brief Overview. Data Enginering Bulletin, IEEE Computer Society, Vol. 24, No. 4, December 2001, pp. 35−43.
- Singhal A., Kaszkiel M. A case study in web search using TREC algorithms. In Proc. of the WWW10, pp. 708−716, 2001.
- Singhal A., Mitra M., and Buckley C. Learning routing queries in a query zone. In Proc. of the SIGIR'97, pages 25−32, July 1997.
- Stata R., Bharat K., and Maghoul F. The term vector database: fast access to indexing terms for web pages. In Proc. of the WWW-9, May 2000.
- Stephen D., Ravi K., Kevin M., Sridhar R., Sivakumar D., Andrew T. Self-similarity in the Web. In Proc. of the VLDB'01, Sept. 2001.
- Stephen B. Hunter-Gatherer: Applying Constraint Satisfaction, Branch-and-Bound and Solution Synthesis to Natural Language Semantics NMSU CRL Technical Report. MCCS-96−292.
- Tajima K., Hatano K., Matsukura Т., Sano R., Tanaka K. Discovery and Retrieval of Logical Information Units in Web. In Proc. of the WOWS'99, Aug. 1999.
- Tajima K., Mizuuchi Y., Kitagawa M., Tanaka K. Cut as a Querying Unit for WWW, Netnews, and E-mail. In Proc. of Hypertextr98, pp. 235−244, June 1998.
- The 25th ACM SIGIR 2002 Conference, 11−15 August 2002, Tampere, Finland. http://www.sigir2002.org/html/aresofinterest.htm.
- Turtle H. R. Inference Networks for Document Retrieval. Dissertation. University of Massachusetts. Department of Computer and Information Science. February 1991.
- Voorhees E., Harman D. Overview of the ninth text retrieval conference. In Proc. of the TREC9, pp. 1−15,2000.
- Yang Y., Pederson J. Feature selection in statistical learning of text categorization. In Proc. of the ICML'97, pages 412−420, 1997.
- Zeinalipour-Yazti D., Dikaiakos M. High-Performance Crawling and Filtering in Java. In Proc. of the 8th Panhellenic Conference on Informatics, volume 2, pp. 377−386, Nov. 2001.
- Zhang D., Dong Y. An efficient algorithm to rank web resources. In Proc. of the WWW9, pp. 449−455,2000.
- Zhu X., Gauch S. Incorporating quality metrics in centralized/distributed information retrieval on the World Wide Web. In Proc. of the SIGIR'00, pp. 288 295,2000.
- Zonghuan W., Weiyi M., Clement Y., Zhuogang L. Towards a highly-scalable and effective metasearch engine. In Proc. of the WWW10,2001.