Разработка метода автоматического формирования рубрикатора полнотекстовых документов
Диссертация
В данной работе сформулирован и реализован подход к решению tr проблемы поиска информации, основанный на алгоритме кластеризации, который способен анализировать произвольную коллекцию полнотекстовых документов и автоматически формировать для неё рубрикатор. Созданный метод, алгоритмы и программное обеспечение предоставляют пользователю поисковое средство, информирующее его о тематической… Читать ещё >
Содержание
- 1. Методы автоматической кластеризации и формирования информационно-поисковых образов полнотекстовых документов
- 1. 1. Задача автоматической кластеризации полнотекстовых документов
- 1. 2. Обзор методов автоматической кластеризации полнотекстовых документов
- 1. 3. Оценка качества автоматической кластеризации полнотекстовых документов
- 1. 4. Задача формирования информационно-поисковых образов полнотекстовых документов
- 1. 5. Статистические алгоритмы формирования информационно-поисковых образов полнотекстовых документов
- Выводы по разделу
- 2. Метод автоматического формирования рубрикатора полнотекстовых документов
- 2. 1. Формирование информационно-поисковых образов документов
- 2. 2. Кластеризация информационно-поисковых образов документов
- 2. 3. Преобразование множества кластеров в рубрикатор коллекции полнотекстовых документов
- 2. 4. Оценка алгоритма кластеризации коллекции документов
- Выводы по разделу
- 3. Программная реализация метода автоматического формирования рубрикатора документов и его исследования
- 3. 1. Структура программного комплекса
- 3. 2. Исследование предлагаемого метода на основе испытаний программной системы
- 3. 3. Оценка эмпирических значений параметров формирования информационно-поисковых образов и их влияния на алгоритм кластеризации
- 3. 4. Исследование процесса формирования вербальных описаний кластеров коллекции документов
- 3. 5. Испытание способа формирования образов документов с применением предложенного алгоритма редукции пространства признаков
- 3. 6. Испытание модифицированного алгоритма послойной кластеризации с оценкой эмпирических значений его входных параметров
- 3. 7. Выводы по разделу
- 4. Испытание системы автоматического формирования рубрикатора полнотекстовых документов
- 4. 1. Описание тестовой коллекции текстов
- 4. 2. Испытание предлагаемого метода автоматического формирования рубрикатора коллекции полнотекстовых документов
- Выводы
Список литературы
- Автоматизированная библиотечно-информационная система технического университета / А. Е. Шиваров, Г. В. Абрамов, О. В. Пескова, Н. А. Белостоцкий // Вестник МГТУ им. Н. Э. Баумана. Приборостроение. -2007,-№ 4.-С. 21−32.
- Авторефераты диссертаций. [Электронный ресурс] / Казанский государственный технический университет им. А. Н. Туполева. Электрон, дан. — Казань. — Режим доступа: http://www.kstu-kai.ru/science/dissertations/, свободный.
- Авторефераты диссертаций. [Электронный ресурс] / Санкт-Петербургский государственный горный институт. Электрон, дан. — Спб. -Режим доступа: http://www.spmi.ru/skeleton/l/912, свободный.
- Авторефераты диссертаций. [Электронный ресурс] / Санкт-Петербургского университета телекоммуникаций им. проф. А. М. Бонч-Бруевича. Электрон. дан. — СПб. — Режим доступа: http://www.sut.ru/science/dissertationboard/dissertationboard.html, свободный.
- Авторефераты диссертаций. [Электронный ресурс] /Московский государственный технологический универсистет СТАНКИН. Электрон. дан. — М. — Режим доступа: http://www.stankin.ru/sciense/kandiddis.html, свободный.
- Авторефераты диссертаций. [Электронный ресурс] / Тульский государственный универсистет. Электрон, дан. — Тула. — Режим доступа: http://www.tsu.tula.ru/disser/index.php?pageno=7&all=10&archive=l, свободный.
- Авторефераты диссертаций. [Электронный ресурс] /Московский авиационный институт. Электрон, дан. — М. — Режимдоступа: http://www.mai.ru/science/thesis.htm, свободный.
- Авторефераты диссертаций. [Электронный ресурс] / Уфимский государственный авиационный технический университет. Электрон, дан. — Уфа. — Режим доступа: http://www.ugatu.ac.ru/science/dissov/kl/05.13 Л 1/index.php, свободный.
- Агеев М.С. Официальные метрики РОМИП'2004 / М. С. Агеев, И. Е Кураленок // Российский семинар по Оценке Методов Информационного Поиска (РОМИП 2004) Пущино, 2004.
- Алгоритм выделения псевдооснов Мартина Портера. [Электронный ресурс]. Электрон. дан. — Режим доступа: г http://snowball.sourceforge.net, свободный.
- Банк данных ВИНИТИ: состояние и перспективы развития / Ю. М. Арский, Т. М. Леонтьева, И. Ю. Никольская, А. Н. Шогин. -Москва, 2006.-241 с.
- Браславский П. И. Автоматические операции с запросами к машинам поиска интернета на основе тезауруса: подходы и оценки Электронный ресурс. Электрон, текст, дан. — Режим доступа: http://www.dialog-21.ru/Archive/2004/Braslavskij.htm, свободный.
- Воройский Ф.С. Основы проектирования автоматизирования библиотечно-информационных систем: Монография. М.: Физматлит, 2002. — 384 с.
- Григорьев А.Н. Многоуровневый классификатор-навигатор по откликам информационно-поисковой системы / А. Н. Григорьев,
- Д. В. Ландэ // Компьютерная лингвистика и интеллектуальные технологии: труды международной конференции Диалог'2006 М.: Наука, 2006. — С. 329−331.
- Государственный рубрикатор научно-технической информации / Всерос. ин-т науч. и техн. информации. 5-е изд. — М.: ВИНИТИ, 2001. -391 с.
- Губин М. В. Модели и методы представления текстового документа в системах информационного поиска / М. В. Губин // Научно-техническая информация. Сер. 1. 2004. — № 12. — С. 12−24.
- Губин М. Исследование качества информационного поиска с использованием пар слов / М. В. Губин // Научно-техническая информация. Сер.2. 2005. — № 2. — С. 13−16.
- Гусарова JI. Проверка обоснованности кластерного решения / JI. Гусарова, И. Яцкив // Reliability and statistics in transportation' and communication (RelStat'03). Рига, 2004. — Т. 5, № 2. — C.49−56.
- Гусев В.Д. Алгоритм выявления устойчивых словосочетаний с учетом их вариативности (морфологической и комбинаторной) / В. Д. Гусев, Н. В. Саломатина // Труды международной конференции Диалог'2004. М.: Наука, 2004. — С. 530−535.
- Джонс М. Т. Программирование искусственного интеллекта в приложениях / М. Тим Джонс- Пер. с англ. Осипов А. И. М.: ДМК Пресс, 2004.-312 е.: ил.
- Дрейпер Н., Смит Г. Прикладной регрессионный анализ: В 2-х кн. / Пер. с англ. 2-е изд., перераб. и доп. — М.: Финансы и статистика, 1986 — Кн. 1. — 366с., ил. (Математико-статистические методы за рубежом).
- Дубров А. М. Обработка статистических данных методом главных компонент. -М.: Статистика, 1978. 135 е.: ил.
- Елисеева И. И., Рукавишников В. О. Группировка, корреляция, распознавание образов (Статистические методы классификации и измерения связей). -М.: Статистика, 1977. 144 е.: ил.
- Кириченко К. М Обзор методов кластеризации текстовой информации Электронный ресурс. / К. М. Кириченко, М. Б. Герасимов-Электрон. текст, дан. 2001. — Режим доступа: http://www.dialog-21.ru/Archive/2001/volume2/226.htm, свободный.
- Коваленко А. Вероятностный морфологический анализатор русского и украинского языков Электронный ресурс. / А. Коваленко.
- Электрон. текст. дан. — Режим доступа: http://linguist.nm.ru/stemka/stemka.html, свободный.
- Максаков А. Оценка эффективности масштабируемых алгоритмов классификации текстов / А. Максаков // Труды четвертого российского семинара РОМИП'2006. Пущино, 2006. — С. 92−100.
- Математическая статистика: Учеб. для вузов / В. Б. Горяинов, И. В. Павлов, Г. М. Цветкова и др.- Под ред. С. В. Зарубина, А. П. Крищенко. -2-е издание, стереотип. М.: Изд-во МГТУ им. Н. Э. Баумана, 2002. — 424 с.
- И. С. Некрестьянов Тематико-ориентированные методы информационного поиска: Дис.. канд. физ.-мат. наук: 05.13.11. СПб. -2000.
- Открытая Русская Электронная Библиотека Электронный ресурс. Электрон, дан. — М.: Рос. гос. б-ка, 1999-. — Режим доступа: http://orel.rsl.ru, свободный.
- Открытые системы Электронный ресурс.: многопредмет. науч. журн. Электрон, журн. — М. — Режим доступа: http://www.osp.ru/os/, свободный.
- Пескова О. В. Автоматизация работы- с классификаторами документов библиотеки МГТУ им. Н. Э. Баумана / Or В. Пескова // Культура народов Причерноморья. 2004. — Т. 2, № 48. — С. 38−41.
- Пескова О. В. Методы автоматической классификации текстовых электронных документов / О. В. Пескова // Научно-техническая информация. Сер. 2. 2006. — № 3. — С. 13−20.
- Пескова О. В. Методы автоматической классификации электронных текстовых документов без обучения7 О. В. Пескова // Научно-техническая информация. Сер. 2. 2006. — № 12. — С. 21−32.
- Пескова О. В. Автоматическое формирование рубрикатора полнотекстовых документов / О. В. Пескова // НТИ-2007: Материалы 7-ой международной конференции. Москва, 2007. — С. 241−242.
- Прикладная статистика: Исследование зависимостей: Справ, изд. / С. А. Айвазян, И. С. Енюков, Л. Д. Мешалкин- Под. ред. С. А. Айвазяна. М.: Финансы и статистика, 1985. — 487с.: ил.
- Прикладная статистика: Классификация и снижение размерности: Справ, изд. / С. А. Айвазян, В. М. Бухштабер, И. С. Енюков, Л. Д. Мешалкин- Под. ред. С. А. Айвазяна. М.: Финансы и статистика, 1989. -607с.: ил.
- Просиз Дж. Программирование для Microsoft .NET: Пер. с 'англ. -М.: Издательско-торговый дом «Русская редакция», 2003. 704 е.: ил.
- Российская государственная библиотека Электронный ресурс. / Центр информ. технологий РГБ — ред. Власенко Т. В. — Web-мастер Козлова Н. В. Электрон, дан. — М.: Рос. гос. б-ка, 1997 —. — Режим доступа: http://www.rsl.ru, свободный.
- Российский семинар по Оценке Методов Информационного поиска. Труды второго российского семинара РОМИП'2004. Пущино, 2004.-214с.
- Свидетельство об официальной регистрации программы для ЭВМ № 2 007 610 196. Автоматизированная библиотечно-информационная система «Яуза» / А. Е. Шиваров, Г. В. Абрамов, Н. А. Белостоцкий, О. В. Пескова. Москва, 2007. — 1с.
- Свидетельство об официальной регистрации программы для
- ЭВМ № 2 007 614 766. Информационная система автоматического формирования рубрикатора коллекции полнотекстовых документов «Авторубрикатор» / О. В. Пескова- Москва, 2007. 1с.
- Солтон Дж. Динамические библиотечно-информационные системы. Пер. с англ. — М.: Мир, 1979. — 558 с.
- Справочник по вычислительным методам статистики / Пер. с англ. В. С. Занадворова- Под. ред. и с предисл. Е. М. Четыркина. М.: Финансы и статистика, 1982 — 344 е., ил.
- Стариков А. Самоорганизующиеся карты Электронный ресурс. Электрон. текст. дан. — 2000. — Режим доступа: http://www.basegroup.ru/neural/som.htm, свободный.
- Сукиасян Э.Р. Новые таблицы Библиотечно-библиографической классификации. Организация и технология использования. Методические рекомендации. М.: Либерея, 2005. — 96 с.
- Универсальная десятичная классификация. УДК: сокр. изд. М.: ВИНИТИ РАН, 2006. — 148 с.
- Шабанов В.И. Модели и методы автоматической классификациитекстовых документов: Дис.. канд. техн. наук: 05.13.11. М., 2003. — 227с.
- Шрайберг Я. Л Современные тенденции развития библиотечно-информационных технологий // Крым-2001: Междунар. конф. Судак, 2001. -Т. 1.-С. 9−12.
- Шрайберг Я.Л., Воройский Ф. С. Автоматизированныебиблиотечно-информационные системы России: состояние, выбор, внедрение, развитие. М.: Либерея, 1996. — 271 с.
- Штовба С. Д. Введение в теорию нечетких множеств и нечеткую логику Электронный ресурс. — Электрон, текст, дан. Режим доступа: http://matlab.exponenta.ru/fuzzylogic/bookl/index.php, свободный.
- Электронная библиотека «Наука и техника» Электронный ресурс. Электрон, дан. — Режим доступа: http://n-t.ru, свободный.
- Aizawa A. Linguistic Techniques to Improve the Performance of Automatic Text Categorization Electronic resource. 2001. — Electronic text and graphic data. — Access — mode: research.nii.ac.jp/~akiko/papers/NLPRS2001Aizawa.pdf.
- Apte C., Weiss S.M. Data Mining with Decision Trees and Decision Rules Electronic resource. 1997. — Electronic text and graphic data. — Access mode: citeseer.ist.psu.edu/apte97data.html.
- Bekkerman R., Allan J. Using Bigrams in Text Categorization Electronic resource. 2003. — Electronic text and graphic data. — Access mode: www.cs.umass.edu/~ronb/papers/bigrams.pdf.
- Berger A. L. A Maximum Entropy Approach to Natural Language Processing / A. L. Berger, S. A. Delia Pietra, V. J. Delia Pietra // Computational Linguistics. 1996. — Vol. 22, Num. 1 — P. 39−71.
- Wall M. E. Singular value decomposition and principal component analysis / M. E. Wall, A. Rechtsteiner, L. M. Rocha // A Practical Approach to Microarray Data Analysis. Kluwer, 2003. — P. 91−109.
- Bezdek J. С., Pal N. R. Some New Indexes of Cluster Validity //IEEE Transactions On Systems, Man And Cybernetics. 1998. — Vol. 28, No. 3.-P. 301−315.
- Boutin F., Hascoet M. Cluster Validity Indices for Graph Partitioning // Proceedings of the Eight International Conference on Information Visualization (IV'04). IEEE-2004.
- Cristianini N. Latent Semantic Kernels / N. Cristianini, J. Shawe-Taylor, H. Lodhi // Journal of Intelligent Information Systems. 2002. — Vol. 18(2−3).-P. 127−152.
- Dagan I. Mistakedriven learning in text categorization / I. Dagan, Y. Karov, D. Roth // Proceedings of EMNLP-97, 2nd Conference on Empirical Methods in Natural Language Processing. Providence, 1997. — P. 55−63.
- Dempster A. P. Maximum likelihood from incomplete data via the EM algorithm / A. P. Dempster, N. M. Laird, D. B. Rubin // Journal of the Royal Statistical Society. Series В (Methodological). 1977. — Vol.39, No. 1. — P. 1−38.
- Dittenbach M. Uncovering hierarchical structure in data using the growing hierarchical self-organizing map / M. Dittenbach, A. Rauber, D. Merkl //Neurocomputing. 2002. — Vol. 48. — P. 199−216.
- Freeman R. Т., Yin H. Adaptive topological tree structure for document organisation and visualisation // Neural Networks. Elsevier Science Ltd. Vol. 17. — 1255−1271. — 2004.
- Guo D., Berry M. W. Knowledge-Enhanced' Latent Semantic Indexing // Information Retrieval. 2003 — Vol. 6. — P. 225−250.
- Halkidi M. On Clustering Validation Techniques / M. Halkidi, V. Batistakis, M. Vazirgiannis // Journal of Intelligent Information Systems, Kluwer Academic Publishers. Manufactured in The Netherlands. 2001. — 17:2/^3. — P. 107−145.
- Jain A. K. Data Clustering: A Review / A. K. Jain, M. N. Murty, P. J. Flynn // ACM Computing Surveys. 1999. — Vol. 31, No. 3. — P. 264−323.
- Joachims T. Text categorization with support vector machines: learning with many relevant features // In Proceedings of ECML-98, 10th European Conference on Machine Learning. Chemnitz, 1998. — P. 137−142.
- Jones K. S. A Statistical Interpretation of Term Specificity and Its Application in Retrieval // Journal of Documentation. 1972. — № 2(34). — P. 8793.
- Kanade P.M., Hall L. O. Fuzzy Ants as a Clustering Concept // 22nd international conference of the North American fuzzy information processingsociety NAFIPS. Chicago, 2003. — P. 227−232.
- Kaski S. Data exploration using self-organizing maps // Acta Polytechnica Scandinavica, Mathematics, Computing and Management in Engineering Series. 1997. -No.82. — P. 57.
- Kelledy F., Smeaton A.F. Automatic Phrase Recognition and Extraction from Text // Proceedings of the 19th Annual BCS-IRSG Colloquium on IR Research. Aberdeen, 1997. — P. 493 — 496.
- Khan M. S., Khor S. W. Web document clustering1 using a hybrid neural network // Applied Soft Computing. 2004. — Vol. 4. — P. 423−432.
- Ко Y. Improving text categorization using the importance of sentences / Y. Ко, J. Park, J. Seo // Information Processing and Management. -2004.-Vol. 40.-P. 65−79.
- Kohonen T. Self organization of a massive document collection / T. Kohonen, S. Kaski, K. Lagus, J. Salojarvi, J. Honkela, V. Paatero, A. Saarela // IEEE Transactions on neural networks. 2000. — Vol. 11, No. 3. — P. 574 — 585.
- Kuo-Lung W., Miin-Shen Y. A cluster validity index for fuzzy clustering // Pattern Recognition Letters. 2005. — Vol. 26. — P. 1275−1291.
- Kural Y. Deciphering clusters representations / Y. Kural, S. Robertson, S. Jones // Information Processing and Management. 2001. — Vol. 37.-P. 593−601.
- Lam B. S. Y., Yan H. A new cluster validity index for data with merged clusters and different densities // Systems, Man and Cybernetics: IEEE1. ternational Conference. 2005. — Vol. 1. — P. 798−803.
- Lampos C. Archiving the Greek Web / C. Lampos, M. Eirinaki, D. Jevtuchova, M. Vazirgianni // Proceedings of 4th International Web Archiving Workshop (IWAW04). Bath, UK, 2004. — P.
- Landauer Т. K. Introduction to Latent Semantic Analysis /Т.К. Landauer, P. W. Foltz, D. Laham // Discourse Processes. 1998. — Vol. 25.-P. 259−284.
- Lewis D. D. Naive (Bayes) at Forty: The Independence Assumption in Information Retrieval И Lecture Notes In Computer Science: Proceedings of the 10th European Conference on Machine Learning. 1998. — Vol. 1398. — P. 415.
- Liu J., Chua T.-S. Building Semantic Perceptron Net forf-Topic Spotting // Proceedings of the 39th Annual Meeting of the Association for Computational Linguistics. Toulouse, 2001. — P. 434−441.
- Luhn H.P. A statistical approach to mechanized encoding and search of library information // IBM Journal of Research and Development. 1957. -№ 1.-P. 309−317.
- MacQueen J. B. Some Methods for classification and Analysis of Multivariate Observations // Proceedings of 5-th Berkeley Symposium on Mathematical Statistics and Probability. Berkeley, 1967. — Vol. 1. — P. 281−297.
- Manning C. D., Schutze H. Foundations of statistical natural language processing. Cambridge: MIT Press, 1999. — 620 p.
- Massey L. Evaluating quality of text clustering with ART1
- Proceedings of the International Joint Conference on Neural Networks. -Portland, 2003. Vol. 2. — P. 1402−1407.
- Maulik U., Bandyopadhyay S. Performance Evaluation of Some Clustering Algorithms and Validity Indices // IEEE Transactions On Pattern Analysis And Machine Intelligence. 2002. — Vol. 24, No. 12. — P. 1650 — 1654.
- Mendes M.E.S., Sacks L. Dynamic Knowledge Representation for e-Learning Applications // Proc. of the 2001 BISC International Workshop on Fuzzy Logic and the Internet, FLINT'2001. Berkeley, 2001. — P. 176−181.
- Mladenic D., Grobelnik M. Word sequences as features in text learning // Proceedings of the 17th Electrotechnical and Computer Science Conference.-Ljubljana, 1998.-P. 145−148.
- Moyotl-Hernandez E., Jimenez-Salazar H. An Analysis on Frequency of Terms for Text Categorization // Procesamiento del lenguaje natural. 2004. -Vol. 33.-P. 141−146.
- Moyotl-Hernandez E., Jimenez-Salazar H. Some Tests in Text Categorization using Term Selection by DTP // Proceedings of the Fifth Mexican International Conference on Computer Science ENC'04. Colima, 2004. — P. 161−167.
- Ontrup J., Ritter H. Large-scale data exploration with the hierarchically growing hyperbolic SOM // Neural Networks. 2006. — Vol. 19. -P. 751−761.
- Pakhira M. K., Bandyopadhyay S., Maulik U. A study of some fuzzy cluster validity indices, genetic clustering and application to pixel classification
- М. К. Pakhira, S. Bandyopadhyay, U. Maulik // Fuzzy Sets and Systems. -2005. Vol. 155.-P. 191−214.
- Roussinov D., Zhao J. L. Automatic discovery of similarity relationships through Web mining // Decision Support Systems. 2003. — Vol. 35.-P. 149−166.
- Salton G. Term-weighting approaches in automatic text retrieval: Technical Report / G. Salton, C. Buckley New York: Cornell University, 1987. -lip.
- Salton G., Buckley C. Weighting approaches in automatic text retrieval // Information Processing and Management. 1988. — Vol. 24(5). — P. 513−523.
- Sebastiani F. Machine Learning in Automated Text Categorization // ACM Computing Surveys. 2002. — Vol. 34, No. 1. — 47 p.
- Siolas G., d’Alche Buc F. Support vector machines based on semantic kernel for text categorization // International Joint Conference on Neural Networks: Proceedings of IEEE. Istanbul, 2000. — Vol.5. — P. 205−209.
- Sinka M. P., Corneb D. W. The BankSearch web document dataset: investigating unsupervised clustering and category similarity // Journal of Network and Computer Applications. 2004. — Vol. 28. — P. 129−146.
- Stein B. On Cluster Validity and the Information Need of Users / B. Stein, S. M. zu Eissen, F. WiBbrock // 3rd IASTED Int. Conference on Artificial Intelligence and Applications: Proceedings of AIA 03. Benalmadena, 2003.-P. 216−221.
- Tan Ch.-M. The Use of Bigrams to Enhance Text Categorization / Ch.-M. Tan, Y.-F. Wang, Ch.-D. Lee // Information Processing and Management. 2002. — Vol. 38 (4). — P. 529−546.
- Torra V. Exploration of textual document archives using a fuzzy hierarchical clustering algorithm in the GAMBAL system / V. Torra, S. Miyamoto, S. Lanau // Information Processing and Management. 2005. — Vol. 41. -P.587−598.
- Tsekouras G. E. On the use of the weighted fuzzy c-means in’fuzzy modeling // Advances in Engineering Software. 2005. — Vol. 36. — P. 287−300.
- Weigend A. S. Exploiting Hierarchy in Text Categorization // Information Retrieval. 1999. — Vol. 1. — P. 193−216.
- Wiener E. D. A neural network approach to topic spotting / E. D. Wiener, J. O. Pedersen, A. S. Weigend //4th Annual Symposium on Document Analysis and Information Retrieval: Proceedings of SDAIR-95. Las Vegas, 1995.-P. 317−332.
- WordNet Electronic resource. Electronic text data. — Access mode: http://wordnet.princeton.edu.
- Yang Y., Pedersen J. O. A Comparative Study on Feature Selection in Text Categorization // The Fourteenth International Conference on Machine Learning: Proceedings of ICML'97. San Francisco, 1997. — P. 412−420.
- Zamir О. E. Clustering Web Documents: A Phrase-Based Method for
- Grouping Search Engine Results Electronic resource. Electronic text and graphic data. — 1999. — Access mode: http://turing.cs.washington.edu/papers/zamirthesis.pdf.
- Zheng Xiao-Shen Algorithm of documents clustering based on minimum spanning tree / Zheng Xiao-Shen, He Pi-Lian, Tian Mei, Yuan Fu-Yong // International Conference on Machine Learning and Cybernetics. Xi-an, 2003. -Vol. l.-P. 199−203.
- Использование подсистемы позволило повысить качество поисковых средств электронного каталога библиотеки.
- Председатель комиссии: Члены комиссии:
- Агеева Т.И.) (Колобаев Л.И.) (Симончик Л. П.)