Разработка и исследование модели нейросетевого метода анализа текстовых документов
Диссертация
Задача анализа текстовых документов ориентирована на извлечение знаний и является в настоящее время актуальной проблемой, затрагивающей различные сферы человеческой деятельности, поскольку ее решение позволит полностью автоматизировать процесс обработки, классификации и систематизации информационного ресурса. Процесс аналитической обработки текстов требует создания принципиально новых моделей… Читать ещё >
Содержание
- СПИСОК СОКРАЩЕНИЙ
- 1. МЕТОДЫ АНАЛИЗА ТЕКСТОВЫХ ДОКУМЕНТОВ
- 1. 1. Функциональный и прагматический анализ текстовых документов
- 1. 2. Информационное пространство
- 1. 3. Многоаспектность анализа текстовых документов
- 1. 4. Традиционный и формализованный методы анализ документов
- 1. 5. Численные методы формализованного анализа
- 1. 6. Нейроинформационный подход в анализе текста
- Выводы по разделу
- 2. МОДЕЛЬ НЕЙРОСЕТЕВОГО МЕТОДА АНАЛИЗА ТЕКСТОВЫХ ДОКУМЕНТОВ
- 2. 1. Структура модели
- 2. 2. Модели позиционирования и анализа текста
- 2. 3. Формализация задачи
- 2. 4. Модели представления документа
- 2. 5. Морфологический анализ
- 2. 6. Сокращение пространства признаков
- 2. 7. Нейросетевая модель анализатора
- 2. 8. Верификация метода анализа
- Выводы по разделу
- 3. МОДЕЛЬ И АЛГОРИТМЫ АНАЛИТИЧЕСКОГО БЛОКА
- 3. 1. Информационно-аналитическая система «NeuroText»
- 3. 2. Формирование информационных образов
- 3. 3. Нейросетевой анализатор
- 3. 4. Формирование логического суждения
- 3. 5. Модель представления знаний
- Выводы по разделу
- 4. ЭКСПЕРИМЕНТАЛЬНАЯ ПРОВЕРКА МОДЕЛИ НЕЙРОСЕТЕВОГО МЕТОДА
- 4. 1. Исследование предлагаемой модели на основе испытаний ИАС «NeuroText»
- 4. 2. Определение тематической близости между документами
- 4. 3. Определение тематической линии документа
- 4. 4. Формирование тематических кластеров на коллекции документов
- 4. 5. Формирование компактного кластера
- 4. 6. Определение значимых признаков документов
- 4. 7. Формирование образа кластеров
- 4. 8. Формирование онтологии предметной области
- Выводы по разделу
Список литературы
- Автоматическая классификация текстовых документов с использованием нейросетевых алгоритмов и семантического анализа. Андреев A.M. и др. Тез. докл. RCDL '2003. Москва, 2003.
- Автоматное программирование: анализ задачи Электронный ресурс. 2009. Режим доступа: http://www.intuit.rU/department/se/progstyles/9/, свободный.
- Алгоритм выделения псевдооснов Мартина Портера. Электронный ресурс. Режим доступа: http://snowball.sourceforge.net, свободный.
- Андреев А.Б., Усачев Ю. Е. Разработка интеллектуальных средств обучения. // Материалы Всероссийской научно-методической конференции «Телематика 2002». СПб, 2002.
- Архипенков С. Я., Голубев Д. В., Максименко О. Б. Хранилища данных. М.: Диалог-МИФИ, 2002. 528 с.
- Атанов Г. А., Пустынникова И. Н. Обучение и искусственный интеллект или Основы современной дидактики высшей школы. Донецк: Изд-во ДОУ, 2002. 504 с.
- Базы данных в Delphi7. Самоучитель / В. Понамарев. СПб.: Питер, 2003. 224 с.
- Бисималиева М.К. О понятиях «текст» и «дискурс» // Филологические науки. 1999. № 2. С. 78−85.
- Бобровский С. Delphi7. Учебный курс. СПб.: Питер, 2004. 736 с.
- Браславский П.И., СоколовЕ.А. Автоматическое извлечение терминологии с использованием поисковых машин Интернета // Компьютерная лингвистика и интеллектуальные технологии: Труды международной конференции «Диалог 2007». М.: Изд-во РГГУ, 2007. 658 с.
- Вагин В.Н. Достоверный и правдоподобный вывод в интеллектуальных системах / под ред. В. Н. Вагина, Д. А. Поспелова. М.: Физматлит, 2004. 704 с.
- Валгина Н.С. Теория текста: Учебное пособие. М.: ЛОГОС, 2003.280с.
- Варламов О.О. Эволюционные БД и БЗ для адаптивного синтеза интеллектуальных систем. Миварное информационное пространство. М.: Радио и связь, 2002. 286 с.
- Величковский Б. М. Когнитивная наука. Основы психологии познания. В 2-х томах. М.: Юта, 2006.
- Винер Н. Кибернетика или управление и связь в животном или машине. М.: Советское радио, 1968. 325 с.
- Волкова Л.А., Решетникова Е. Р. Технология обработки текстовой информации. Часть I. Основы технологии издательских и наборных процессов. Издание второе, исправленное и дополненное: Учебное пособие. М.: Изд-во МГУП, 2002. 306 с.
- Гаврилова Т.А., Хорошевский В. Ф. Базы знаний интеллектуальных систем: Учебное пособие для вузов. СПб.: Питер, 2000.
- Гаврилова Т.А., Червинская К. Р. Извлечение и структурирование знаний для экспертных систем. М.: Радио и связь, 1992.
- Герасимов Б.М., Тарасов В. А., Токарев И. В. Человеко-машинные системы принятия решения с элементами искусственного интеллекта. АН Украины. Институт кибернетики им. В. М. Глушкова. К.: Наук. Думка, 1993. 183 с.
- Горбань А.Н., Россиев Д. А. Нейронные сети на персональном компьютере. Н. Наука, 1996. С. 276.
- Горелов И.Н. Разговор с компьютером: психолингвистический аспект проблемы. С послесловием Д. А. Поспелова. М.: Науку. Гл.ред.физ.-мат.лит., 1987. 256 с.
- Гришина О. В. Сравнительный анализ методов описания языка // Интеллектуальные технологии и системы. М.: МГТУ им. Н. Э. Баумана, 1998.
- Грязнов А.Ф. Аналитическая философия: избранные тексты. М., Изд-во МГУ, 1993.
- Губин М.В. Модели и методы представления текстового документа в системах информационного поиска / Губин М. В. // Научно-техническая информация. Сер. 1. 2004. № 12. С. 12−24.
- Губин М.В. Электронная бибилиотека многоверсионных текстовых документов. / Труды RCDL-2004, 2004. С. 169−174.
- Денинг В., Эссинг Г., Маас С. Диалоговые системы «человек-ЭВМ». Адаптация к требованиям пользователя: Пер. с англ. М: Мир, 1984. 112 с.
- Дридзе Т.М. Язык и социальная психология. Изд.2 дополненное. М.: КД Либроком, 2009. 224 с.
- Дубинский А.Г. Некоторые вопросы применения векторной модели представления документов в информационном поиске // Управляющие системы и машины. 2001. № 4. С. 77−83.
- Дунин-Барковский В. J1. Нейрокибернетика, Нейроинформатика, Нейрокомпьютеры, В кн.: Нейроинформатика / А. Н. Горбань, В. JI. Дунин-Барковский, А. Н. Кирдин и др. — Новосибирск: Наука. Сибирское предприятие РАН, 1998. 296 с.
- Ермаков А.Е., Плешко В. В. Синтаксический разбор в системах статистического анализа текста. // Информационные технологии. 2002. N7.
- Искусственный интеллект: В 3-х кн. Кн. 1. Модели и методы: Справочник / под ред. Д. А. Поспелова. М.: Радио и связь, 1990. 368 с.
- Искусственный интеллект: В 3-х кн. Кн. 2. Модели и методы: Справочник / под ред. Д. А. Поспелова.- М.: Радио и связь, 1990. 304 с.
- Карнап Р. Преодоление метафизики логическим анализом языка. — В кн.: Грязнов А. Ф. Аналитическая философия: становление и развитие. М., ДИК — «Прогресс-Традиция», 1998.
- Карнап Р., Ган Г., Нейрат О. Научное миропонимание — Венский кружок // Логос, 2005, № 2.
- Карнап Р. Эмпиризм, семантика и онтология // Карнап Р. Значение и необходимость. М.: ЛКИ, 2007.
- Кириченко К. М, Герасимов М. Б. Обзор методов кластеризации текстовой информации Электронный ресурс., 2001. Режим доступа: http://www.dialog-21 .ru/Archive/200 l/volume2/226.htm, свободный.
- Классификация веб-страниц на основе алгоритмов машинного обучения Электронный ресурс. / П. В. Борисова [и др.]. Режим доступа: http://company.yandex.ru/grant/2005/08Petrov103106.pdf, свободный.
- Колмогоров А. Н., Фомин С. В. Элементы теории функций и функционального анализа, 5-ое изд. М.: Наука, 1981. 544 с.
- Колобкова О.В. Частотные исследования Словаря русского языка XI—XVII вв.. // Интеллектуальные технологии и системы. Выпуск 6. М.: Изд-во ООО «Эклис+», 2004. С. 143−150.
- Круглов В.В., Борисов В. В. Искусственные нейронные сети. Теория и практика. М.: Горячая линия — Телеком, 2001.
- Кузин J1.T. Основы кибернетики. М.: 1979.
- Кузнецов И.П. «Семантические представления», М.: Наука, 1986.
- Кураленок И.Е. Метод предварительной оценки эффективности семантических методов обработки текстовой информации Электронный ресурс. 2001. Режим доступа: http://www.rcdl2001.krc.karelia.ru/papers/papers/kuralenok/kuralenokpaper.rtf, свободный.
- Леонтьев А.Н. Деятельность. Сознание. Личность / Избранные психологические произведения. В 2-х т. Т.2. М. Педагогика. 1983.
- Леонтьева Н.Н. К теории автоматического понимания естественных текстов. 4.2: Семантические словари: состав, структура, методика создания М.: Изд-во МГУ, 2001
- Леонтьева Н.Н. К теории автоматического понимания естественных текстов. Ч. З: Семантический компонент. Локальный семантический анализ. М.: Изд-во МГУ, 2002
- Лидовский В. Первичная машинная обработка текста: методика и проблематика. 1997.
- Линдсей П. Норман Д. Переработка информации у человека. Пер. с анг. М.: Мир., 1974.
- Лурия А. Р. Язык и сознание. / Под редакцией Е. Д. Хомской. М: Изд-во Моск. ун-та, 1979. 320 с.
- Лурия А.Р. Основы нейропсихологии М.: МГУ, 1973. 374 с.
- Люгер, Джордж Ф. Искусственный интеллект: стратегии и методы решения сложных проблем, 4-е издание / Люгер, Джордж Ф. Пер. с англ. М.: Издательский дом Вильяме, 2003. 864 с.
- Мамардашвили М.К., Пятигорский A.M. Символ и сознание. / Под общей редакцией Ю. П. Сенокосова М.: Школа «Языки русской культуры», 1997.
- Минский М. Фреймы для представления знаний: Пер. с англ. М.: Энергия, 1979. 152 с.
- Модели и методы автоматической классификации текстовых документов / Андреев A.M., и др. // Вестн. МГТУ. Сер. Приборостроение. М.:Изд-воМГТУ. 2003. № 3.
- Найссер У. Познание и реальность. Пер. с англ. М.: Прогресс., 1981. 232 с.
- Некипелов Н., Шахиди А. Онтология анализа данных. Электронный ресурс. Режим доступа: http://www.basegroup.ru/library/methodology/ontology/, свободный.
- Некрестьянов И.С. Тематико-ориентированные методы информационного поиска: Диссертационная работа к.т.н.: 05.13.11 / Санкт-Петербургский государственный университет СПб., 2000. 80 с.
- Некрестьянов И.С., Добрынин В. Ю., Клюев В. В. Оценка тематического подобия текстовых документов // Труды второй всероссийской научной конференции «Электронные библиотеки». Протвино, 2000. С. 204−210.
- ГТескова О. В. Методы автоматической классификации электронных текстовых документов без обучения / О. В. Пескова // Научно-техническая информация. Сер. 2. 2006. № 12. С. 21−32.
- Прикладная статистика: Исследование зависимостей: Справ, изд. / Под. ред. С. А. Айвазяна. — М.: Финансы и статистика, 1985. с. 487с.
- Прикладная статистика: Классификация и снижение размерности: Справ, изд. / Под. ред. С. А. Айвазяна. М.: Финансы и статистика, 1989. 607 с.
- Пупков К.А., Коньков В. Г. Интеллектуальные системы. М.: Изд-во МГТУ им. Баумана, 2003. 348 с.
- Рабинович Б.И. Аналитическая система обработки и управления структурированной информацией // Интеллектуальные технологии и система. Вып. 5. М.: ООО «Эликс+», 2003. с. 284−296.
- Ракитов А.И. Информация и наука, технология в глобальных исторических измерениях. М.: ИНИОН РАН, 1998. 104 с.
- Рубашкин В.Ш. Представление и анализ смысла в интеллектуальных информационных системах. М.: Наука, 1989.
- Семенова С.Ю. Поиск параметрической информации в тексте: алгоритмический и лексикографический аспекты // Труды Международного семинара Диалог'96 по компьютерной лингвистике и приложениям. М., 1996. С. 227−230.
- Солтон Дж. Динамические библиотечно-поисковые системы. М.: Мир, 1979.
- Стариков А. Самоорганизующиеся карты. Электронный ресурс. 2000. — Режим доступа: http://www.basegroup.ru/library/analysis/clusterization/som/, свободный.
- Страбыкин Д.А. Логический вывод в системах обработки знаний / Страбыкин Д.А.- под ред. Д. В. Пузанкова- СПбГЭТУ. СПб., 1998. 164 с.
- Тейз А., Грибомон П., Юлен Г. и др. Логический подход к искусственному интеллекту. От модальной логики к логике баз данных: Пер. с франц. М.: Мир, 1998.
- Тоффлер О. Третья волна. М.: ACT, 1999. 360 с.
- Уидроу Б., Стирнз С. Адаптивная обработка сигналов. М.: Мир, 1989. 440 с.
- Ульман Дж. Основы систем баз данных. М.: Финансы и статистика, 1987. 334 с.
- Уэно X., Кояма Т., Окамото Т. и др. Представление и использование знаний: Пер. с япон. М.: Мир, 1989.
- Филиппович Ю.Н. Лекции по курсу «Семиотика информационных технологий». МГТУ, 2004.
- Филиппович Ю.Н., Прохоров А. В. Семантика информационных технологий: Опыты словарно-тезаурурусного описания. С предисловием А. И. Новикова. М.: МГУП, 2002. 306 с.
- Цикридис Д. Модели данных. — М.: Финансы и статистика, 1987.344 с.
- Цыганов И. Г. Нейросетевые методы автоматизированного анализа информационных потоков в масштабе реального времени // Наукоёмкие технологии и интеллектуальные системы. 2002.
- Чери С. Логическое программирование и базы данных / С. Чери, Г. Готлоб, Л. Танка- Пер. с англ. М.: Мир, 1992. 352 с.
- Чугреев В.Л., Моделирование систем искусственного интеллекта. // Перспективные технологии автоматизации: Тезисы докладов международной электронной научно-технической конференции. Вологда: ВоГТУ, 1999. С. 151−152.
- Шемакин Ю.И. Начала компьютерной лингвистики. М.: Изд.-во МГОУ АО «Роснаука», 1992. 113 с.
- Шеменков П.С. Нейросетевой метод извлечения знаний на основе совместной встречаемости ключевых термов // Т Comm Телекоммуникации и транспорт статья, выпуск № 2, 2009 г. С. 42−43 / (входит в перечень ВАК).
- Шеменков П.С., Макаров JI.M. Алгоритм обучения экспертной системы знаний на основе векторного представления полнотекстовых документов // Третий международный научный конгресс «Нейробиотелеком-2008» / СПбГУТ СПб, 2008. С. Ill -115
- Шеменков П.С., Макаров JI.M. Векторная модель представления полнотекстовых документов //61-я НТК / ГОУВПО СПбГУТ. СПб, 2009. С. 200−202.
- Шеменков П.С., Макаров JT.M. Интеллектуальные базы знаний // 59-я НТК / ГОУВПО СПбГУТ. СПб, 2007. С. 59−61.
- Шеменков П.С., Макаров JI.M. Формирование сетевой интеллектуальной базы знаний // Второй международный научный конгресс «Нейробиоте-леком-2006» / СПбГУТ СПб, 2006. С. 377−380
- Шрамко Я. Очерк истории возникновения и развития аналитической философии // Логос. 2005. № 2. С. 4−12
- Шумский С.А., Яровой А. В., Зорин О. Л., Ассоциативный поиск текстовой информации // Нейроинформатика-99. М.: Изд-во МИФИ, 1999.
- Щавелёв Л.В., Способы аналитической обработки данных для поддержки принятия решений, СУБД 1998.
- Bentivogli L., Pianta Е. Extending WordNet with Syntagmatic Information // Proceedings of International Wordnet Conference (GWC 2004). — 2004. P. 47−53.
- Bezdek J. C., Pal N. R. Some New Indexes of Cluster Validity // IEEE Transactions On Systems, Man And Cybernetics. 1998. Vol. 28, No. 3. P. 301−315.
- Boutin F., Hascoet M. Cluster Validity Indices for Graph Partitioning // Proceedings of the Eight International Conference on Information Visualization (IV'04). IEEE 2004.
- Dummett M. The Seas of Language. Oxford: Clarendon Press, 1993.
- Halkidi M. On Clustering Validation Techniques / M. Halkidi, V. Batis-takis, M. Vazirgiannis // Journal of Intelligent Information Systems, Kluwer Academic Publishers. Manufactured in The Netherlands. 2001. P. 107−145.
- Hebb, D. O. «Organisation of Behavior», pub. John Wiley & Sons, New York 1949.
- Kohonen T. Self organization of a massive document collection // IEEE Transactions on neural networks. 2000. Vol. 11, No. 3. P. 574 585.
- Kohonen T. Self-organized formation of topologically correct feature maps, Biological Cybernetics, Vol. 43, 1982. P. 59−69.
- Maulik U., Bandyopadhyay S. Performance Evaluation of Some Clustering Algorithms and Validity Indices // IEEE Transactions On Pattern Analysis And Machine Intelligence. 2002. Vol. 24, No. 12. P. 1650 1654.
- Pap A. Elements of Analytic Philosophy. N.Y., 1949.
- Parsaye, K., and Chignell M.H.: Intelligent Database Tools and Applications. New York: John Wiley and Sons, 1993.
- Parsaye, K., OLAP and Data Mining: Bridging the Gap. Database Programming & Design, 1997.
- Salton G., Allan J., and Singhal A. Automatic text decomposition and structuring. Information Processing & Management, 32(2): 127−138, 1996.
- Salton G., Buckley C. Term-weighting approaches in automatic text retrieval. Information Processing and Management, 24:513−523, 1988.
- Salton G., Fox E., and Wu H. Extended Boolean information retrieval. Communications of the ACM, Vol. 26, No. 4, December 2001, pp. 35−43.
- Salton G., McGill M. J. Introduction to modern Information Retrieval. McGraw-Hill Computer Science Series. McGraw-Hill, New York, 1983.
- Salton G., Singhal A., Mitra M., and Buckley C. Automatic text decomposition and summarization. Information Processing & Management, 33(2): 193−208, 1997.
- Stein B. On Cluster Validity and the Information Need of Users / B. Stein, S. M. zu Eissen, F. WiBbrock // 3rd IASTED Int. Conference on Artificial Intelligence and Applications: Proceedings of AIA 03. Benalmadena, 2003. P. 216−221.
- Van Rijsbergen C. J. Information retrieval Электронный ресурс., 1979. Режим доступа: http://www.dcs.gla.ac.uk/Keitli/Preface.html, свободный.
- Wasserman P. Neurocomputing. Theory and practice, Nostram Rein-hold, 1990. / Перевод на русский язык, Зуев Ю. А., Точенов В. А. Нейрокомпью-терная техника. М.: Мир, 1992.
- Wentian Li. Random Texts Exhibit Zipf s-Law-Like Word Frequency Distribution / IEEE Transactions on Information Theory. Santa Fe Institute, 1660 Old Pecos Trail, Suite A, Santa Fe, NM 87 501: 1992. B. 38. № 6. C. 1842−1845.
- Yiming Yang, Xin Liu. A Re-Examination of Text Categorization Methods. Тез. докл. 22nd Annual International SIGIR. Berkley, 1999 .145