Разработка и исследование алгоритмических, программных и архитектурных решений для проектирования систем тематической категоризации Интернет-ресурсов в телекоммуникационных сетях
Диссертация
Российский сегмент сети — один из самых быстроразвивающихся, количество пользователей Интернета в России по различным данным достигает 25 миллионов человек, из них 2 миллиона детей. Обеспечение учебных заведений и публичных библиотек доступом к сети Интернет увеличивает количество учащихся, пользующихся различными сервисами и информационными источниками, предоставляемыми глобальной сетью. Такой… Читать ещё >
Содержание
- ГЛАВА 1. ОБЗОР СОВРЕМЕННЫХ МЕТОДОВ И СРЕДСТВ ТЕМАТИЧЕСКОЙ КАТЕГОРИЗАЦИИ РЕСУРСОВ ИНТЕРНЕТА
- 1. 1. Необходимость создания систем тематического анализа
- 1. 2. Технологии, используемые для автоматического анализа интернетресурсов и управления доступом к ним
- 1. 2. 1. Системы контентной фильтрации
- 1. 2. 2. Программные средства анализа и категоризации текстов
- 1. 3. Модели поиска и методы тематического анализа текстовой информации
- 1. 3. 1. Модели поиска
- 1. 3. 2. Методы тематического анализа
- 1. 4. Выводы и постановка задачи исследования
- ГЛАВА 2. РАЗРАБОТКА АЛГОРИТМИЧЕСКИХ РЕШЕНИЙ ДЛЯ АНАЛИЗА И КАТЕГОРИЗАЦИИ ИНТЕРНЕТ-РЕСУРСОВ
- 2. 1. Модификация векторной модели представления интернет-ресурсов
- 2. 1. 1. Индексация интернет-ресурсов
- 2. 1. 2. Автоматическая категоризация интернет-ресурсов
- 2. 1. 3. Оценка качества категоризации
- 2. 2. Методика составления тематических профилей
- 2. 3. Сбор и обработка контента интернет-ресурсов
- 2. 4. Выводы по главе 2
- 2. 1. Модификация векторной модели представления интернет-ресурсов
- ГЛАВА 3. ПРОЕКТИРОВАНИЕ СИСТЕМЫ ТЕМАТИЧЕСКОЙ КАТЕГОРИЗАЦИИ ИНТЕРНЕТ-РЕСУРСОВ
- 3. 1. Особенности архитектуры системы
- 3. 1. 1. Требования для работы системы
- 3. 1. 2. Структура системы
- 3. 2. Подсистема «Поиск новых сайтов»
- 3. 2. 1. Общее описание функционирования подсистемы
- 3. 2. 2. Описание функций задач и связей между ними
- 3. 3. Подсистема «Ведение информационных ресурсов»
- 3. 3. 1. Общее описание функционирования подсистемы
- 3. 3. 2. Описание функций задач и связей меэюду ними
- 3. 4. Подсистема «Обход сайтов»
- 3. 4. 1. Общее описание функционирования подсистемы
- 3. 4. 2. Описание функций задач и связей между ними
- 3. 5. Подсистема «Категоризация сайтов»
- 3. 5. 1. Общее описание функционирования подсистемы
- 3. 5. 2. Описание функций задач и связей между ними
- 3. 6. Подсистема «Контроль и настройка процедуры классификации»
- 3. 6. 1. Общее описание функционирования подсистемы
- 3. 6. 2. Описание функций задач и связей между ними
- 3. 7. Подсистема «Обмен информацией с СКФ»
- 3. 7. 1. Общее описание функционирования подсистемы
- 3. 7. 2. Описание функций задач и связей между ними
- 3. 8. Веб-интерфейс системы
- 3. 9. Выводы по главе 3
- 3. 1. Особенности архитектуры системы
- ГЛАВА 4. ЭКСПЕРИМЕНТАЛЬНЫЕ ИССЛЕДОВАНИЯ И СОПОСТАВЛЕНИЕ РЕЗУЛЬТАТОВ
- 4. 1. Оценка качества категоризации
- 4. 2. Оценка использования трафика сети
- 4. 3. Практическое применение результатов исследования
- 4. 4. Тенденции и перспективы развития разработанных решений
- 4. 5. Выводы по главе 4
Список литературы
- Абсалямов А. Борьба с киберслэкингом. Windows 2000 Magazine, № 3 2000.
- Агеев М.С. Методы автоматической рубрикации текстов, основанных на машинном обучении и знаниях экспертов: Диссертация на соискание ученой степени к.ф.-м.н. М.: МГУ, 2004.
- Агеев М.С., Кураленок И. Е. Официальные метрики РОМИП'2004. // Российский семинар по Оценке Методов Информационного Поиска (РОМИП 2004) — Пущино, 2004.
- Аграновский A.B., Арутюнян Р. Э. Индексация массивов документов. Мир ПК, июнь 2003.
- Аграновский A.B., Скуратов А. К., Тихонов А. Н., Хади P.A. Информационная безопасность в RUNNet. Труды XI Всероссийской научно-методической конференции «Телематика 2004», 7−10 июня 2004 г., СПб., том 1, С.66−68.
- Белоногов Г. Г., Новоселов А. П. Автоматизация процессов накопления, поиска и обобщения информации. 1979, 256 с.
- Ю.Гайдамакин H.A. Автоматизированные информационные системы, базы и банки данных. Вводный курс. Учебное пособие. М.: Гелиос АРВ, 2002. -368 с.
- Ермаков А.Е. Значимость элементов текста в свете теории синтаксической парадигмы // Русский язык: исторические судьбы и современность. 1 Г Международный конгресс исследователей русского языка. Труды и материалы. Москва: МГУ — 2004.
- Ермаков А.Е. Компьютерная лингвистика и интеллектуальные технологии: труды Международной конференции Диалог 2003. Москва, Наука, 2003,
- М.Ефремов C.B., Скуратов А. К. Ограничение доступа школьников к ресурсам Интернет. AI NEWS, № 2, 2002.
- Интернетско-русский разговорник, http://slovari.yandex.ru/dict/internet/.16-Информационно-аналитический ресурс «Ваш личный Интернет», http ://www.content-filtering.ru/.
- Корнеев В.В., Гарев А. Ф., Васютин C.B., Райх В. В. Базы данных. Интеллектуальная обработка информации. — Москва: «Нолидж», 2000. -352 с.
- Кураленок И.Е., Некрестьянов И. С. Оценка систем текстового поиска. / Программирование. 28(4), 2002 — С. 226−242.
- Некрестьянов И., Пантелеева Н. Системы текстового поиска для Веб // Программирование. 2002, № 4.
- Некрестьянов И.С. Тематико-ориентированные методы информационного поиска: Диссертационная работа к.т.н.: 05.13.11 / Санкт-Петербургский государственный университет СПб., 2000. — 80 с.
- Некрестьянов И.С., Павлова Е. Ю. Обнаружение структурного подобия HTML-документов. // Труды четвертой всероссийской конференции RCDL'2002, 38−54, Дубна, Россия, 2002.
- Общедоступная, свободно распространяемая энциклопедия Википедия, http://ru.wikipedia.org/.
- Плешко В.В., Ермаков А. Е., Голенков В.П. RCO на РОМИП 2004. // Российский семинар по Оценке Методов Информационного Поиска (РОМИП 2004) Пущино, 2004. — С. 43−61.
- Поисковый портал Yahoo, http://www.yahoo.com/.
- Поляков И.Е. Опыт создания системы фильтрации агрессивного web-контента Труды XII Всероссийской научно-методической конференции «Телематика 2005», 6−9 июня 2005г., Издательство в СПб, том 1, с.66−67.
- Поляков П.Ю., Плешко В.В. RCO на РОМИП 2006 // Труды четвертого российского семинара по оценке методов информационного поиска. Санкт-Петербург: НИИ Химии СпбГУ 2003 — С. 72−79.
- Российско-американская группа высокотехнологичных компаний «НейрОК», http://www.neurok.ru/.
- Свечников C.B. Использование алгоритмов поиска и анализа информации для категоризации веб-сайтов. // Вестник ТГТУ, 2007. Т. 13, № 3. — С. 703−712.
- Свечников C.B. Категоризация интернет-ресурсов для управления доступом к телекоммуникационным сетям. // Научный вестник МИРЭА, М.:МИРЭА 2007.
- Свечников C.B. Разработка системы тематической категоризации интернет-ресурсов. Труды XIV Всероссийской научно-методической конференции «Телематика'2007», 18−21 июня 2007 г., Издательство в СПб, том 2, С. 326−327.
- Свечников C.B. Решение задач тематической категоризации интернет-ресурсов. // Научно-практический журнал по информационным технологиям в образовании «Открытое образование», Москва, 2007 г., № 5, С 24−30.
- Свечников C.B. Тематическая категоризация интернет-ресурсов в сети Интернет. // ISSN 1995−4565. Вестник РГРТУ № 1 (Выпуск 23) Рязань, 2008, С. 96−101.
- Сегалович И.В. Как работают поисковые системы. // Мир Internet. 2002. -№ 10, http://www.dialog-21 .ru/trends/?id= 15 539.
- Сервис Яндекс. ХМЬ, http://xml.yandex.ru/.
- Системный анализ и принятие решений: Словарь-справочник: Учеб. пособие для вузов/Под ред. В. Н. Волковой, В. Н. Козлова. М.: Высш. шк., 2004−616 е.: ил.
- Скуратов А.К. Анализ и мониторинг телекоммуникационных сетей на основе статистической системы исследования информационных потоков. Труды XII Всероссийской научно-методической конференции «Телематика 2005», 6−9 июня 2005 г., Из-во СПб, том 1, С. 59−60.
- Слепов О., Отт А. Контроль использования интернет-ресурсов. Информационные биллютень Jet Info, № 2 2005.
- Справочно-информационный портал русского языка ГрамотаРу, http://www.gramota.ru/.
- Фонд «Общественное мнение», http://www.fom.ru/.
- Цветков В Л. Информация и теория информации. М.: МИИГАиК, 2006. -124 с.
- Цветков В.Я. Модели и моделирование. М.: Государственный научно-исследовательский институт информационных образовательных технологий. «Госинформобр», 2006. — 94 с.
- Цветков В.Я. Современные проблемы информатики и вычислительной техники. Учебное пособие. М.: Московский государственный университет путей сообщения, 2007. — 102 с.
- Baezo-Yates R. and Ribeiro-Neto В. Modern Information Retrieval. ACM Press Addison Wesley, 1999.
- Cullum J., Willougby R. Real rectangular matrix. In Lanczos algorithms for large symmetric eigenvalue computations. Brikhauser, Boston, 1985.
- Dumais S. Improving the retrieval of information from external sources, 1991.
- Dumais S. Latent semantic indexing: Trec-3 report. In Proc. of the Third Text Retrieval Conference, 1995.
- Foltz P. W. Using latent semantic indexing for information filtering. In Proc. of the ACM Conference on Office Information Systems (COIS), p. 40−47, 1990.
- Frakes W.B., Baeza-Yates R Information Retrieval: Data Structures and Algorithms, Englewood Cliffs, NJ, Prentice Hall, 1992.
- Gupta S., Kaiser G., Grimm P., Chiang M., Starren J. Automating Content Extraction of HTML Documents // World Wide Web Journal, January 2005, pages: 179−224.
- Harman D. Latent semantic indexing and trec-2. In Proc. of the Second Text Retrieval Conference, 1994.
- Hofmann T. Probabilistic Latent Semantic Analysis. Uncertainity in Artificial Intelligence. UAI'99, Stockholm. 1999.64.1nternet Watch Foundation Half Yearly Report 2006, http://www.iwf.org.uk/.
- Jones K.S. A Statistical Interpretation of Term Specificity and Its Application in Retrieval. Journal of Documentation, 1972.
- Kleinberg J.M. «Authoritative sources in a hyperlinked environment. Journal of the АСМ» 46(5):604−632, 1999.
- Landauer Т., Foltz P., Laham D. An introduction to latent semantic analysys. In Discourse Processes, volume 25.
- Maron M.E., Kuhns J.L. On relevance, probabilistic indexing and information retrieval. Journal of the ACM, 1960.
- Papka R. Allan J. Document classification using multiword features. In Proceeding of the CIKM'98, New-York, 1998.
- Ramaswamy Lakshmish, Iyengar Arun, Liu Ling, Douglis Fred. Automatic Detection of Fragments in Dynamically Generated Web Pages // In Proceedings of the 13th International World Wide Web Conference (WWW2004), New York City, May 2004.
- Rijsbergen C.J. Information Retrieval. Butterworth’s and Co. — London, 1979 -2nd edition.
- Robertson S.E., Jones K.S. Relevance Weighting of Search Terms. JASIS, 1976.
- Russian Context Optimizer. Технологии анализа и поиска текстовой информации, http://www.rco.ru/.
- Salton G. Automatic Text Processing The Analysis Transformation and Retrieval of Information by Computer. Addison-Wesley: Reading MA. 1989.
- Salton G., McGill M.J. Introduction to modern Information Retrieval. McGraw-Hill Computer Science Series. McGraw-Hill, New York, 1983.
- Salton G., Allan J., Buckley C. Automatic structuring and retrieval of large text files. Communications of the ACM, 37(2), February 1994.
- Sebastiani F. Machine Learning in Automated Text Categorization, http://nmis.isti.cnr.it/sebastiani/.
- Singhal A., Mitra M., Buckley C. Learning routing queries in a query zone. In Proc. of SIGIR '97, pages 25−32, 1997.
- Stata R., Bharat K., Maghoul. F. The Term Vector Database: fast access to indexing terms for Web pages. 33(l-6):247−255, June 2000.
- TIPSTER Text Program archive, http://www.nist.gov/itl/div894/ 894.02/relatedproj ects/tipster/.
- Yang Y. An Evaluation of Statistical Approaches to Text Categorization/ Journal of Information Retrieval, 1999.
- Ziv Bar-Yossef, Sridhar Rajagopalan Template Detection via Data Mining and its Applications // In Proceedings of WWW2002, May 7−11, 2002, Honolulu, Hawaii, USA, pages: 580−591.