Разработка специального математического и программного обеспечения выявления веб-сообществ в информационно-поисковых системах
Диссертация
Анализ существующих работ Флейка, Лоуренса, Гайлса, Ямафуджи и Китсурегава, посвященных процессам самоорганизации в Интернет и идентификации веб-сообществ в интересах информационного поиска, выявил незначительное число проведённых исследований. При этом готовых и апробированных решений (способных непосредственно интегрироваться в существующие информационно-поисковые системы) ещё практически… Читать ещё >
Содержание
- 1. МОДЕЛИ И МЕТОДЫ ИДЕНТИФИКАЦИИ ВЕБ-СООБЩЕСТВ
- 1. 1. Основные задачи, решаемые современными информационно-поисковыми системами
- 1. 2. Анализ гиперссылочной структуры Сети
- 1. 2. 1. Концентраторы (hubs) и авторитеты (authorities)
- 1. 2. 2. Цитируемость и степенной закон распределения гиперссылок
- 1. 2. 3. Анализ веб-графа на наличие организованных структур
- 1. 2. 4. Комплексные методы и алгоритмы учёта цитируемости: HITS и PageRank
- 1. 3. Потоковые методы идентификации веб-сообществ
- 1. 3. 1. Метод FLG
- 1. 3. 2. Модифицированный поиск веб-сообществ на базе метода FLG с настраиваемыми ёмкостями рёбер
- 2. 1. Модель имитации веб-графа и алгоритм машинной генерации искусственного веб-графа
- 2. 1. 1. Модель имитации веб-графа на основе принципа хронологического возникновения ресурсов
- 2. 1. 2. Анализ искусственно сгенерированных веб-графов и их применение для исследований Сети
- 2. 2. Типизация веб-графов и оценка достижимости узлов
- 2. 2. 1. Типизация веб-графов
- 2. 2. 2. Оценка достижимости узлов
- 2. 3. Многоэтапная процедура идентификации веб-сообществ на основе сильно связанных компонент и контентного анализа
- 2. 4. Алгоритм автоматической численной оценки качества веб-сообществ
- 3. 1. Общая структура разработанного программного комплекса для обработки данных при решении задачи информационного поиска и выявления веб-сообществ
- 3. 1. 1. Программные модули, реконструирующие (или генерирующие) веб-граф
- 3. 1. 2. Программные модули, преобразующие веб-граф
- 3. 1. 3. Программные модули, обрабатывающие веб-граф
- 3. 1. 4. Вспомогательные программные модули
- 3. 2. Используемые структуры данных
- 3. 2. 1. Формат хранения данных веб-графа в файловой системе
- 3. 2. 2. Размещение веб-графа в оперативной памяти
- 3. 3. Алгоритмы обработки веб-графа
- 3. 3. 1. Алгоритм генерации искусственного веб-графа
- 3. 3. 2. Алгоритм поиска максимального потока минимальной стоимости
- 3. 3. 3. Алгоритм поиска связанных компонент
- 4. 1. Анализ алгоритмов идентификации веб-сообществ на основе метода FLG для различных типов веб-графов
- 4. 2. Результаты экспериментальных исследований при идентификации веб-сообществ на основе разработанной многоэтапной процедуры
- 4. 2. 1. Оценка эффективности разработанной многоэтапной процедуры идентификации веб-сообществ
- 4. 2. 2. Сравнительный анализ разработанной многоэтапной процедуры идентификации веб-сообществ и метода FLG
- 4. 3. Экспериментальные исследования алгоритма автоматической численной оценки качества веб-сообществ
- 4. 4. Исследование Мобильного Интернета
- 4. 5. Применение разработанных алгоритмов обработки информации в информационно-поисковых системах
- 4. 5. 1. Уточнение результатов поиска
- 4. 5. 2. Автоматическое пополнение и оценка веб-каталогов
- 4. 5. 3. Интеграция в вертикальные информационно-поисковые системы
Список литературы
- Аветисян, Р. Д. Теоретические основы информатики / Р. Д. Аветисян, Д. О. Аветисян. — М.: Российск. гос. гуманит. ун-т, 1997. — 168 с.
- Агеев, М. С. Экспериментальные алгоритмы поиска/классификации и сравнение с «basic line» / М. С. Агеев, Б. В. Добров, Н. В. Лукашевич, А. В. Сидоров // Российский семинар по Оценке Методов Информационного Поиска (РОМИП 2004). Пущино, 2004. — С. 62−89.
- Айзеке, С. Dynamic HTML / С. Айзеке. СПб.: BHV-Санкт-Петербург, 1998.-496 с.
- Баженов, М. М. Автоматическая оценка качества алгоритма идентификации Веб-сообществ / М. М. Баженов, А. В. Сычёв // Кибернетика и высокие технологии 21 века: 7 Международ, науч.-техн. конф., 16−18 мая 2006. Воронеж, 2006. — Т. 2. — С. 696−706.
- Баженов, М. М. Анализ веб-графа мобильного рунета / М. М. Баженов, А. В. Сычёв // Информатика: проблемы, методология, технологии: материалы 6-ой международ, науч.-метод. конф., Воронеж, 9−10 февр. 2006. Воронеж, 2006. — С. 541−543.
- Баженов, М. М. Анализ задачи идентификации самоорганизованных Web-сообществ / М. М. Баженов, А. В. Сычев // Информатика: проблемы, методология, технологии: Материалы 4-ей регион, науч.-метод. конф., 3−4 февр. 2004. С. 20−22.
- Баженов, М. М. Идентификация веб-сообществ в глобальной сети WAP-ресурсов / М. М. Баженов, А. В. Сычёв // Информационные технологии, 2006.-№ 6.-С. 38−44.
- Баженов, М. М. Исследование веб-графа МИ / М. М. Баженов, А. В. Сычёв // Информационные технологии моделирования и управления: науч.-техн. журн. 2006. — Вып. 2(27). — С. 230−238.
- Баженов, М. М. Модель выявления «идеологов» веб-сообщества истратегия оптимизации индексирования / М. М. Баженов // Информатика: проблемы, методология, технологии: материалы 5-ой регион, науч.-метод. конф., Воронеж, 8−9 февр. 2005. Ч. 1. — С. 32−34.
- О.Баженов, М. М. Об одном подходе к исследованию структуры Веб-графа /
- З.Баженов, М. М. Опыт выявления Web-сообществ на примере сайтов ВГУ и Воронежа / М. М. Баженов, А. В. Сычев // Научный сервис в сети ИНТЕРНЕТ: Тр. Всерос. науч. конф, Новороссийск, 22−27 сент. 2003. С. 145−146.
- Вебер, Д. Технология Java в подлиннике / Д. Вебер. СПб.: BHV-Санкт-Петербург, 1998. — 1104 с.
- Вирт, Н. Алгоритмы + структуры данных = программы / Н. Вирт. М.: Мир, 1985.-406 с.
- Горев, А. Эффективная работа с СУБД / А. Горев, Р. Ахаян, С. Макашарипов. СПб.: Питер, 1997. — 704 с.
- Грабер М. Справочное руководство по SQL / М. Грабер, Изд-во ЛОРИ, 1997.-292 с.
- Грабер, М. Введение в SQL / М. Грабер. Изд-во ЛОРИ, 1996 — 375 с.
- Джамса, К. Программирование в Web для профессионалов / К. Джамса, С. Лалани, С. Уикли- пер. с англ. А. И. Панасюк. Мн.: Попурри, 1997. -632 с.
- Джейсон, М. JavaScript: основы программирование / М. Джейсон. К.: Издательская группа BHV, 1997. — 512 с.
- Евстигнеев, В. А. Графы в программировании: обработка, визуализация и применение / В. А. Евстигнеев, В. Н. Касьянов. СПб.: BHV-Санкт-Петербург, 2003.-1104 с.
- Евстигнеев, В. А. Применение теории графов в программировании / В. А. Евстигнеев. М.: Наука, 1985. — 352 с.
- Евстигнеев, В. А. Теория графов: алгоритмы обработки бесконтурных графов / В. А. Евстигнеев, В. Н. Касьянов. Новосибирск: Наука, 1998. -385 с. 27.3олотов, С. Протоколы Internet / С. Золотов. СПб.: BHV-Санкт-Петербург, 1998.-304 с.
- Информационные технологии и программирование: Межвузовский сборник статей. М.: МГИУ, 2003. — Вып. 2 (7). — 62 с.
- Корн, Г. Справочник по математике для научных работников и инженеров / Г. Корн, Т. Корн. М.: Наука, 1968. — 720 с.
- Кудрявцев, JI. Д. Курс математического анализа / JI. Д. Кудрявцев. М.: Высш. школа, 1981. — Т. 1.
- Кульба, В. В. Модифицированные функциональные графы как аппарат моделирования сложных динамических систем / В. В. Кульба, В. М. Назаретов, И. П. Чухров. М.: Институт проблем управления, 1995. — 576 с.
- Майника, Э. Алгоритмы оптимизации на сетях и графах / Э. Майника. -М. :Мир, 1981.-323 с.
- Поисковая система Google Электронный ресурс. Режим доступа: http://www.google.com
- Поисковая система Yandex Электронный ресурс. Режим доступа: http://www.yandex.ru
- Рудин, У. Основы математического анализа / У. Рудин. М.: Мир, 1976. -320 с.
- Седжвик, Р. Фундаментальные алгоритмы на С++. Алгоритмы на графах / Р. Седжвик. СПб.: ДиаСофтЮП, 2003. — 480 с.
- Солтон, Дж. Динамические библиотечно-поисковые системы / Дж. Солтон- пер. с англ. В. Р. Хисамутдинова. М.: Мир, 1979. — 557 с.
- Статистические и информационно-аналитические исследования состояния и основных тенденций развития инфраструктуры российского сегмента Интернета Электронный ресурс. Выпуск 1. — Режим доступа: http://stat.nic.ru
- Статистические и информационно-аналитические исследования состояния и основных тенденций развития инфраструктуры российского сегмента
- Интернета по итогам 2005 года. Электронный ресурс. Выпуск 4. -Режим доступа: http://stat.nic.ru
- Статистические и информационно-аналитические исследования состояния и основных тенденций развития инфраструктуры российского сегмента Интернета. Хостинг через призму DNS. Электронный ресурс. Выпуск 2. — Режим доступа: http://stat.nic.ru
- Сычев, А. В. Применение методов анализа сети гиперссылок для оценки и диагностики веб-сайтов / А. В. Сычев, М. М. Баженов // Телематика'2004: тр. 11 Всерос. науч.-метод. конф., Санкт-Петербург, 7−10 июня 2004. Т. 1.-С. 231−232.
- Уилсон, Р. Введение в теорию графов / Р. Уилсон. М.: Мир, 1977. — 208 с.
- Уинкуп, С. Microsoft SQL Server 6.5 в подлиннике / С. Уинкуп. СПб.: BHV-Санкт-Петербург, 1998. — 896 с.
- Харари, Ф. Теория графов IФ. Харари. -М.: Мир, 1973.-301 с. 48. Челкак, С. И. Элементарное построение асимптотик некоторых сумм
- Электронный ресурс. / С. И. Челкак, В. М. Чистяков // Интернет-журнал СПбГПУ, Математика и естествознание в ВУЗе. сентябрь 2001 — февраль 2002. — № 2. — Режим доступа: http://www.spbstu.ru/public/mv/N002/ChistiakovChelkak/Chechi.pdf
- Щепин, Б! В. Теория интерполяции Электронный ресурс. / Е. В. Щепин. -СУНЦ МГУ, 2006. Режим доступа: www.mi.ras.ru/~scepin/summation.pdf
- Adler, М. Towards compressing web graphs / M. Adler, M. Mitzenmacher // In Proceedings of the IEEE data compression conference (DCC). March 2001.
- Albert, R. Diameter of the World Wide Web / R. Albert, H. Jeong, A.-L. Barabasi // Nature. 1999. — 401. — pages 130−131.
- Bharat, K. Improved Algorithms for Topic Distillation in a Hyperlinked Environment / K. Bharat, M. Henzinger // In Proc. ACM SIGIR'98. 1998.
- Bharat, K. When Experts Agree: Using Non-Affiliated Experts to Rank Popular Topics / K. Bharat, G. A. Mihaila // In Proc. 10th WWW Conference. 2001.
- Bianchini, M. Inside PageRank / M. Bianchini, M. Gori, F. Scarselli // ACM Transactions on Internet Technology. 2005. — Vol. 5. — No. 1. — pages 92−128.
- Borodin, A. Link Analysis Ranking: Algorithms, Theory, and Experiments / A. Borodin, G. O. Roberts, J. S. Rosenthal, P. Tsaparas // ACM Transactions on Internet Technology. -2005. Vol. 5. — No. 1. — pages 231−297.
- Brewington, В. E. How dynamic is the web? / В. E. Brewington, G. Cybenko // In Proc. 9th WWW Conference. 2000.
- Brian, A. Does «authority» mean quality? Predicting expert quality ratings of web documents / A. Brian, T. Loren, H. Will // Proc. of the SIGIR'00. 2000. -pages 296−303.
- Brin, S. The anatomy of a large scale hypertextual web search engine / S. Brin, L. Page // In Proc. 7th WWW. 1998.
- Callan, J. P. The INQUERY Retrieval System / J.P. Callan, W.B. Croft, S.M. Harding // Proceedings of DEXA, 3rd International Conference on Databaseand Expert Systems Applications. Springer Verlag, New York, 1992. — pages 78−93.
- Debajyoti, M. An Approach to Confidence Based Page Ranking for User Oriented Web Search / M. Debajyoti, G. Debasis, R. S. Sanasam // SIGMOD Record. 2003. — Vol. 32. — No. 2
- Dempster, A. P. Maximum likelihood from incomplete data via the EM algorithm / A. P. Dempster, N. M. Laird, D. B. Rubin // J. R. Statist. Soc. B. -1977.-39.-pages 185−197.
- Dill, S. Self-Similarity In the Web / S. Dill, R. Kumar, K. S. Mccurley, S. Rajagopalan, D. Sivakumar, A. Tomkins // ACM Transactions on Internet Technology. 2002. — Vol. 2. — No. 3. — pages 205−223.
- Flake, G. Efficient identification of web communities / G. Flake, S. Lawrence, C. L. Giles // In 6th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. 2000. — pages 150−160.
- Flake, G. Graph clustering and mining cut trees / G. Flake, R. Tarjan, K. Tsioutsiouliklis // Internet Mathematics. 2004. — 1(3). — pages 355−378.
- Flake, G. W. Self-Organization and Identification of Web Communities / G. W. Flake, S. R. Lawrence, C. L. Giles, F. M. Coetzee // IEEE Computer. 2002. -35(3).-pages 66−71.
- Gelbukh, A. Zipf and Heaps Laws' Coefficients Depend on Language / A. Gelbukh, S. Grigori // Proc. CICLing-2001, Conference on Intelligent Text Processing and Computational Linguistics, February 18−24, 2001. Springer-Verlag. — pages 332−335.
- George, K. Zipf, The Psychobiology of Language, Houghton-Mifflin / K. George. New York, NY, 1935.
- Gibson, D. Inferring web communities from link topology / D. Gibson, J. Kleinberg, P. Raghavan // In Proc. 9th ACM Conf. on Hypertext and Hypermedia. -1998.
- How Much Information? Электронный ресурс. / Peter Lyman [и др.]. -2000. Режим доступа: http://www.sims.berkeley.edu/research/projects/how-much-info/internet.html
- Kleinberg, J. M. Authoritative sources in a hyperlinked environment / J. M. Kleinberg // Journal of the ACM. 1999. — 46(5). — pages 604−632.
- Kleinberg, J. The structure of the Web / J. Kleinberg, S. Lawrence // Science. -2001.-vol 294.-pages 1849−1850.
- Kumar, R. Trawling the Web for emerging cyber-communities / R. Kumar, P. Raghavan, S. Rajagopalan, A. Tomkins // In Proceedings of the 8th International World Wide Web Conference. 1999. — pages 1481−1493.
- Lawrence, S. Context in Web Search / S. Lawrence // IEEE Data Engineering Bulletin. 2000. — Vol. 23. — pages 25−32.
- Li, W. Random texts exhibit Zipf s-law-like word frequency distribution / W. Li // IEEE Transactions on Information Theory. 1992. — 38. — pages 18 421 845.
- Miller, J.C. Modifications of Kleinberg’s HITS AlgorithmUsing Matrix Exponentiation and Web Log Records / J. C. Miller, G. Rae, F. Schaefer // SIGIR'01, NewOrleans, Louisiana, USA, September 9−12, 2001.
- Newman. Power laws, Pareto distributions and Zipf s law / Newman, Mej // Contemporary Physics. 2005. — vol. 46, Issue 5. — pages 323−351.
- Ng, A. Y. Link Analysis, Eigenvectors and Stability Электронный ресурс. / A. Y. Ng, A. X. Zheng, M. I. Jordan // In Proc. of the IJCAT01. -2001.-Режим доступа: http://ai.stanford.edu/~ang/papers/ijcai01-linkanalysis.pdf
- Page, L. The PageRank Citation Ranking: Bringing Order to the Web Электронный ресурс. / L. Page, S. Brin, R. Motwani, T. Winograd. Режим доступа: http://dbpubs.stanford.edu:8090/pub/l999−66
- Pennock, D. M. Winners Don’t Take All: A Model of Web Link Accumulation / D. M. Pennock, C. L. Giles, G. W. Flake, S. Lawrence, E. Glover // Technical Report 2000−164. NEC Re-search Institute, Princeton, NJ. — 2000.
- Salton, G. Extended Boolean information retrieval / G. Salton, E. A. Fox, H. Wu // Commun. ACM 26. 1983. — pages 1022−1036.
- Salton, G. Introduction to modern information retrieval / G. Salton, M. J. McGill. New York, NY, USA: McGraw-Hill, 1986. — pages 400.
- Salton, G. Term-Weighting Approaches / G. Salton, C. Buckley // Automatic Text Retrieval. Information Processing and Management. 1988. — 24, 5. -pages 513−523.
- Salton, G. Term-weighting approaches in automatic text retrieval / G. Salton, C. Buckley // Information Processing & Management. 1988. — 24(5). — pages 513−523.
- Shivakumar, N. Finding Near-Replicas of Documents on the Web
- Электронный ресурс. / N. Shivakumar, H. Garcia-Molina // Proc. of the WebDB'99. 1999. — Режим доступа: http://dbpubs.stanford.edu-.8090/pub/1998−31
- Toyoda, M. Creating a Web Community Chart for Navigating Related Communities / M. Toyoda, M. Kitsuregawa // In Proc. Hypertext 2001.-2001. -pages 103−112.
- Toyoda, M. Extracting Evolution of Web Communities from a Series of Web Archives / M. Toyoda, M. Kitsuregawa // HT'03, Nottingham, United Kingdom (ACM). August 26−30,2003
- Uniform Resource Identifiers (URI): Generic Syntax Электронный ресурс. / Т. Berners-Lee, R. Fielding, U. C. Irvine, L. Masinter // Network Working Group. 1998. — Режим доступа: http://rfc.net/rfc2396.html
- Van Rijsbergen, C. J. Information Retrieval, 2nd edition / C. J. Van Rijsbergen. Dept. of Computer Science, University of Glasgow. — Newton MA, USA: Butterworth-Heinemann, 1979. — 208 pages.