Разработка методов и инструментальных средств повышения пертинентности поиска в современных информационных средах
Диссертация
Для практического воплощения концепции интерфейсной поисковой системы в диссертации созданы два программных продукта (AltoSeareh/АльтПоиск и SearchAnalizer/ПоискАнализатор), позволяющие автоматически формировать общую выдачу — обобщённый набор документов, получаемых от нескольких поисковых систем сети Интернет в ответ на запрос пользователя и расчет показателей контентной эквивалентности. Создан… Читать ещё >
Содержание
- 1. ПРОБЛЕМЫ ПОИСКА ИНФОРМАЦИИ В СОВРЕМЕННОЙ ИНФОРМАЦИОННОЙ СРЕДЕ
- 1. 1. Предварительные замечания
- 1. 2. Поиск информации в документальных системах
- 1. 2. 1. Понятие документальных систем
- 1. 2. 2. Общая функциональная структура документальных информационно-поисковых систем
- 1. 3. Семантический поиск и технология Semantic Web
- 1. 3. 1. Технология Semantic Web
- 1. 3. 2. Формализация и обработка знаний на основе онтологического подхода
- 1. 4. Интеллектуальные поисковые системы.'
- 1. 4. 1. Принципиальный алгоритм работы системы
- 1. 4. 2. Концептуальная архитектура интеллектуальных поисковых систем
- 1. 5. Поиск в сети Интернет
- 1. 5. 1. 1. Поисковые роботы
- 1. 5. 1. 2. Использование поисковых роботов
- 1. 5. 1. 3. Комбинированное использование
- 1. 5. 2. Повышение затрат и потенциальные опасности при использовании поисковых роботов
- 1. 5. 2. 1. Сетевой ресурс и загрузка сервера
- 1. 5. 2. 2. Обновление документов
- 1. 5. 2. 3. Проблемы индексации документов
- 1. 6. Основные результаты
- 2. РАЗРАБОТКА МЕТОДИКИ ЭКСПЕРИМЕНТАЛЬНОЙ ОЦЕНКИ ПЕРТИНЕНТНОСТИ РЕЗУЛЬТАТОВ ПОИСКА
- 2. 1. Предварительные замечания
- 2. 2. Классификация поисковых запросов
- 2. 2. 1. Классификация поисковых запросов по многословности
- 2. 2. 2. Классификация по четкости формулировки
- 2. 2. 3. Классификация по конкурентности запроса
- 2. 2. 4. Классификация на основе частотности запроса
- 2. 2. 5. Классификация по коммерческой привлекательности запроса
- 2. 2. 6. Классификация по целям пользователей
- 2. 3. Характеристики поисковых систем Интернет, механизмы обеспечивается релевантности и пертинентности
- 2. 3. 1. Статические факторы ранжирования
- 2. 3. 2. Ссылочное ранжирование
- 2. 3. 3. Внутренние факторы ранжирования
- 2. 3. 4. Влияние собственных ресурсов поисковых машин
- 2. 3. 5. Персонализация поиска
- 2. 4. Методика определения пертинентности поиска при помощи экспертных оценок
- 2. 4. 1. Количественные оценки пертинентности
- 2. 4. 2. Описание эксперимента
- 2. 4. 3. Список определений и обозначений при проведении эксперимента
- 2. 4. 3. 1. Информацинная единица
- 2. 4. 3. 2. Степень емкостной контентной эквивалентности
- 2. 4. 3. 3. Степень относительной контентной эквивалентности
- 2. 4. 3. 4. Степень абсолютной контентной эквивалентности
- 2. 4. 3. 5. Степень эквивалентности по обобщённой ранговой корреляции
- 2. 4. 3. 6. Степень эквивалентности по условной ранговой корреляции
- 2. 4. 3. 7. Степень эквивалентности по плотности общих элементов
- 2. 5. Основные результаты
- 3. 1. Предварительные замечания
- 3. 2. Определение PageRank
- 3. 3. Методы вычисления PageRank
- 3. 3. 1. Итерационный метод расчета PageRank
- 3. 3. 2. Матричный метод расчета PageRank
- 3. 3. 3. Недостаток итерационных методов расчета PageRank
- 3. 3. 4. Функциональный метод расчета PageRank
- 3. 3. 5. Специфика функционального метода
- 3. 3. 6. Предлагаемый метод расчета PageRank
- 3. 3. 6. 1. Вычисление PageRank как решение СЛАУ
- 3. 3. 6. 2. Методика формирования матрицы коэффициентов СЛАУ
- 3. 3. 6. 3. Учёт внешнего окружения или «функциональность» в предложенном методе
- 4. 1. Предварительные замечания
- 4. 2. Концепция интерфейсной поисковой системы
- 4. 2. 1. Персонализированный поиск в Google
- 4. 2. 2. Сервисы социальных закладок в, сети Интернет как источник определения пертинентности поиска
- 4. 2. 3. Структура интерфейсной поисковой системы
- 4. 2. 4. Методика формирования выдачи ИнтПС
- 4. 3. Реализация многоальтернативного поиска и последующего адаптивного переранжирования
- 4. 3. 1. Текущая и специальная оценка показателей качества ИнтПС
- 4. 3. 1. 1. Схема формирования общей выдачи
- 4. 3. 1. 2. Выбор показателей для контроля качества результатов поиска
- 4. 3. 1. 3. Организация процесса оценивания качества ИнтПС
- 4. 3. 2. Контроль и прогнозирование оценок пертинентности
- 4. 3. 3. Хранение оценок качества ИнтПС в виде временных рядов. Определение алгебраических операций над временными рядами
- 4. 3. 4. Ситуации, возникающие в процессе решения задачи идентификации статистического материала
- 4. 3. 5. Формирование консолидированного временного ряда
- 4. 3. 1. Текущая и специальная оценка показателей качества ИнтПС
- 4. 4. Идентификация структуры фрагмента сети Интернет
- 4. 4. 1. Предварительные замечания
- 4. 4. 2. Алгоритм построения матрицы смежности для произвольного фрагмента сети Интернет
- 4. 5. Методика определения пертинентности поиска на основе программы AltoSearch и Search Analyzer
- 4. 5. 1. Общий алгоритм расчета оценок пертинентности
- 4. 5. 2. Программа AltoSearch
- 4. 5. 2. 1. Аннотация
- 4. 5. 2. 2. Модули програмы
- 4. 5. 3. Программа SearchAnalyzer: аннотация
- 4. 5. 4. Результаты опытной эксплуатации первой версии интерфейсной поисковой машины
- 4. 6. Основные результаты
Список литературы
- Автоматизированные информационные технологии в экономике: Учебник / Под ред. проф. Г. А. Титоренко. М.: Компьютер, ЮНИТИ, 1998. 400 с.
- Барановская Т.П., Лойко В. И., Семенов М. И., Трубилин А. И. Информационные системы и технологии в экономике: Учебник. 2-е изд. / Под ред.
- B.И. Лойко. М.: Финансы и статистика, 2003. 416 с.
- Белов В.В., Терехов А. А. Показатель авторитетности страниц сайтов фрагмента сети Интернет // Известия ВУЗов. Проблемы полиграфии и издательского дела. 2009. № 6. С. 85−101.
- Благодатских В.А., Волнин В. А., Поскакалов К. Ф. Стандартизацияразработки программных средств: Учеб- пособие. М.: Финансы и статистика, 2003.288 с.
- Бройдо В.Л. Вычислительные системы, сети и-, телекоммуникации: Учебник. 2-е изд. СПб.: Питер, 2003. 704 с.
- Введение в информационный бизнес: Учеб: пособие. / О. В. Голосов,
- C.А. Охрименко, А. В. Хорошилов. М.: Финансы и статистика, 1996. 240 с.
- Вендров A.M. Проектирование программного обеспечения экономических информационных систем. М.: Финансы и статистика, 2000. 352 с.
- Гайдамакин Н.А. Автоматизированные информационные системы, базы и банки данных. Вводный курс: Учеб. пособие. М.: Гелиос АРВ, 2002. 368 е.
- Годин В.В., Корнеев И. К. Управление информационными ресурсами: 17 модульная программа для менеджеров «Управление развитием организации». Модуль 17. М.: ИНФРА-М, 1999. 432 с.
- Грабауров В.А. Информационные технологии для менеджеров. М.: Финансы и статистика, 2001. 368 с.
- Гулин А., Маслов М., Сегалович И. Алгоритм текстового ранжирования Яндекса на РОМИП-2006 // Труды четвертого российского семинара по оценке методов информационного поиска / Под ред. И. С. Некрестьянова. Спб: НИИ Химии СПбГУ, 2006.
- Добрынин В.Ю. Теория информационно-логических систем. Информационный поиск: Метод, указания к курсу информационного поиска. СПб.: Изд-во СПбГУ, 2002.
- Дубинский А.Г. Некоторые вопросы применения векторной модели представления документов в информационном поиске // Управляющие системы и машины. 2001. № 4.
- Н.Ермаков А. Е. Эксплицирование элементов смысла текста средствами синтаксического анализа-синтеза // Компьютерная лингвистика и интеллектуальные технологии: труды Международной конференции Диалог'2003. М.: Наука, 2003.
- Золотова Г. А. Синтаксический словарь. Репертуар элементарных единиц русского синтаксиса. М.: Эдиториал, 2001.
- Золотова Г. А., Онипенко Н. К., Сидорова М. Ю. Коммуникативная грамматика русского языка. М.: МГУ, 1998.
- Информатика: Учебник. / Под ред. Н. В. Макаровой. 3-е изд. М.: Финансы и статистика, 2001. 768 с.
- Информационные системы в экономике: Учебник. / Под ред. В. В. Дика. М.: Финансы и статистика, 1996. 272 с.
- Информационные технологии управления: Учеб. пособие / Под ред. Г. А. Титоренко. М.: ЮНИТИ-ДАНА, 2002. 280 с.
- Капустин В.А. Основы поиска информации в Интернете. Методическое пособие. СПб.: Институт «Открытое общество», С.-Петерб. отд-ние, 1998.
- Каширин Д.И. Повышение эффективности поиска документов с помощью унификации признаковых структур // Современные проблемы информатизации в моделировании и анализе сложных систем: Сб. трудов. Вып. 12 (по итогам
- Когаловский М.Р. Основы информационного поиска М.: ДМК Пресс- М.: Компания АйТи, 2002. 312 с.
- Когаловский М.Р. Перспективные технологии информационных систем. М.: ДМК Пресс: Компания АйТи, 2003. 288с
- Козлов Е.В., Метелкин А. В., Хорошевский В. Ф. Мультифасептная система поиска информации в Интернет // Труды седьмой национальной конференции по искусственному интеллекту с международным участием КИИ'2000.—М.: Физматлит, 2000, с.840 850.
- Колин К.К. Социальная информатика: Учеб. пособие. М.: Академический проект. М.: Фонд «Мир», 2003. 432 с.
- Кормалев Д.А., Куршев Е. П., Осипов Г. С., Сулейманова Е. А., Трофимов И.В.: Препринт // Методы поиска и анализа информации. Автоматическое извлечение данных. Переславль-Залесский, ИПС РАН, 2003.
- Кромер В.В. Об одной поправке к каноническому закону // Телеконференция «Информационные технологии в гуманитарных науках». Казань, 1998.
- Кураленок И.Е., Некрестьянов И. С. Оценка систем текстового поиска // Программирование. 2002. № 4.
- Куршев Е. П. Метод извлечения полуструктурированных данных из Интернет // Труды седьмой национальной конференции по искусственному интеллекту с международным участием КИИ'2000. М.: Физматлит, 2000, с. 260 -263.
- Липаев В.В. Системное проектирование сложных программных средств для информационных систем. М.: СИНТЕГ, 1999. 224 с. (Серия «Информатизация России на пороге XXI века»).
- Людкевич С, Есипов Е. Основные факторы, влияющие на релевантность сайта для поисковых систем // «Промо.Текарт», 2003. http://www.seop.ru/ sitesrelevant.html.
- Людкевич С, Есипов Е. Наиболее часто встречающиеся ошибки, препятствующие хорошему ранжированию сайта в поисковых машинах. Пути их решения. // «Промо.Текарт», 19.11.2004. http://httpd.apache.org/docs/mod/modrewrite.html.
- Малыхина М.П. Базы данных: основы, проектирование, использование: Учеб. Пособие. СПб.: БХВ-Петербург, 2004. 512 с.
- Мишенин А.И. Теория экономических информационных систем: Учебник. 4-е изд. М.: Финансы и статистика, 2003. 240 с.
- Морозов В.П., Тихомиров В. П., Хрусталев Е. Ю. Гипертексты в экономике. Информационная технология моделирования: Учеб. пособие. М.: Финансы и статистика, 1997. 256 с.
- Некрестьянов И. С. Пантелеева Н.В. Системы текстового поиска для Веб // Программирование. 2002. № 4.
- Ойхман Е.Г., Попов Э. В. Реинжиниринг бизнеса: реинжиниринг организации и информационные технологии. М.: Финансы и статистика, 1997. 336 с.
- Орлов Е.С. Технологии разработки программного обеспечения: Учебник. СПб.: Питер, 2002. 464 с.
- Осипов Г. С. Приобретение знаний интеллектуальными системами: Основы теории и технологии. М.: Наука, Физматлит, 1997.
- Осипов Г. С., Куршев Е. П., Кормалев Д. А., Трофимов И. В., Рябков О. В., Тихомиров И.А.: Препринт // Семантический поиск в среде интернет. Пе-реславль-Залесский, ИПС РАН, 2003.
- Острейковский В.А. Информатика: Учебник. М.: Высш. шк., 2000. 511с.
- Першиков А.И., Савинков В. М. Толковый словарь по информатике. 2-е изд. М.: Финансы и статистика, 1995. 544 с.
- Петров В.Н. Информационные системы. СПб.: Питер, 2002. 688 с.
- Попов А. Поиск в Интернете внутри и снаружи // Internet. 1996. № 2.
- Райдингс К., Садовский А. Растолкованный PageRank, или все, что вы всегда хотели знать о PageRank: сайт. URL: http://digits.ru/ articles/promotion/ pagerank. html (дата обращения 25.12.2009).
- Романов А.Н., Одинцов Б. Е. Советующие информационные системы в экономике: Учеб. пособие. М.: ЮНИТИ-ДАНА, 2000. 487 с.
- Романов В.П. Интеллектуальные системы в экономике: Учеб. пособие / Под ред. Н. П. Тихомирова. М.: Экзамен, 2003. 496 с.
- Сахаров А.А. Концепции построения и реализации информационных систем, ориентированных на анализ данных // Системы управления базами данных. 1996, № 4. С. 55−70
- Сегалович И. В. Как работают поисковые системы // Мир Internet. 2002. № 10.
- Семантическое ядро ресурса сети Интернет, http://me.miralab.ru/2007/ 11/21/ sos tavly aem-semanticheskoe-yadro/
- Смирнова Г. Н., Сорокин А. А., Тельнов Ю. Ф. Проектирование экономических информационных систем: Учебник. / Под ред. Ю. Ф. Тельнова. М.: Финансы и статистика, 2001. 512 с.
- Советов Б.Я., Цехановский В. В. Информационные технологии: Учебник. М.: Высш. шк., 2003. 263 с.
- Солтон Дж. Динамические библиотечно-информационные системы. М.: Мир, 1979.
- Терехов А.А. Подсистема накопления данных в интеллектуальной системе прогнозирования // Задачи системного анализа, управления и обработки информации: Межвузовский сборник научных трудов. Вып. 1. М.: МГУПИ, 2006. Стр. 64 67.
- Терехов А.А. Накопление данных в системе прогнозирования // Программное и информационное обеспечение систем различного назначения на базе персональных ЭВМ: Межвуз. сб. науч. тр. М.: МГУПИ, МГИЭМ (ТУ), МИРЭА (ТУ), РГРТУ, 2006. С. 236 239.
- Терехов А.А. Представление данных в интеллектуальной системе прогнозирования // 4 межвузовская научно-техническая студенческая конференция «Актуальные проблемы персональных компьютеров и сетей»: Тезисы докладов конференции. Москва: МГУПИ. 2006. С. 27.
- Терехов А.А. Применение механизма нечеткого вывода для решения задачи идентификации временных рядов // Инновационное управление в информационной среде: Материалы третьей/ международной конференции / Под ред. Е. Н. Мооса. Рязань, 2008. С. 79 80.
- Терехов А.А. Идентификация информации на основе комбинации семантического и классического информационного поиска // Задачи системного анализа, управления и обработки информации: Межвузовский сборник научных трудов. Вып. 2. М.: МГУП, 2008. Стр. 158 167.
- Терехов А.А. Идентификация статистического материала и консолидация-временных рядов // Вестник РГРТУ. 2009. № 1 (Вып. 27). С. 62 70.
- Терехов А.А. Организация жданных для решения задачи прогнозирования // Материалы международной конференции «Инновационное управление в информационной среде» / Под ред. Е. Н. Мооса. Рязань, 2007. С. 64−65.
- Трофименко Е. PageRank: начала анализа: сайт URL: http:// promosite.ru/articles/pagerank-begin.php (дата обращения 25.05.2009).
- Уткин В.Б., Балдин К. В. Информационные системы и технологии в экономике. М: ЮНИТИ-ДАНА, 2003. 335 с. (Серия «Профессиональный учебник: Информатика»).
- Фаулер М., Скотт К. UML в кратком изложении. Применение стандартного языка моделирования: Пер. с англ. М.: Мир, 1999.
- Хорошилов А., Селетков С. Мировые информационные ресурсы: Учеб. пособие. СПб.: Питер, 2003. 176 с. (Серия «Учебники для вузов»).
- Храмцов П. Информационно-поисковые системы' Internet // Открытые системы. 1996. № 3(17).
- Храмцов П. Моделирование и анализ работы информационно-поисковых систем Internet // Открытые системы. 1996. № 6(20).
- Чурсин Н.Н. Популярная информатика. Киев: Техника, 1982.
- Шрейдер Ю.А. Социокультурные и технико-экономические аспекты развития информационной среды // Информатика и культура. Новосибирск: Наука. Сибирское отделение. 1990. С. 50 82.
- Экономика, разработка и использование программного обеспечения ЭВМ: Учебник /В.А. Благодатских, М. А. Енгибарян, Е. В. Ковалевская и др. М.: Финансы и статистика, — 1995. 288 с.
- Экономическая информатика. / Под ред. П. В. Конюховского и Д.Н.' Колесова. СПб.: Питер, 2000. 560 с.
- Экономическая информатика: Учебник / Под ред. В. П. Косарева и Л. В. Еремина. М.: Финансы и статистика, 2002. 592 с.
- Электронные библиотеки: перспективные методы и технологии, электронные коллекции // Сборник трудов пятой всероссийской научной конференции, 29 31 октября 2003 г. / Науч. ред. Л. А. Калиниченко. СПб, 2003.
- Якубайтис Э.А. Информационные сети и системы: Справочная книга. М.: Финансы и статистика, 1996. 368 с.
- Ярочкин В.И. Информационная безопасность: Учебник. М.: Академический проект- Фонд «Мир», 2003. 640 с.
- Baeza-Yates R. Ribeiro-Neto B. Modern Information Retrieval // ACM Press Series. New York: Addison Wesley, 1999. http://citeseer.ist.psu.edu/ baezayates99modern. html (дата обращения 26.12.2009).
- Brin S., Page L. The Anatomy of a Large-Scale Hypertextual Web Search Engine // Computer Networks and ISDN Systems. 1998. № 30.
- Carmel D., Soffer A. Probabilistic Models of Information Retrieval. Israel: Haifa University, 2003.
- Draper S. Mizzaro’s Framework for Relevance. 1998. http://www.psu.gla. ac.uk/~steve/stefano.htm (дата обращения 26.12.2009).
- Dumais S.T. Using Latent Semantic Indexing (LSI) for Information Retrieval, Information Filtering, and Other Things // Talk at Cognitive Technology Workshop. April 4−5, 1997.
- Osipov G.S., Smirnov I.V., Tikhomirov I.A., Vybornova O.V., Zavjalova O.S. Linguistic Knowledge for Search Relevance Improvement // Papers of Joint conference on knowledge-based software engineering JCKBSE'06, IOS Press, 2006. P:. 294−302.
- Gabrielli S., Mizzaro S. Negotiating a Multidimensional Framework for Relevance Space // Proc. of the MIRA'99. 1999.
- Greisdorf H. Relevance: An Interdisciplinary and Information Science Perspective. Informing Science, N3 (2), 2000.
- Haveliwala T. (1999) Efficient Computation of PageRank. Technical Report. Stanford: сайт. URL: http://ilpubs.stanford.edu: 8090/386/ (дата обращения 25.05.2009).
- Hofmann Т. Probabilistic Latent Semantic Indexing. // 22nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, Berkeley, CA, USA, 1999.
- Indexing by Latent Semantic Analysis / S. Deerwester and others.'// Journal of the American Society for Information Science. 1990. № 41(6),
- Inmon W. H. Building The Data Warehouse (Second Edition). NY, NY: Wiley John, 1993.
- Larry Page, Sergey Brin, The PageRank Situation Ranking: Bringing Order to the Web. http://devaka.ru/files/ThePageRankCitationRanking.pdf (дата обращения 26.12.2009).
- Lin JJ. Indexing and Retrieving Natural Language Using Ternary Expressions // Master’s Thesis of Massachusetts Institute of Technology. 2001.
- Mizzaro S. How Many Relevances in Information Retrieval? // Interacting With Computers. 1998. № 10(3).
- Mizzaro S. Relevance: The Whole History // Journal of the American Society of Information Science. 1997. № 48(9).
- Pinkerton B. Finding What People Want: Experiences with the Web-Crawle // Proc. of the 2nd World Wide Web conference. 1994.
- Robins D. Interactive Information Retrieval: Context and Basic Notions // Informing Science. 2000. № 3(2).
- Saracevic T. Relevance Reconsidered '96 // Proc. of the Second Conference on Conceptions of Library and Information Science (CoLIS 2). Copenhagen, 1996.
- Searching the Web. / A. Arasu, and others. // ACM Trans, on Internet Technology/2001. № 1(1).
- Singhal A., ICaszkiel M. A Case Study in Web Search Using TREC Algorithms // Proc. of the 10th International World Wide Web Conference. Hong Kong, 2001.
- Sparck J.K., Walker S., Robertson S.E. A Probabilistic Model of Information Retrieval: Development and Comparative Experiments // Information Processing and Management. 2000. № 36(6).
- Sparck J. K. Reflections on TREC. // Information Processing & Management. 1995. № 31.
- The Term Vector Database: fast access to indexing terms for Web pages. / R. Stata, K. Bharat, F. Maghoul // Proceedings of WWW9, 2000: сайт URL: http://www9.org/w9cdrom/159/159.html (дата обращения 26.12.2009).
- Vakkari P. Cognition and Changes of Search Terms and Tactics During Task Performance: A Longitudinal Study // Proceedings of the RIAO 2000 Conference. Paris, 2000.
- Wallis P., Thom J.A. Relevance Judgements for Assessing Recall // Information Processing & Management. 1996. № 32(11).
- Wiemer-Hastings P., Wiemer-Hastings K., Graesser A. How Latent is Latent Semantic Analysis? // Proceedings of the Sixteenth International Joint Congress on Artificial Intelligence. San Francisco, 1999.
- Yuwono В., Lam S.L.Y., Ying J.H., Lee D.L. A World Wide Web Resource Discovery Systems // World Wide Web Journal. 1996. № 1(1).
- Yuwono В., Lee D. Search and Ranking Algorithms for Locating Resources on the World Wide Web // Proc. of the 12th International Conference on the Data Engineering. New Orleans (Louisiana), 1996.161