Помощь в учёбе, очень быстро...
Работаем вместе до победы

Поисковые системы в Интернете

РефератПомощь в написанииУзнать стоимостьмоей работы

Основы русскоязычного интернет-поиска. Основной проблемой, с которой столкнулись разработчики поисковых систем при анализе русскоязычной информации, стала проблема организации морфологического поиска. То есть поисковая система должна была научиться искать все формы любого слова, независимо от того, в какой форме это слово введено пользователем в строку поиска. Как известно, русский язык обладает… Читать ещё >

Поисковые системы в Интернете (реферат, курсовая, диплом, контрольная)

Базовые технологии информационного поиска в Интернете

Возможность поиска информации в Интернете является одним из самых востребованных сервисов Глобальной сети. Это естественно, поскольку как только Интернет стал общедоступным средством обмена информацией, все его участники начали активно размещать в нем ту информацию, которой они хотели бы поделиться с интернет-сообществом. Объем этой информации начал расти экспоненциально, существенно опережая процесс роста числа компьютеров в сети. Относительная простота языка создания веб-страницы — HTML (Hyper Text Mark-up Language — язык разметки гипертекста) — сделала процесс создания страниц и размещения их в сетевом информационном пространстве доступным не только неспециалисту в области программирования, но практически любому желающему. Было подсчитано, что каждые три секунды в Интернете появляется новая веб-страница. В ситуации постоянного неконтролируемого роста и обновления информации насущной потребностью стало создание средств ориентации в открытом и практически безграничном информационном пространстве, что и было сделано с помощью разнообразных средств поиска нужной пользователю информации.

Программисты в разных странах начали работать над созданием средств быстрого оперативного мониторинга сетевого пространства — надо было научиться анализировать в первую очередь семантические доминанты информационного содержимого каждой доступной веб-страницы, а также фиксировать, на каком веб-сервере и на какой веб-странице находится эта информация (т.е. заносить в базу данных веб-адрес страницы и ее краткое семантическое описание, чаще всего в виде последовательности ключевых слов и (или) тезаурусных характеристик содержимого страницы).

Ответом на этот запрос интернет-сообщества стало появление специализированных компьютерных программ — поисковых роботов (от англ. webcrawler, web-spider — ползающее насекомое, паук (в Интернете)), постоянно собирающих информацию о содержимом всех доступных веб-страниц Интернета, фиксирующих веб-адреса этих страниц и поставляющих собранную информацию в оперативно обновляемые базы данных, которые хранятся па специализированных серверах Интернета. Доступ к сформированным таким образом базам данных предоставляется через специальный поисковый сервер (от англ. Search engine, или Web search engine, — инструмент для поиска в Интернете), или поисковую систему, поисковую машину, поисковик, как их называют в России. Наиболее эффективно работающие программы поиска и автоматизированного описания информации позволили нескольким коммерческим компаниям сформировать достаточно большие базы данных о содержании Интернета и стать лидерами рынка поисковых услуг.

Первые эффективные поисковые системы для индексации и поиска информации в Интернете были созданы в США, из них наиболее успешными и популярными были появившиеся в 1995 г. поисковые серверы Lycos, Yahoo и Alta Vista. Эти системы очень быстро стали известны во всем мире и на долгое время практически превратились в монополистов на рынке информационного поиска — в первую очередь для англоязычных сайтов Интернета. Однако по мере того как в Интернете опережающими темпами шел рост информационного потока нс только па английском языке, но и на других мировых языках, возникла потребность в поисковых системах, которые умели бы индексировать информацию на разных языках (и в первую очередь на языках, письменность которых не была основана на латинском алфавите, а также для языков, грамматическая система которых существенно отличается от грамматики английского языка). Для решения этой задачи в разных странах начали появляться проекты по созданию национальных поисковых систем, например, российские проекты «Яндекс» (Yandex) и «Рамблер» (Rambler), китайский Baidu, корейский Naver и др. Не все такие проекты были успешными, тем не менее необходимо отметить, что по охвату неанглоязычного сегмента Интернета и по полноте информационного наполнения проиндексированной базы данных сегодня в мире полноценно функционируют несколько национальных поисковых систем, в первую очередь это поисковики, созданные в России (например, лидеры среди русскоязычных поисковых систем «Яндекс» и «Рамблер») и в Китае (например, лидер среди китайскоязычных поисковых систем Baidu).

Для справки

Основы русскоязычного интернет-поиска. Основной проблемой, с которой столкнулись разработчики поисковых систем при анализе русскоязычной информации, стала проблема организации морфологического поиска. То есть поисковая система должна была научиться искать все формы любого слова, независимо от того, в какой форме это слово введено пользователем в строку поиска. Как известно, русский язык обладает развитой системой словоизменения, поэтому программистам, которые работали над созданием алгоритмов семантического описания содержания вебстраницы, необходимо было закодировать все русские словоизменительные модели в алгоритмическом формате. Выдающуюся роль в решении этой задачи сыграло появление фундаментального исследования «Русское именное словоизменение» и «Грамматического словаря русского языка» А. А. Зализняка. Описанные в нем модели легли в основу практически всех видов компьютерной обработки текстов на русском языке (русскоязычных спелчекеров, веб-поиска и т. п.), поэтому А. А. Зализняк может быть назван одним из «родителей» русскоязычного Интернета, поскольку именно его научные разработки во многом обеспечили распространение русского языка в мировом интернет-пространстве (по некоторым данным, русский язык сегодня стал вторым по частоте использования во Всемирной паутине после английского языка)[1].

  • [1] Russian is now the second most used language on the web. Posted bv Matthias Gelbmann on 19 March 2013 in News // Content Languages. URL: w3techs.com/blog/entry/russian_ is_now_the_second_most_used_language_on_the_web (дата обращения: 30.01.2015).
Показать весь текст
Заполнить форму текущей работой