Заключение.
Разработка поисковой системы для корпусной платформы

РефератПомощь в написанииУзнать стоимостьмоей работы

Наконец, в рамках статистического исследования был проведён сравнительный анализ различных типов запросов пользователей («точный» и шаблонный тип запросов, простые и составные запросы). Проведённый анализ позволяет выяснить, какие запросы удобнее для пользователей, что впоследствии может помочь в общем улучшении поисковой системы. Таким образом, можно сказать, что данная работа справилась… Читать ещё >

Заключение. Разработка поисковой системы для корпусной платформы (реферат, курсовая, диплом, контрольная)

Итак, подведём итоги проделанной работы и рассмотрим, какие из поставленных целей в результате оказались достигнуты. Сразу стоит отметить, что проведённое сравнительное исследование логов основных крупных русскоязычных корпусов является актуальным, так как ранее подобных сравнений не делалось. Некоторые учёные выдвигали различные гипотезы, касающиеся поведения пользователей во время поисковой сессии, однако, никак не подтверждали их в своих работах на реальных материалах. При этом корпуса, участвовавшие в настоящем исследовании, значительно различаются по объёму и специфике текстов, а также по аудитории пользователей, что позволило сделать исследование более репрезентативным.

Обращаясь к целям искомой работы, в первую очередь стоит уделить внимание теоретическому обзору основных поисковых систем, как лингвистических, так и обычных, за последние 20 лет с акцентом на методах ускорения поискового процесса. В рамках этого обзора особое внимание также уделено разным мнениям о том, в чём должна заключаться «лингвистичность» поиска и какие именно доработки обыкновенного поиска нужны лингвистам. Подобного подробного сравнительного исследования всех типов лингвистических поисковых систем, насколько известно, ранее не было, что также увеличивает актуальность проделанной работы.

Далее перейдём к статистическому исследованию, проведённому на материалах 4 крупнейших русскоязычных корпусов, а также разноязычных корпусов с платформы webcorpora.net. В начале исследования были выдвинуты две гипотезы, связанные с доработками принципа хранения данных: одна гипотеза была связана с кэшированием данных на время одной поисковой сессии, а вторая — с отдельным хранением индексов по особо частотным морфологическим шаблонам. Первая гипотеза подтвердилась на большинстве данных, так как в каждом из корпусов нашлось немало случаев длительных поисковых сессий с повторяющимися запросами. Учитывая то, что количество повторно заданных запросов составляло в среднем 15% от общего числа запросов сессии, кратковременное кэширование данных позволило бы уменьшить общее время поисковой сессии на 15%. Мы предлагаем сохранять кэшированные данные в течение 5−6 часов после окончания поисковой сессии, так как примерно в 30% случаев пользователь воспроизводит сессию повторно в течение этого периода времени. Вторая гипотеза была ориентирована на отдельное индексирование морфологических шаблонов, чаще всего встречающихся в запросах пользователей. Эта гипотеза основана на идее, высказанной в работе (Аброскин 2009), и заключается в том, что некоторые распространённые морфологические шаблоны будут частотнее других. В итоге гипотезу удалось подтвердить на материалах НКРЯ и Leeds. Наиболее частотными оказались простые, не распространённые шаблоны частей речи — глагола, существительного и прилагательного. Опираясь на то, что каждый из этих шаблонов запрашивался пользователями в среднем 10% от общего числа запросов, можно считать, что отдельное индексирование данных по этим шаблонам сможет ускорить поиск. Помимо этих основных шаблонов, были обнаружены менее частотные шаблоны — «глагол прошедшего времени» и «существительное именительного/родительного/винительного падежа». В сравнении с упомянутыми ранее простыми шаблонами, эти запрашивались пользователями значительно реже, но при этом были гораздо частотнее всех прочих составных шаблонов. Можно предположить, что при возможности обработать больший объём данных можно получить результаты с более значимой частотностью этих шаблонов. Пока же предлагается индексировать эти шаблоны так же, как и обычные простые, с тем, чтобы ускорить поиск, пусть и незначительно.

Таким образом, можно сказать, что данная работа справилась со всеми поставленными целями, как теоретическими, так и практическими.

Говоря о возможных перспективах развития проекта, можно, во-первых, провести более масштабное исследование, основанное на данных корпусов за более обширный период времени. Это позволило бы сделать картину запросов более разнообразной и более полной. Во-вторых, большую актуальность представляют доработки существующих библиотек полнотекстового поиска. Так, например, не во всех упомянутых библиотеках реализован поиск слов на некотором расстоянии друг от друга (например, «иметь {2 words} жизни», где 2 слова в фигурных скобках могут быть абсолютно любыми). Наконец, ещё одним путём развития проекта может стать масштабное исследование предпочтений пользователей касательно способа формулирования сложных составных запросов. Как было отмечено выше, некоторые пользователи предпочитают специальный язык запросов, а другим удобнее задавать сложные запросы через специальный интерфейс. Исследование этого вопроса может позволить сделать поисковую систему более удобной для пользователей, а, значит, и более качественной.

Показать весь текст

Заполнить форму текущей работой

Другие работы

Обязанности оператора ПДн

Оператор обязан предоставить субъекту ПДн по требованию все имеющиеся сведения о нем, целях и условиях обработки, способах защиты его персональных данных. Оператор также должен уничтожить или блокировать соответствующие персональные данные, внести в них необходимые изменения по предоставлении субъектом ПДн или его законным представителем сведений, подтверждающих, что персональные данные, которые…

Реферат