Помощь в учёбе, очень быстро...
Работаем вместе до победы

Введение. 
Разработка системы сбора статистики использования маркеров стиля в научных публикациях на английском языке

РефератПомощь в написанииУзнать стоимостьмоей работы

Корпусная лингвистика является одним из наиболее перспективных и востребованных направлений в области исследований естественного языка. Данная наука занимается разработкой, созданием и использованием, так называемых текстовых корпусов, состоящих из документов, объединённых по какому-либо признаку. С помощью корпусов лингвисты решают широкий спектр задач, например, подсчитывают статистику… Читать ещё >

Введение. Разработка системы сбора статистики использования маркеров стиля в научных публикациях на английском языке (реферат, курсовая, диплом, контрольная)

Корпусная лингвистика является одним из наиболее перспективных и востребованных направлений в области исследований естественного языка. Данная наука занимается разработкой, созданием и использованием, так называемых текстовых корпусов, состоящих из документов, объединённых по какому-либо признаку. С помощью корпусов лингвисты решают широкий спектр задач, например, подсчитывают статистику использования различных языковых единиц, представление лингвистических данных, реализация математического анализа текста и т. д.

Проведение анализа текста без использования компьютерных инструментальных средств — это достаточно затратный по времени и силам процесс, поэтому необходимо использовать программные инструментальные средства. На данный момент существует большое количество инструментов для обработки корпусов текстов. Наиболее распространенными являются AntConc[1], WordSmith Tools[2], Gate Developer[3], Sketch Engine[4] и CQPweb[5], каждая из которых предоставляет пользователю возможность хранить и редактировать корпуса текстов. Однако, вышеупомянутые средства имеют ряд недостатков, например, подобные системы имеют недостаточные средства сбора статистики, так как они не адаптируемы к потребностям пользователей. Но необходимо отметить, что подобный функционал должен быть в системах такого рода, так как с появлением корпусов, объёмы исследуемых данных в разы увеличились, и ручная обработка стала весьма трудозатратной.

Таким образом, статистическая обработка языка ускоряет исследование, а также позволяет с помощью методов математической статистики подтвердить или опровергнуть гипотезу о каком-либо языковом явлении. Из чего следует, что данная работа актуальна и является решением проблемы недостаточного функционала систем обработки корпусов текстов.

Одним из инструментов для обработки корпусов текстов является программа Gate Developer. Данная программа позволяет создавать и изменять правила по обработке текстов. Стоит отметить, что данный инструмент широко применяется для обработки корпусов текстов. Программа является бесплатной и предоставляется с открытым исходным кодом, что очень удобно для дальнейшего расширения функционала. Так же, как и в системах упомянутых выше, в программе Gate Developer нет инструментария, позволяющего генерировать отчеты о собранной статистике.

Объектом исследования в данной работе выступают инструментальные средства обработки текстовых корпусов. Тогда как предметом — средства сбора статистической информации при обработке корпусов текстов, встроенные в инструментарий.

Таким образом, целью данной работы является разработка средства сбора статистики на базе программы Gate Developer для отображения информации о корпусе текстов, обладающего такими свойствами как генерация отчетов о собранных данных, на основе параметров, введенных пользователем, и формирование структуры отчета.

Для достижения данной цели необходимо выполнить ряд задач:

  • 1. Провести анализ существующих средств обработки лингвистических корпусов. Выявить основные достоинства и недостатки рассмотренных программ. Рассмотреть примеры реализации плагинов в программе Gate Developer. Рассмотреть средства генерации отчетов.
  • 2. Сформулировать функциональные требования к разрабатываемому продукту. Выбрать инструментальные средства реализации.
  • 3. Разработать архитектуру модуля для сбора статистики.
  • 4. Разработать плагин для сбора статистики и базовые отчетные формы.

Для исследования объекта необходимо применить такие методы как:

  • — моделирование информационных систем (для моделирования плагина и его архитектуры);
  • — формализация (при представлении требований к продукту);
  • — статистика (для сбора статистических данных в корпусах текстов);
  • — вероятностно-теоретические методы (при расчёте дополнительных показателей, выводимых в отчете по сбору статистики).

Результатом выполнения данной работы должен быть плагин, позволяющий представить пользователю определенный набор статистики в виде отчета.

Данная работа состоит из 3 глав. Первая глава содержит в себе сравнительный анализ существующих средств обработки языка, а также анализ реализованных плагинов для программы Gate Developer. Во второй главе формируются требования к разрабатываемому плагину, описывается выбор средств для его разработки, а также разрабатывается архитектура плагина. Третья глава является описанием реализации программы, ее работы и первичного тестирования.

Показать весь текст
Заполнить форму текущей работой