Помощь в учёбе, очень быстро...
Работаем вместе до победы

Обзор существующих аналогов

РефератПомощь в написанииУзнать стоимостьмоей работы

Продолжением этого метода стал ресурс Фреймбанк. Фреймбанк позволяет хранить данные о модели управления, но и синтаксические связи которых сейчас порядка 27 000 пар. Тем самым данный проект имеет меньше информации, но информация в нем находится на более продвинутом уровне. извлечение модели сочетаемости, автоматизированным путем, уже есть нескольких работах для многих языков в том числе… Читать ещё >

Обзор существующих аналогов (реферат, курсовая, диплом, контрольная)

Основными инструментами изучения естественного языка являются корпуса текстов, Корпус — это представительные и полные собрания текстов, отражающие заданные явления языка. Очень часто необходимо получить информацию о синтаксической сочетаемости слов в корпусе, для выделения правил анализа и синтеза текстов, генерации зависимостей с использованием методов машинного обучения, извлечения и описания различных явлений в языке. Для этого обычно используются синтаксически размеченные корпуса к примеру, СинТагРус для русского языка. СинТагРус это корпус, содержащий в себе около 100 000 предложений. Но разработка подобных корпусов требует большого количества времени, в связи с чем объем аналогичных корпусов не так велик. Так же существующий на данный момент словари глагольного управления невелики по объему и не могут использоваться для автоматической обработки текстов. Так, например, словарь «Словарь сочетаемости слов русского языка» содержит в себе лишь 2500 статей (при наличии в русском языке около 30 000 глаголов), а словарь. Словарь глагольной сочетаемости непредметных имен русского языка — около 10 000 статей. Таким образом, существующие словари требуют существенного пополнения для их внедрения в процессы автоматической обработки текстов или их внедрения в процесс изучения русского языка. работа [Денисов 2002] содержит только 2500 статей, но они весьма весомы, в их приведена не только информация о сочетании слов с другими, но и толкования слов, а также их грамматические характеристики. Объем более старых работ, которые специализированы на глагольных управлениях [Розенталь 1986, Апресян 1982] также не большой. Что бы решить перечисленные задачи необходимо привлечение существующих электронных словарей таких как Словарь «КроссЛексика» который содержит порядка 2 миллионов связей, для каждой из которых есть примеры. Менее полный, но более распространенный словарь, в который включено порядка 10 000 статей, но он всё еще не может охватить большую часть лексики. Часть словарей, которые были указаны выше, вместе с информацией, можно найти в Национальном корпусе русского языка (НКРЯ), они использовались для создания электронных словарей.

Продолжением этого метода стал ресурс Фреймбанк. Фреймбанк позволяет хранить данные о модели управления, но и синтаксические связи которых сейчас порядка 27 000 пар. Тем самым данный проект имеет меньше информации, но информация в нем находится на более продвинутом уровне. извлечение модели сочетаемости, автоматизированным путем, уже есть нескольких работах для многих языков в том числе и русского. В них используются конечные автоматы для распознавания отдельных сочетаний таких как «глагол + группа существительного» или системы синтаксического анализа. Далее предлагалась процедура, которая выделяет из полученных результатов синтаксические связи между глаголом (а в случае — и существительным) и зависимыми словами.

Но невысокое качество синтаксического анализа и морфологическая неоднозначность сводили результат к тому, что на выходе был достаточно большой процент ошибок 5% - 20%, такой результат требовал ручного анализа. Большое количество выделяемых зависимостей делало работы по созданию базы данных сочетаемости слов почти невозможным, небольшое количество связей не приносило желаемого результата в сравнении с бумажными словарями. Для решения этой проблемы могут быть использованы размеченные корпуса. Сейчас НКРЯ содержит 30 миллионов предложений, в которых почти 210 миллионов словоупотреблений. Омонимия снята лишь с 516 000 предложений, содержащих почти 6 миллионов словоупотреблений.

Самый крупный на данный момент, синтаксически размеченный корпус СинТагРус по состоянию на данный момент содержит порядка 100 000 синтаксически размеченных предложений. По оценкам для того чтобы составить словарь глагольного управления для 25 000 — 30 000 глаголов требуется корпус примерно в 6 миллионов синтаксически размеченных предложений, таким образом объем существующих корпусов всё еще недостаточно. Поиск примеров сочетаемости слов может производиться при помощи широко используемых Национального корпуса русского языка (НКРЯ) или системы Sketch Engine (http://sketchengine. co. uk.

Sketch Engine — платформа, которая предоставляет доступ к практически ста корпусам, тринадцать из которых, не считая параллельных, на английском языке. У Sketch Engine обширный набор инструментов для поиска, сортировки и анализа. Часть из них уникальны, и позволяют значительно облегчить исследование. Стоит уделить внимание WordSketches — тип поиска, который выводит данные о частотности и значимости конструкций, содержащих искомую языковую единицу.

На базе Sketch Engine существует (от англ. soil — почва), состоит из 2537 научных статей 2000;2015 годов издания. Корпус состоит из 45 424 906 словоформ или 25 545 924 слов (лексем).

недостатки ограниченная доступность для людей, косвенно относящихся к лингвистике тоже самое можно сказать и о Sketch Sketch.

отсутствие метаданных: кроме названия оригинального файла.

RNC Sketches.

Национальный Корпус Русского создал свой сервис скетчей по биграммам: RNC Sketches.

характеристики:

Синтаксические отношения размечены автоматически с использованием парсера зависимостей Russian MaltParser и морфологического анализатора с автоматическим снятием неоднозначности [2]. Использован инвентарь синтаксических отношений корпуса СинТагРус [3]. Предложное СинтО разбито на подклассы по предлогам и падежу пост предложного слова, союзное СинтО — по союзам. Синтаксические отношения приведены в порядке уменьшения частотности.

ПЛЮСЫ:

Удобно пользоваться, широкий ряд синтаксических отношений Результаты поиска можно экспортировать в формате csv.

Можно экспортировать все биграммы, а в формате json!

Прозрачное, логичное устройство: биграммой считаются два слова, стоящих рядом, или же три, если центральное слово — предлог или союз.

Все слова в примерах имеют ссылки для перехода Высокая производительность МИНУСЫ:

Омонимия мешает получить достоверные данные, могут смешаться картины омонимов разный частей речи (например, «холодно» как предикатив и как наречие).

Маленький объем около 200 млн слов — некоторые слова не попали в этот объем.

Из основного НКРЯ не унаследованы мета текстовые признаки: жанр, тематика, год написания и т. д.

Нельзя получить контексты.

Показать весь текст
Заполнить форму текущей работой