Математический аппарат для исследования текстов на естественном языке

РефератПомощь в написанииУзнать стоимостьмоей работы

Самый первый частотный словарь русского языка был опубликован в 1953 году и состоял из 1700 слов. В научной школе в Таллине в 1963 году был издан первый в Советском Союзе частотный словарь русского языка, включающий в себя 2500 слов. Такое небольшое количество слов (1700 и 2500) в словарях объясняется тем, что все вычисления проводились лингвистами вручную. Использование ЭВМ для создания списка… Читать ещё >

Математический аппарат для исследования текстов на естественном языке (реферат, курсовая, диплом, контрольная)

Частотный анализ текстов на естественном языке

Современные статистические методы, широко применяемые при решении различных проблем и задач компьютерной лингвистики, основываются главным образом на обработке информационных ресурсов, представленных в виде корпусов текстов. Под корпусами текстов понимают набор (совокупность, коллекцию) текстов (документов). Именно они являются основным источником создания специальных словарей, а также предоставляют возможность для создания и дальнейшего усовершенствования инструментария автоматического анализа различных текстов.

Одним из наиболее мощных инструментов анализа естественных языков, в основе которого лежат методы математической статистики, является составление частотных словарей. Частотный словарь — разновидность словаря (как правило, одноязычного), в котором лексические единицы характеризуются с точки зрения частоты их употребления в коллекции (совокупности) текстов, которые могут представлять или язык в целом, или определенный функциональный стиль речи, или творчество определенного автора. В зависимости оттого, какие лексические единицы используются, различают частотные словари слов, словоформ, основ слов, словосочетаний и т. п.

Применение статистических методов в лингвистике требует использовать такое понятие, как словоупотребление. Под словоупотреблением понимается любой «графически подозрительный» на слово набор букв между разделителями (пробелами, знаками препинания). Естественно, одно слово (в разных формах) может использоваться в тексте несколько раз. При этом каждый раз это будет рассматриваться как новое словоупотребление. По этой причине количество словоупотреблений в тексте — это количество встреченных наборов символов, которые понимаются как слова при просмотре текста.

Принято различать абсолютную и относительную характеристики употребительности лексических единиц. Частота появления данной лексической единицы в коллекции исследуемых тексов называется абсолютной характеристикой. Что качается относительной характеристики, то для ее вычисления необходимо разделить частоту употребления данной лексической единица на общее количество слов в рассматриваемом тексте (корпусе текстов).

Пусть частотный словарь содержит i-тую словоформу и соответствующую ей частоту, тогда.

(1).

где — общее количество слов или словоформ, встреченных в исследуемом тексте, либо в совокупности текстов, либо во всех текстах на данном языке, — данная словоформа, — количество вхождений данной лексической единицы во множество всех встреченных слов или словоформ.

Важным для составления частотных словарей является использование такого понятия, как ранг. Рангом слова называют порядковый номер этого слова в частотном словаре, в котором все лексические единицы упорядочены по частоте. Как правило, слова в частотном словаре располагаются по уменьшению частоты их употребления. Таким образом, чаще всего под рангом слова имеют в виду номер этого слова в словаре, упорядоченном по уменьшению частоты слов.

Получаем, что для описания частотных словарей языка мы имеем такие понятия, как:

· словоупотребление;
· частота употребления слов — количество конкретных словоупотреблений в совокупности текстов, деленное на общее количество словоупотреблений;
· частотный словарь, составленный и словоформ с частотами их употреблений;
· ранг слова (если словоформы в частотном словаре упорядочены по уменьшению частоты).

В большинстве частотных словарей представлены значения как абсолютных, так и относительных характеристик употребительности лексических единиц. В роли относительной характеристики может выступать либо ранг слова, либо какой-то другой признак, по которому ранг может быть вычислен с определенной точностью.

Обычно частотные словари строятся не для одного текста, а для корпусов текстов. То есть, берется набор текстов, например, из определенной предметной области или представительный для языка в целом, для конкретного функционального стиля речи, для творчества конкретного автора, и из него извлекаются словоформы, части речи, словосочетания или основы слов.

Следует отметить, что при составлении частотных словарей могут возникнуть следующие вопросы и сложности:

· будут ли идентичными результаты, полученные на разных корпусах текстов;
· всплеск частоты отдельных слов в зависимости от смысловой направленности текстов;
· нерациональное ранжирование менее частотных слов (сложно определить их позиции в частотном словаре).

Все эти проблемы можно объяснить тем, что употребление слов языка, со статистической точки зрения, представляет собой большое количество редких событий. Другими словами, лишь небольшое число слов языка используется очень часто, в то время как подавляющее большинство лексических единиц употребляется крайне редко.

Несмотря на определенные сложности, возникающие при составлении списков слов по частоте их употребления, подобного рода словари являются полезным инструментом для сравнения двух корпусов текстов, позволяя определить слова наиболее характерные для каждого из них. Кроме этого, они используются для разработки высокоэффективных методик обучения языку, а также для решения многих задач в различных областях (информатика, теория связи).

Как уже было отмечено, частотные словари применяются для анализа и сравнения двух корпусов текстов. По причине того, что коллекции исследуемых текстов могут иметь разный объём, учеными-лингвистами была введена такая оценка частоты, как частота на миллион словоформ (чмс), или instances per million words (ipm). На практике для определения списка ключевых слов, характеризующих исследуемые корпуса текстов, применяются разнообразные статистические меры.

Значительная часть частотных словарей, создаваемых в современное время, помимо частотных характеристик словоупотреблений содержат информацию о частоте встречаемости отдельных букв или буквосочетаний в определенных текстах на одном из естественных языков.

Кроме частотных словарей, составленных для общих корпусов текстов на естественных языках, особый интерес для решения многих практических задач представляют списки слов по частоте их употребления, составленные ограниченных множеств текстов: корпусов авторских текстов, текстов определенной тематики. Например, частотные словари используются при сравнении политических текстов, что позволяет делать выводы о направленности действий не только отдельных политиков и политических партий, но и целых государств.

Самый первый частотный словарь русского языка был опубликован в 1953 году и состоял из 1700 слов [6]. В научной школе в Таллине в 1963 году был издан первый в Советском Союзе частотный словарь русского языка [5], включающий в себя 2500 слов. Такое небольшое количество слов (1700 и 2500) в словарях объясняется тем, что все вычисления проводились лингвистами вручную. Использование ЭВМ для создания списка слов по частоте их употребления для русского языка произошло в 1977 году. Так был составлен частотный словарь Л. Н. Засориной, содержащий 40 000 слов [3]. Однако при создании этого словаря обрабатывались в основном тексты, связанные с атрибутикой советской власти, и по этой причине в него входило очень мало слов, используемых в настоящее время. Так начинает свое формирование научное направление, занимающееся составлением списков слов по частоте их употребления с использованием компьютерных технологий.

Таким образом, частотный словарь представляет собой список слов, в котором все лексические единицы расположены в порядке, соответствующем уменьшению частоты их употребления. В таком словаре порядковый номер каждого слова представляет собой его ранг. Ранг может выступать в качестве относительной характеристики употребительности лексических единиц, а абсолютной характеристикой служит частота появления данного словоупотребления или слова в исследуемой совокупности текстов. Обычно в частотных словарях представлены данные как об абсолютных, так и об относительных характеристиках употребительности слов. В зависимости от разновидности лексических единиц различают частотные словари слов, словоформ, основ слов, словосочетаний и т. п.

Несмотря на то, что первый частотный словарь был составлен около шестидесяти лет назад, в настоящее время подобного рода словари является очень эффективным и широко используемым на практике инструментом для решения многих проблем искусственного интеллекта. Главной целью составления списков слов по частоте является анализ корпусов текстов, определение наиболее характерных для них слов и последующий сравнительный анализ.

Показать весь текст

Заполнить форму текущей работой