Структурно-функциональное моделирование лексики в прагматически-ориентированных лингвопроцессорах
Волкова И. А., Головин И. Г. Об одном подходе к построению синтаксического модуля в системе распознавания устной речи // Сборник трудов Международного семинара по компьютерной лингвистике и ее приложениям «Диалог-97». — Ясная Поляна, 1997.— С.61−62. Гатиатуллин А. Р. К разработке формального аппарата описания модели морфем // Сборник трудов Республиканской научно-практической конференции… Читать ещё >
Содержание
Актуальность проблемы. В системах обработки знаний, таких как системы понимания и перевода ЕЯ-текстов, диалоговые системы, информационно-поисковые системы, значительное место занимает проблема разработки баз знаний, достаточно полно и адекватно отображающих информацию о естественном языке.
Такие базы знаний практически представляют собой лингвистические модели, помимо информационной структуры включающие также специализи-рованые лингвистические процессоры как для развития самой модели, модификации данных, так и для применения модели в решении лингвистических задач.
Построение универсальной лингвистической модели представляется малоперспективным, с одной стороны, ввиду отсутствия универсальной формальной базы, и даже приемлемой формальной модели какого-либо языка, с другой стороны, из-за того, что даже реализованная модель, максимально приближенная к универсальной, с применением современных технологий, будет неэффективной и малопригодной по временным и емкостным характеристикам. На наш взгляд перспективным является прагматически-ориентированнный подход к разработке лингвистических моделей, включающих минимальный набор средств, разработанных исходя из принципа достаточности для решения определенного круга задач [Сулейманов Д.Ш., 1998]. Прагматически-ориентированные лингвистические модели строятся исходя из специфики задач соответствующей проблемной области, что позволяет разрабатывать информационные технологии и реализовать лингвистические системы, активно и эффективно используемые на практике.
Сулеймановым Д.Ш. дается следующая классификация прагматически-ориентированных лингвистических моделей:
I) когнитивные (семантико-контекстные) модели, обеспечивающие глубинное проникновение в текущий контекст и трансформацию его с сохранением смысла как внутри одной модели так и между разными моделями (например, системы машинного перевода, системы извлечения знаний) —
2) диалоговые запросно-ответные или интерактивные модели, обеспечивающие естественно-языковой диалог автоматизированной системы с пользователем при запросах к системе или ответах пользователя на вопросы системы. Функция таких моделей, помимо анализа или синтеза ЕЯ-текстов, заключается в формировании корректного образа ответа на запрос и/или реакции на ответ пользователя-
3) концептуально-формальные модели, обеспечивающие целевую обработку текстов согласно соответствующих формальных правил определенного языкового уровня (собственно грамматики ЕЯ) —
4) концептуально-функциональные модели, являющиеся наиболее полными описаниями определенного ЕЯ-уровня или уровней, обеспечивающими разработчиков структурно-функциональной, а также справочной информацией, необходимой при построении систем и информационных технологий обработки естественно-языковых текстов.
Из концептуально-функциональных лингвистических моделей, описывающих языковые уровни, наиболее актуальными представляются модели морфологического уровня. Это вызвано тем, что информация о морфологической структуре словоформ в предложении во многом взаимосвязана с синтаксической и семантической структурами самого предложения, а лингвистические процессоры для морфологического анализа и генерации словоформ входят в состав синтаксических и семантических лингвопроцессоров.
В настоящее время в татарском языкознании наиболее упорядоченным, полным и унифицированным является описание татарских словообразовательных аффиксов, выполненное Ганиевым Ф. А. [Татарская грамматика, Т1, 1993]. Татарские словоизменительные аффиксальные морфемы практически не имеют такого описания. Как правило, они рассматриваются при изучении тех языковых категорий, где, по мнению авторов этих описаний, проявляются соответствующие аффиксы. Например падежные аффиксы приводятся и изучаются с категорией имени существительного, но они уже не исследуются в других парадигмах [Татарская грамматика, Т2, 1993]. Такие свойства аффиксов как синонимия, омонимия, полисемия, антонимия, рекурсия, модальность, регулярность практически не отражаются при их описании.
Таким образом, актуальной является задача полной «инвентаризации» татарских аффиксальных морфем с описанием функций и ситуаций проявления их, в отображении на различные языковые уровни: фонологический, морфологический, синтаксический и семантический, а также на пересечения этих языковых уровней.
Весьма актуальной является также задача систематизации отношений, выражаемых аффиксальными морфемами, и создания целостной картины этих отношений для описания значения каждой морфемы в некотором унифицированном виде в подразделе «Семантический аспект» с целью их дальнейшего использования в лингвопроцессорах. Как известно, значение морфемы, зачастую, может быть установлено только исходя из контекста, в котором она встречается и является трудноформализуемым параметром. Тем не менее, создание формального аппарата, возможно, нечеткого, позволяющего максимально полно отразить те отношения, в лексикализации которых участвуют рассматриваемые морфемы, повысит репрезентабельность, прозрачность и прикладную ценность модели.
Актуальность построения лингвопроцессоров, таких как морфологический и семантико-синтаксический анализаторы, связана с тем, что данная тема, имея богатую предысторию изучения для индоевропейских и ряда других групп языков [Апресян Ю.Д. и др., 1992, Волкова и др., 1997, Григорьев Н. В., 1999, Митюшин Л. Г., 1996, Страхович Э. В., 1996, Хомский Н., 1962], практически не исследована в аспекте построения таких программ для татарского языка.
Создание структурно-функциональной модели на основе морфем и соответствующего программного инструментария ее поддержки и обработки является весьма актуальной еще по следующим двум обстоятельствам. Во-первых, результаты исследований и разработок, полученные для татарского языка почти в полной мере и без существенных изменений переносимы и на другие естественные языки тюркской группы языков. Во-вторых, исследования направлены на развитие татарского языка и расширение его функционального ареала, включая новые информационные технологии, как одного из государственных языков Республики Татарстан наряду с русским языком.
Разработка морфологического анализатора, описываемого в
приложении к диссертации, является важной задачей компьютерной лингвистики. Этот морфологический анализатор разработан с использованием модели на основе морфем и имеет множество
приложений, в частности, в программах поиска указанных слов для перевода в многоязычных электронных словарях, в квантитативных исследованиях, а также для составления словарей по машиночитаемой текстовой базе.
Особенность данного морфологического анализатора заключается в том, что разбиение на морфемы осуществляется без обращения к какому-то ни было базисному словарю корней и основ. Только после того, как получены варианты разложений на морфемы, производится поиск предполагаемых основ в словаре.
Для семантико-синтаксического анализатора (ССА) татарской фразы, исследуемой и реализуемой в рамках диссертации, актуальность определяется, прежде всего, следующими двумя аспектами. С одной стороны, ССА это — часть фундаментальной научно-прикладной задачи описания концептуально-функциональной модели татарского языка и верификации модели морфем, с другой стороны — практический инструмент, позволяющий определять корректную расстановку пауз на границах словоформ, осуществлять корректную сегментацию текста и проверять правильность порядка следования слов в сегменте в составе таких программных систем, как синтезатор татарской речи, татарско-турецкий и татарско-русский переводчики, татарский корректор, разрабатываемых в совместной научно-исследовательской лаборатории «Проблемы искусственного интеллекта» Академии наук Татарстана и Казанского госуниверситета.
Цель и задачи исследования. Целью диссертационной работы является разработка структурно-функциональной модели лексики и соответствующих формализмов для ее описания, программно-технологического комплекса, используемого в научных исследованиях и в решении практических лингвистических задач.
Для достижения поставленной цели в рамках диссертационной работы решаются следующие задачи:
— исследование морфологического уровня языка и разработка архитектуры структурно-функциональной модели на основе морфем,
-разработка базовых элементов формального языка на основе продукционных правил, теории множеств и логики предикатов 1-го порядка, для описания модели,
— создание формального аппарата в виде объектно-предикативной системы для описания значений аффиксальных морфем,
-создание программно-информационной интегрированной среды для создания, модификации и применения модели морфем,
— заполнение модели на примере татарского языка,
-создание прагматически-ориентированных лингвопроцессоров на базе модели морфем и входящих в состав программно-технологического комплекса.
Объект исследования. Объектами исследования являются:
-структурно-функциональная модель лексики на основе аффиксальных морфем, заполненная на примере татарского языка,
-морфема и ее проявления в проекции на разные языковые уровни: фонологический, морфологический, синтаксический, семантический, а также их пересечения.
Данная работа, имеющая в целом языко-независимый характер, в практической и иллюстрационной частях опирается на материал татарского языка.
Выбор языка обусловлен следующими причинами. Татарский язык как язык агглютинативного типа, обладает морфологией богатой по составу, сложной по содержанию, но простой и закономерной по структуре.
Научная новизна. В процессе исследований получены следующие научные результаты, выносимые на защиту.
Разработана структурно-функциональная модель лексики на основе прагматически-ориентированного подхода к построению систем обработки ЕЯ-информации, предложенного Сулеймановым Д. Ш. Структурно-функциональная модель на основе морфем, раскрываемая в диссертационной работе, не имеет аналогов и, в силу ее открытости, является универсальной моделью для «инвентаризации» морфем любого естественного языка.
Разработаны базовые элементы языка формального описания модели на основе продукционных правил, теории множеств и логики предикатов 1-го порядка, для описания моделирования лексики.
Впервые разработана и реализована формальная модель для описания значений аффиксальных морфем.
Реализован программный комплекс по автоматизации работы с моделью, с помощью которого произведено заполнение модели для 74 аффиксальных морфем татарского языка. В программный комплекс входит морфологический анализатор, который в своей работе использует информацию, содержащуюся в модели. Корректность работы морфологического анализатора на большом объеме текстового материала является косвенным подтверждением достаточной полноты и адекватности информации, содержащейся в модели.
Практическая ценность полученных результатов состоит в том, что на их основе разработана прагматически-ориентированная структурно-функциональная модель лексики и реализован программно-информационный комплекс, активно используемый в научных исследованиях и в учебном процессе.
Предлагаемая структурно-функциональная модель, является одним из способов полной «инвентаризации» морфем татарского языка, формализации их свойств с точек зрения различных языковых уровней и служит концептуально-функциональной базой для лингвопроцессоров и информационно-справочных систем. Она также может быть использована в других прикладных программах, в виде учебно-консультационной базы при изучении татарского языка и научно-прикладных исследованиях.
Одним из главных принципов построения такой лингвистической модели — является принцип языконезависимости. Это достигается тем, что в основе модели лежит языко-независимое универсальное «ядро» и некая языко-зависи-мая «оболочка». Например, для моделей отражающих семантический уровень языка, «ядром» служит глубинное представление значения в виде систем отношений и объектно-предикативных схем, для синтаксического уровня — это деревья зависимостей или деревья непосредственных составляющих. Языко-зависимую «оболочку» лингвистических моделей составляют лексические словари и правила грамматики конкретного ЕЯ-языка. Очевидно замена одного языкового наполнения «оболочки» лингвистической модели другим, позволяет использовать тот же программный инструментарий для обработки другого естественного языка.
Расширение модели для других языков предоставляет возможность использования модели на основе морфем, как формализованную базу для сравнительного анализа этих языков.
Основные результаты диссертации получены в ходе работ по реализации Программы Академии наук Татарстана до 2005 года «Компьютерное обеспечение функционирования татарского языка как государственного. Концептуально-алгоритмическая модель».
Практические разработки и реализация результатов диссертации с 1995 года осуществлялись в рамках Государственной программы Республики Татарстан по сохранению, изучению и развитию языков народов Республики Татарстан.
Структурно-функциональная модель на базе аффиксальных морфем, а также программно-информационный комплекс, разработанный на ее основе, активно используются в учебном процессе в Казанском государственном университете, и в Казанском государственном педагогическом университете в учебных курсах «Компьютерная лингвистика», в научных исследованиях в татарском языкознании учеными факультета татарской филологии и истории КГУ, а также Института языка, литературы, искусства АНТ им. Г.Ибрагимова.
Документы, подтверждающие внедрение и практическое использование результатов диссертации, прилагаются.
Методы исследования.
При разработке структуры модели и ее наполнении использовались описательно-аналитический и контекстологический методы.
Формальное описание значений потребовало привлечения структурно-семантического, логического и когнитивного моделирования.
При разработке программного комплекса использовались методы алгоритмического моделирования, структурного программирования, логического программирования .
Апробация работы. Результаты работы докладывались на международных конференциях и семинарах: на Всесоюзной конференции по искусственному интеллекту с Международным участием (г. Пущино, 1998), на Международном рабочем семинаре в рамках КИИ-96 «Модели национальных языков», на международных семинарах по компьютерной лингвистике и ее
приложениям ДИАЛОГ (Ясная Поляна, 1997, Таруса, 1998, 1999, Протвино, 2000), на Международной конференции «Языковая семантика и образ мира» (г.Казань, 1997), на международной конференции «Интерактивные системы „Проблемы человеко-компьютерного взаимодействия“» (г.Ульяновск, 2001), на Казанской школе по компьютерной и когнитивной лингвистике TEL (г.Казань, 1999−2001) — а также на различных республиканских и городских научных семинарах, итоговых научных конференциях КГУ и
ИЯЛИ АНТ (1995−2002).
Диссертант за цикл работ по теме «Структурно-функциональная модель на основе морфем» получил третью премию на республиканском конкурсе молодых ученых, проведенном Академией наук РТ.
Публикации. По теме диссертации опубликовано в открытой печати 16 работ, отражающих основные научные результаты диссертации. Прикладные результаты представлены также в научных отчетах по НИР.
Структура и объем диссертации. Диссертация состоит из введения, четырех глав, заключения, списка литературы (включающего 92 названия) и
приложений, включающих акты внедрения и использования разработок, дополнение формального описания значений, описание компьютерной реализации базы данных и программно-информационного комплекса, а также демонстрационный материал. Основной текст (без
приложений) занимает 150 страниц.