Помощь в учёбе, очень быстро...
Работаем вместе до победы

Параллельные конкордансы. 
Параллельный конкорданс: поиск и ранжирование переводных контекстов для иллюстрации переводов

РефератПомощь в написанииУзнать стоимостьмоей работы

Некоторые из систем отображают сведения о частоте данного слова и его переводов — например, в описана система поиска по параллельному корпусу ParaConc, которая выводит информацию о частоте отдельных слов и их коллокатов. Системы, которые ранжируют контексты, используют статистику встречаемости перевода. Так, в авторы располагают предложения и их переводы в соответствии с частотой перевода… Читать ещё >

Параллельные конкордансы. Параллельный конкорданс: поиск и ранжирование переводных контекстов для иллюстрации переводов (реферат, курсовая, диплом, контрольная)

Задача иллюстраций словарных статей контекстами употребления заголовочных слов частично совпадает с задачей построения конкордансов, то есть поиска контекстов заданных слов или языковых явлений в корпусах текстов.

Системы, строящие параллельные конкордансы, как правило, находят параллельные предложения или даже целые абзацы, а не короткие примеры употребления. Самые простые системы осуществляют поиск только по одной части параллельного корпуса (только входному / выходному языку) и не ранжируют выдачу [Kjaersgaard 1987, Langlois 1996].

Некоторые из систем отображают сведения о частоте данного слова и его переводов — например, в [Barlow 2004] описана система поиска по параллельному корпусу ParaConc, которая выводит информацию о частоте отдельных слов и их коллокатов. Системы, которые ранжируют контексты, используют статистику встречаемости перевода. Так, в [Wu и др. 2003] авторы располагают предложения и их переводы в соответствии с частотой перевода запроса, а в [Bai и др. 2012] наиболее релевантные контексты находятся на основании статистики Дайса [Dice 1945].

Такие системы обычно предназначены для лексикографов и профессиональных переводчиков. Рассмотрим две системы с доступным веб-интерфейсом, которые осуществляют поиск по параллельным англо-китайским корпусам: DOMCAT [Bai и др. 2012] и TotalRecall [Wu и др. 2003].

Примеры выдач на поисковые запросы в системах DOMCAT и TotalRecall (собственно конкордансы) представлены на рисунках 5 и 6. Система DOMCAT, как описывается в [Bai и др. 2012], находит наиболее релевантные контексты с помощью статистического критерия Дайса (коэффициент Сёренсена-Дайса):

Параллельные конкордансы. Параллельный конкорданс: поиск и ранжирование переводных контекстов для иллюстрации переводов.
Параллельные конкордансы. Параллельный конкорданс: поиск и ранжирование переводных контекстов для иллюстрации переводов.
Параллельные конкордансы. Параллельный конкорданс: поиск и ранжирование переводных контекстов для иллюстрации переводов.

где и — частоты слова и переводного эквивалента соответственно, а — частота совместного появления этих слов.

Однако, в веб-интерфейсе не содержится никакой информации о ранжировании и принципах работы системы.

Результаты поиска по запросу .

Рисунок 5. Результаты поиска по запросу «porcelain» в системе DOMCAT.

Вторая система — TotalRecall — предоставляет две возможности — ранжирование по частоте и по логарифму правдоподобия (log-likelihood ratio, LLR). Применительно к связи между двумя явлениями (например, встречаемостью слова и его перевода) последняя мера вычисляется как [Dunning 1993].

Параллельные конкордансы. Параллельный конкорданс: поиск и ранжирование переводных контекстов для иллюстрации переводов.
Параллельные конкордансы. Параллельный конкорданс: поиск и ранжирование переводных контекстов для иллюстрации переводов.
Параллельные конкордансы. Параллельный конкорданс: поиск и ранжирование переводных контекстов для иллюстрации переводов.

где — совместная частота слова и перевода, а , — частоты i и j соответственно.

Результаты поиска по запросу .
Рисунок 6. Результаты поиска по запросу

Рисунок 6. Результаты поиска по запросу «porcelain» в системе TotalRecall.

Пример конкорданса системы Linguee.

Рисунок 7. Пример конкорданса системы Linguee.

Параллельный конкорданс в качестве дополнения к электронному словарю строит многоязычная система Linguee (http://www.linguee.ru). Она предназначена как для изучающих язык, так и для профессионального перевода. Конкорданс для запроса на входном языке строится по большому корпусу текстов различных жанров; особое внимание уделяется технической и специальной (например, юридической и медицинской) литературе. Параллельные тексты собраны из интернета и не проверялись. Весь многоязычный корпус содержит, по описанию разработчиков, около 10 миллионов примеров, при этом в документации не уточняется, идёт речь о коротких словосочетаниях или о параллельных предложениях.

Следует отметить одну из особенностей системы — поиск может осуществляться не только по запросу из одного слова, но и по фразе. Поскольку корпус содержит информацию о пословном выравнивании, при отображении результатов поиска выделяется как текст запроса, так и его вероятный перевод в тексте на языке перевода, однако не всегда это соответствие корректно (см. Рисунок 7).

Выводы

В первой главе были рассмотрены основные направления компьютерной двуязычной лексикографии: технологии создания электронных словарей традиционными методами, построение словарей систем машинного перевода, автоматическое построение электронных словарей и параллельных конкордансов.

Автоматический поиск иллюстрирующих контекстов в компьютерной лексикографии в основном сводится к задаче построения параллельного конкорданса. Существующие решения, касающиеся поиска коротких примеров употребления и перевода, практически не описываются подробно, а чаще всего составители электронных словарей обращаются к иллюстрациям, подобранным вручную. Таким образом, поскольку эта задача не имеет полного и универсального решения в компьютерной лексикографии, нам представляется необходимым рассмотреть теоретические предпосылки и практические методы отбора иллюстративных примеров в традиционных и компьютерных словарях. Этому посвящена Глава 2.

Показать весь текст
Заполнить форму текущей работой