Подготовка обучающей и тестовой выборки

РефератПомощь в написанииУзнать стоимостьмоей работы

Подготовка обучающей и тестовой выборки (реферат, курсовая, диплом, контрольная)

Как уже было сказано, основной задачей эксперимента является упорядочивание иллюстрирующих контекстов в соответствии с допустимостью их использования в качестве материала для иллюстративного блока. Для решения этой задачи мы предлагаем ранжирующий классификатор — алгоритм, который по обучающей выборке приписывает элементам тестовой выборки оценки в заданном диапазоне таким образом, что элементы могут быть затем упорядочены по значению этой оценки. Цель ранжирующей модели — наилучшим образом (в некотором смысле) приблизить и обобщить способ ранжирования в обучающей выборке на новые данные.

Для обучения ранжирующего классификатора были размечены обучающий и тестовый наборы контекстов.

Первым шагом в подготовке выборок был отбор переводных эквивалентов, к которым затем подбирались контексты. Чтобы сделать этот «словарь» более репрезентативным, переводные эквиваленты выбирались случайно таким образом, чтобы распределение их частот соответствовало распределению частот слов в параллельном корпусе. Кроме того, необходимо было установить такое же соответствие с распределением частот запросов к словарю. Было замечено, что количество запросов на английском языке в значительной степени коррелирует с частотой соответствующих слов в корпусе [Antonova, Misyurev 2014], поэтому можно полагаться только на корпусную статистику. Также в выборку не включалось сто самых частых английских слов.

Для каждой пары переводных эквивалентов в словаре из параллельного корпуса извлекаются все возможные контексты (биграммы), как описано в предыдущем разделе. Случайная выборка из полученного множества контекстов могла бы быть ненадёжной, поскольку в ней сложно было бы обеспечить баланс между положительными и отрицательными примерами. Поэтому каждому контексту приписывается вес по эмпирической формуле, которая соответствует произведению прямой и обратной вероятности перевода.

где.

Подготовка обучающей и тестовой выборки.

— частота выравнивания контекста на входном языке в контекст на выходном языке в параллельном корпусе;

— частота контекста на входном языке в том же параллельном корпусе;

— частота контекста на выходном языке в том же параллельном корпусе.

Затем для каждой пары переводных эквивалентов выбирается несколько (от одного до трёх в зависимости от общего числа кандидатов) с наибольшим весом. Таким образом была получена выборка объёмом 700 словосочетаний.

Разметка производилась вручную по пятибалльной шкале от 1 (неприемлемый контекст) до 5 (идеально подходящий контекст). В таблице приведены неформальные критерии, использованные при выставлении оценки. Стоит напомнить, что каждый параллельный контекст состоит из двух частей — входной и выходной. В качестве эксперимента примеры размечались в двух режимах — сначала оценка приписывалась обеим частям, затем каждой по отдельности. При составлении критериев использовался опыт группы аналитиков отдела машинного перевода компании «Яндекс».

3. Принципы разметки контекстов-кандидатов.


Оценка.	разметка обеих частей.	разметка одной части.	пример
	Обе части бессмысленны и грамматически неправильны; части не являются переводными эквивалентами.	Фраза бессмысленна и грамматически некорректна.	pickled > маринованная.
	Одна из частей соответствует оценке один по принципам разметки одной части примера; обе или одна из фраз грамматически некорректна.	Фраза грамматически некорректна; фраза не является переводным эквивалентом.	caribbean > *караибское.
	Обе части грамматически корректны, но не отражают особенностей значения / употребления / перевода ключа.	Фраза грамматически корректна, но не отражает особенностей значения / употребления / перевода ключа.	его > his.
	Обе части грамматически корректны и частично иллюстрируют особенности значения / употребления / перевода ключа.	Фраза грамматически корректна и частично иллюстрирует особенности значения / употребления / перевода ключа.	quit the company > покинуть компанию.
	Идеально подходящий контекст.	Идеально подходящий контекст.	ball lightning > шаровая молния.

Как было сказано выше, контексты извлекались из корпуса для всех соответствий «английская лексема — русская лексема», полученных из машинного словаря. Машинный словарь в свою очередь содержит некоторое количество «шумных» (ошибочных) переводов: например, из недословных переводов можно извлечь перевод «beautiful — красота». Они были удалены из выборки после разметки. В результате размеченный набор составил более 600 примеров. Результаты разметки каждой из частей по отдельности приведены на рисунке 9.

Рисунок 9. Результаты разметки контекстов по пятибалльной шкале: тёмным отмечены английские контексты, светлым — русские.

Показать весь текст

Заполнить форму текущей работой

Другие работы

Компоненты банка данных

Кроме описания баз данных в состав метаинформации, хранимой в БнД, может включаться информация о предметной области, необходимая для проектирования системы, о пользователях БнД, о проектных решениях и некоторая другая информация. Рис. 1 Компоненты банка данных Описания баз данных часто называют схемой. Кроме того, в БнД могут присутствовать описания отдельных частей баз данных с точки зрения…

Реферат