Помощь в учёбе, очень быстро...
Работаем вместе до победы

Создание библиотеки аллофонов для компилятивного синтеза речи по тексту: Теоретические основы прикладного исследования на материале британского варианта английского языка

ДиссертацияПомощь в написанииУзнать стоимостьмоей работы

Благодаря своей компактности (размер базы не превышает 1 Мб), она может быть инкорпорирована в любое устройство с ограниченной памятью (мобильный телефон, карманный компьютер, электронный словарь и т. д.) и использоваться для озвучивания неограниченного числа звуковых последовательностей. Это могут быть слова из упражнений на постановку английского произношения, вокабуляр из англо-русского… Читать ещё >

Содержание

  • Глава I. Основные задачи и методы компилятивного синтеза речи
    • 1. 1. Синтез речи по тексту как одна из задач прикладной фонетики
    • 1. 2. Технологии автоматического синтеза
    • 1. 3. Компилятивный синтез речи и его виды
    • 1. 4. Особенности аллофонной модели
    • 1. 5. Принципы формирования аллофонной базы данных
    • 1. 6. Выводы по главе 1
  • Глава II. Основные этапы формирования инвентаря аллофонной базы данных английского языка
    • 2. 1. Описание системы английских фонем
      • 2. 1. 1. Артикуляторная классификация гласных
      • 2. 1. 2. Описание системы английских согласных фонем
    • 2. 2. Выделение классов контекстов
      • 2. 2. 1. Выделение классов контекстов для аллофонов гласных фонем
      • 2. 2. 2. Выделение классов контекстов для аллофонов согласных фонем
    • 2. 3. Подготовка звукового материала для аллофонной базы данных
      • 2. 3. 1. Описание словника
      • 2. 3. 2. Запись исходного речевого материала
    • 2. 4. Сегментация звукового материала
    • 2. 5. Выводы по главе II
  • Глава III. Оптимизация и тестирование аллофоной базы данных
    • 3. 1. Проблемы экономии исходного звукового материала для аллофонного синтеза речи
    • 3. 2. Методика экспериментов по оптимизации
    • 3. 3. Сокращение контекстов комбинаторных аллофонов гласных
      • 3. 3. 1. Сокращение комбинаторных аллофонов гласных в окружении согласных
      • 3. 3. 2. Сокращение комбинаторных аллофонов гласных в окружении гласных
    • 3. 4. Сокращение контекстов комбинаторных аллофонов согласных
    • 3. 5. Результаты экспериментов по оптимизации инвентаря аллофонной базы
    • 3. 6. Тестирование аллофонной базы данных
      • 3. 6. 1. Материал и методика экспериментов
      • 3. 6. 2. Аудиторы
      • 3. 6. 3. Процедура перцептивных экспериментов
      • 3. 6. 4. Результаты перцептивных экспериментов
    • 3. 7. Выводы по главе III

Создание библиотеки аллофонов для компилятивного синтеза речи по тексту: Теоретические основы прикладного исследования на материале британского варианта английского языка (реферат, курсовая, диплом, контрольная)

Современный этап развития лингвистики в целом и фонетики в частности характеризуется поворотом от структурного подхода к моделированию реальных процессов говорения. Ценность лингвистического исследования на современном этапе все больше определяется возможностью синтезировать на основе языковой модели материальные элементы языка [Бондарко 1981].

Создание действующих моделей, имитирующих естественные звуковые процессы, и в частности, исследования, ведущиеся над созданием систем синтеза речи, позволяют рассмотреть теоретические проблемы фонетики и фонологии в новом аспекте.

При проведении экспериментов по моделированию естественных процессов порождения и восприятия речи появляется возможность проверить действительную ценность и полноту существующих лингвистических знаний о принципах организации и функционирования звуковой формы естественных языков.

В ходе таких экспериментов становится возможным применить на практике знания о звуковых средствах языка, полученных в результате преимущественно теоретических и экспериментально-фонетических исследований, и выяснить, какие из этих знаний являются достаточно полными, а каких данных на данный момент недостаточно для их адекватного отражения в искусственных моделях.

Таким образом, применение уже имеющихся лингвистических знаний для решения прикладных задач — это эффективный способ получить новые сведения о свойствах звуковых единиц естественной человеческой речи, которые могут существенно изменить оценку общефонологических моделей и тем самым повлиять на представления о свойствах системы языка вообще.

В связи с этим особое значение приобретает прикладная лингвистика, занимающаяся разработкой компьютерных систем, функционирующих на базе естественного языка: систем автоматического синтеза и распознавания речи.

Актуальность настоящего исследования определяется необходимостью получения данных об особенностях аллофонического варьирования в английском языке путем экспериментов по созданию и оптимизации инвентаря аллофонной базы данных для синтеза речи и последующего сопоставления результатов исследования с традиционными представлениями о фонетической системе английского языка — вокализме и консонантизме.

Целью данной научной работы является создание библиотеки аллофонов фонем английского языка для синтеза речи по тексту.

Основным принципом для решения задачи построения аллофонного синтеза является создание акустико-фонетической базы данных, базовыми элементами которой выступают аллофоны присутствующих в конкретном языке фонем.

Таким образом, для достижения поставленной цели было необходимо решить ряд как теоретических, так и практических задач:

— анализ научных публикаций как отечественных, так и зарубежных авторов, в которых рассматриваются проблемы аллофонического варьирования фонем английского языка;

— рассмотрение реализации каждой из фонем английского языка во всех возможных окружениях и выделение на основе теоретических предпосылок, описанных в литературе, всех возможных комбинаторных и позиционных аллофонов, необходимых для синтеза любых речевых последовательностей;

— составление специального словника, содержащего слова или словосочетания, в которые входят все рассматриваемые аллофоны;

— запись и сегментация звукового материала для акустической базы данных;

— проведение экспериментов по оптимизации инвентаря аллофонной базы, в ходе которых определялась существенность/несущественность аллофонных различий и возможность сокращения числа используемых в базе аллофонов;

— выделение оптимального набора комбинаторных и позиционных аллофонов, различающихся не с артикуляторной, а перцептивной точки зрения, и достаточного для синтеза любых звуковых последовательностей;

— проведение перцептивных экспериментов с целью оценки качества полученного инвентаря акустической базы данных;

— обобщение и теоретическая интерпретация полученных в ходе исследования результатов.

Объектом данного исследования послужили аллофоны гласных и согласных фонем британского варианта английского языка.

Научная новизна исследования состоит в комплексном рассмотрении особенностей акустических свойств аллофонов фонем английского языка путем экспериментов по синтезу речи.

Теоретическая ценность проведенного исследования состоит в лингвистической интерпретации данных об особенностях аллофонического варьирования фонем английского языка, полученных в результате экспериментов по формированию и оптимизации инвентаря аллофонной базы данных для английского компилятивного синтеза, и выделении набора аллофонов, различающихся не с артикуляторной, а перцептивной точки зрения.

Практическая значимость работы заключается в том, что сформированная аллофонная база данных может служить основой для создания законченной системы синтеза речи по тексту для английского языка и использоваться во всех сферах применения автоматического синтеза речи, диапазон которых необычайно широк.

Одной из таких сфер применения, например, может быть создание компьютерных программ, обучающих английскому произношению (автоматических фонетических тренажеров, электронных словарей, а также любых других учебных пособий, содержащих звуковые примеры).

Благодаря своей компактности (размер базы не превышает 1 Мб), она может быть инкорпорирована в любое устройство с ограниченной памятью (мобильный телефон, карманный компьютер, электронный словарь и т. д.) и использоваться для озвучивания неограниченного числа звуковых последовательностей. Это могут быть слова из упражнений на постановку английского произношения, вокабуляр из англо-русского разговорника и т. д.

Такие обучающие программы нового поколения, несомненно, могут быть эффективно использованы для освоения английского произношения студентами языковых ВУЗов, а также людьми, изучающими английский язык самостоятельно.

В ходе исследования применялись следующие методы: слуховой и экспертный виды анализа, аудиторский эксперимент, инструментальный анализ звукового материала.

Изложение процедуры и результатов исследования сопровождается таблицами и рисунками.

Апробация исследования. Результаты исследования были представлены в докладах на заседаниях кафедры фонетики и методики преподавания иностранных языков Санкт-Петербургского государственного университета, на Межвузовских конференциях преподавателей и аспирантов СПбГУ (2005, 2006), международной конференции «Текст, речь, диалог» (Карловы Вары, Чехия, 2005), Всероссийской объединенной конференции «Гуманитарная информатика. Электронное правительство в информационном обществе» (Санкт-Петербург, 2005).

По теме диссертации опубликованы работы.

1) Евграфова К. В. Принципы формирования аллофонной базы данных английского языка для компилятивного синтеза // Фонетический лицей, СПб, 2004.

2) Евграфова К. В. Формирование аллофонной базы данных английского языка // Интегральное моделирование звуковой формы естественных языков, СПб., 2005.

3) Evgrafova K.V. The Sound Database Formation for the Allophone-based Model for English Concatenative Speech Synthesis // Proc. of TSD'2005. Karlovy Vary, (2005) P. 219−225.

4) Евграфова К. В. Применение технологии компилятивного синтеза в целях обучения иностранному языку // Технологии информационного общества — Интернет и современное общество: Труды VIII Всероссийской объединенной конференции. СПб, 2005.

5) Евграфова K.B. Тестирование аллофонной базы данных // Труды.

Межвузовской конференции преподавателей и аспирантов, СПб, 2006 в печати).

6) Evgrafova K.V. The Quality Evaluation of Allophone Database for.

English Concatenative Speech Synthesis // Proc. of Specom'06, Saint.

Petersburg, 2006 (в печати).

Объем и структура работы. Данное диссертационное исследование содержит 182 страницы и состоит из введения, трех глав, заключения, списка использованной литературы и приложения.

3.6.5 Выводы по главе III.

1) На этапе оптимизации аллофонной базы данных была решена задача достижения максимальной экономии речевого материала при сохранении естественности.

2) Число базовых звуковых единиц инвентаря было сокращено в результате исследования спектральных картин базовых аллофонов и на основании слухового анализа слов, включающих комбинаторные аллофоны со сходными акустическими характеристиками.

3) Сокращение количества используемых в базе комбинаторных аллофонов стало возможным благодаря укрупнению или реорганизации первоначально выделенных классов контекстов.

4) В результате оптимизации, как число левых гласных контекстов, так и число правых сокращено до 10. Количество классов контекстов для согласных уменьшено до 4 левых контекстов и 7 правых.

5) В результате экспериментов количество комбинаторных аллофонов гласных было уменьшено до 1000, а согласных — до 200.

6) В целом количество базовых аллофонов, выделенных с учётом акустических и перцептивных различий, оказалось значительно меньше традиционно выделяемого и описанного в литературе набора артикуляторных аллофонов английских фонем.

7) Перцептивные эксперименты показали, что на сегментном уровне качество синтезированной речи может быть оценено как хорошее, что подтверждает правильность составления инвентаря, а также правильность выбора физических границ аллофонов при сегментации.

ЗАКЛЮЧЕНИЕ

.

В ходе данного исследования был решен ряд теоретических и практических задач.

Реализации каждой из фонем английского языка были рассмотрены во всех возможных окружениях и на основе теоретических предпосылок, описанных в литературе, был выделен набор всех возможных комбинаторных и позиционных аллофонов, необходимых для синтеза любых речевых последовательностей.

При выделении этого набора были учтены особенности системы английских фонем, а также произведен анализ и обобщение теоретических данных об аллофоническом варьировании в английском языке.

Полученные результаты были использованы для создания звукового материала аллофонной базы данных.

В ходе экспериментов по оптимизации инвентаря аллофонной базы устанавливалась существенность/несущественность аллофонных различий, и проверялись гипотезы о сходствах акустических характеристик некоторых аллофонов.

В результате экспериментов по оптимизации удалось значительно сократить количество используемых в базе комбинаторных аллофонов. Это сокращение стало возможным в первую очередь благодаря укрупнению или реорганизации первоначально выделенных классов контекстов.

Сокращения, внесенные в число классов гласных и согласных контекстов, несимметричны. Первоначально для гласных было сформировано всего 18 классов левых и 22 класса правых контекстов, для согласных — 5 классов левых и 11 классов правых контекстов.

В результате оптимизации количество, как левых, так и правых контекстов для гласных сокращено до 10.

Возможность такого радикального сокращения количества классов фонетических типов контекстов для гласных связана с незначительным диапазоном аллофонического варьирования гласных английского языка.

Как показали перцептивные эксперименты, целый ряд левых и правых контекстов не оказывает значительного влияния на слуховой эффект аллофонов гласных.

В ходе экспериментов, проводившихся при спектральном и слуховом контроле, удалось установить набор наиболее важных правых и левых контекстов, оказывающих значимое влияние на акустические и перцептивные характеристики гласных.

Вопреки традиционному представлению о том, что левый контекст важнее для гласных, чем правый, число выделенных левых и правых контекстов оказалось одинаковым.

Что касается количества классов контекстов для согласных, после оптимизация оно уменьшено до 11 классов: 4 класса левых контекстов и 7 классов правых.

Сокращения классов контекстов для согласных не столь значительны, как для гласных. Это связано с тем, что аллофоническое варьирование согласных, в особенности предвокальных, является более заметным на слух, чем аллофоническое варьирование гласных.

Разница в количестве левых и правых контекстов для согласных подтверждает более сильное влияние на согласный правого контекста, особенно вокального, по сравнению с левым.

Таким образом, проведенные эксперименты показали, что целый ряд гласных аллофонов с разными левыми или правыми контекстами, обладающие разными артикуляторными характеристиками, с акустической точки зрения и перцептивно не различаются.

Так, например, замена гласных аллофонов в позициях после 1]1, Ы, /к/, Ли/, /01/ или /е 1/ одного на другой совершенно неощутима при слуховом восприятии. На этом основании возможно лишь один аллофон из этой группы рассматривать как базовый.

Таким образом, количество базовых аллофонов, выделенных с учётом акустических и перцептивных различий, оказалось значительно меньше традиционно выделяемого и описанного в отечественной и зарубежной фонетической литературе набора артикуляторных аллофонов английских фонем.

Кроме описанных выше экспериментов по оптимизации, был использован и другой способ сокращения количества аллофонов в базе данных. Все аллофоны, которые не встречаются в рамках одного слова, а возможны только на стыках слов, были исключены из базы. Микропауза, появляющаяся между словами в результате отсутствия в базе такого аллофона, не приводит к снижению степени естественности звучания и при этом увеличивает разборчивость синтезированной речи.

В целом в результате оптимизации стало возможным сократить количество комбинаторных аллофонов гласных до 1000, а согласныхдо 200.

Эксперименты также показали, что и оптимизированный набор элементов для синтеза при необходимости может быть сокращен за счет еще большего обобщения контекстов комбинаторных аллофонов гласных.

Это, объясняется тем, что качество английских гласных полного образования, в особенности монофтонгов, отличается большей стабильностью и определенностью.

Проверка правильности выделения оптимального набора акустических аллофонов и того, насколько полно были учтены все особенности акустических характеристик аллофонов фонем английского языка, осуществлялась в ходе экспериментов по тестированию качества полученной аллофонной базы данных.

С этой целью был проведен ряд экспериментов на восприятие звучащей синтезированной речи, полученной при компиляции звуковых единиц сформированного инвентаря. Основными критериями оценки являлись разборчивость и естественность синтезированной речи.

Проведенные эксперименты показали, что на сегментном уровне можно отметить высокое качество синтезированной речи, полученной при компиляции единиц инвентаря аллофонной базы, что подтверждает правильность составления оптимального набора комбинаторных и позиционных аллофонов, а также правильность выбора физических границ аллофонов при сегментации.

В результате экспериментов, проведенных в ходе данного исследования, и теоретического обобщения их результатов была сформирована библиотека аллофонов, различающихся с акустической и перцептивной точки зрения.

Полученная в ходе исследования аллофонная база данных может служить основой для создания законченной системы синтеза речи по тексту для английского языка и использоваться во всех сферах применения автоматического синтеза речи, диапазон которых необычайно широк.

Показать весь текст

Список литературы

  1. Е.Е. Реализация законов фонотагстики в спонтанной речи (экспериментально-фонетическое британского варианта исследование на материале Санкт- английского языка). Канд. дне. Петербург, 2000.
  2. А.В. Автоматический синтез речи проблемы и методы генерации речевого сигнала Труды международного семинара Диалог98 по компьютерной лингвистике и ее приложениям. Казань, 1998.www.dialog-21.ru/Archive/1998/Dialogue%202 000−2/25.htm
  3. А.В. Особенности применения технологии TD-PSOLA для модификации характеристик вокальных аллофонов Труды международного семинара Диалог01 по компьютерной лингвистике и ее приложениям. Звенигород, 2001. www. diaiog- 21.ru/Archive/2000/Dialogue%202 000−2/25.htm
  4. А.В., Захаров Л. М. Оценка качества системы синтеза речи, разработанного в МГУ Труды международного семинара Диалог99 по компьютерной лингвистике и ее приложениям. Таруса, www. dialog-21.ru/Archlve/1999/Dialogue%202 000−2/25.htm 1999.
  5. Л.В. Фонетическое описание языка и фонологическое описание речи. Л., 1981.
  6. Л.В., Вербицкая Л. А., Зиндер Л. Р. Акустические характеристики безударности Структурная типология языков. М., 1966, стр. 56−64.
  7. Л.В., Кузнецов В. И., Скрелин П. А., Шалонова К. Б. Звуковая система русского языка в свете задач компилятивного синтеза Бюллетень фонетического фонда русского языка. 6, май 1997.
  8. Н., Коваль А., Коваль С Опарин И., Погарева Е., Скрелин П., Смирнова Н., Таланов А. Синтезатор русской речи по тексту нового поколения Труды международного семинара Диалог05 по компьютерной лингвистике и ее приложениям. 2005. www. diaiog21.ru/Archive/2000/Dialogue%202 000−2/25.htm
  9. Н. Б., Светозарова Н. Д., Скрелин П. А. Моделирование просодического оформления русского текста Бюллетень фонетического фонда русского языка. 6, май 1997, стр. 65−110. И. Вольская Н. Б., Скрелин П. А., Таланов А. О. Автоматическое моделирование просодического оформления фразы Интегральное моделирование звуковой формы естественных языков. СПб., 2005, стр. 64−74.
  10. К. П. Вопросу о стилистических модификациях звуков речи в английском языке Функциональный анализ фонетических единиц английского языка. М., 1988.
  11. А.К. Анализ дифтонгов в системе вокализма американского и британского вариантов аглийского языка. Автореф. дис. канд. филол. наук. Одесса, 1983.
  12. Евграфова данных К. В. Принцины формирования аллофонной языка для компилятивного базы английского синтеза Фонетический лицей, СПб., 2004, стр. 23−36.
Заполнить форму текущей работой