Разработка и исследование метода распознавания фонем русского языка на основе аппарата линейного предсказания

ДиссертацияПомощь в написанииУзнать стоимостьмоей работы

Содержание

I. АНАЛИЗ ПРОБЛЕМЫ АВТОМАТИЧЕСКОГО РАСПОЗНАВАНИЯ РЕЧИ
- 1. 1. Основные задачи построения систем распознавания. И f 1.2 ВОСПРИЯТИЕ УСТНОЙ РЕЧИ
- 1. 3. Общая структура распознающей системы
- 1. 4. анализ состояния исследований по проблеме автоматического распознавания речи
- 1. 5. Обзор рынка программных средств
- 1. 6. сравнительный анализ методов выделения признаков речевых сигналов
  - 1. 6. 1. Анализ сигнала возбуждения г олосового тракта
- 1. 6. 2 Анализ клиппированного сигнала
- 1. 6. 3 Формантный анализ
  - 1. 6. 4. Спектральный анализ
  - 1. 6. 5. Корреляционный анализ
  - 1. 6. 6. Скрытое марковское моделирование
  - 1. 6. 7. Вейвлет-преобразование
  - 1. 6. 8. Линейное предсказание
- 1. 7. Выводы
2. ФОРМИРОВАНИЕ РАБОЧЕГО СЛОВАРЯ ПРИЗНАКОВ ФОНЕМ
- 2. 1. Оценка параметров речевого сигнала
- 2. 2. анализ точности модели линейного предсказания
- 2. 3. Статистические свойства ЛСК
- 2. 4. Выбор метода оценки ошибки разделения фонем в подпространствах ЛСК
  - 2. 4. 1. Использование статистичьског о критерия на основе гистограмм
  - 2. 4. 2. Использование метода динамических сгущений
- 2. 5. Расчет ошибки разделения фонем с использованием МДС
  - 2. 5. 1. Оцшка разделимости фонем в двумерном подпространстве ЛСК
  - 2. 5. 2. Оценка разделимости фоньм в трехмерном подпространстве ЛСК
  - 2. 5. 3. Оце нкл размерности вектора признаков
- 2. 6. Применение преобразования Карунена-Лоэва для сокращения размерности векторов признаков
- 2. 7. Влияние ранжирования признаков на размерность векторов признаков
- 2. 8. Оценка влияния параметров расчета ЛСК на качество разделения фонем
- 2. 9. Выводы
3. ФОРМИРОВАНИЕ КЛАСТЕРОВ ФОНЕМ НА ОСНОВЕ РАБОЧЕГО СЛОВАРЯ ПРИЗНАКОВ
- 3. 1. Поиск оптимальных параметров расчета ЛСК
  - 3. 1. 1. Выбор размера bplml иного окна
  - 3. 1. 2. Выбор шага временного окна
- 3. 2. Формирование признаковых подпространств
- 3. 3. Значения ЛСК — признаки первого уровня
  - 3. 3. 1. формирование дерева принятия решений (ДПР)
  - 3. 3. 2. Поиск стартового подпространства ДПР
  - 3. 3. 3. Формирование узлов (переходов) ДПР
  - 3. 3. 4. связь размерности подпространств и величины ошибки в узлах ДПР
- 3. 4. Признаки второго уровня
  - 3. 4. 1. формирование кластеров фонем на основе скользящих средних ЛСК
  - 3. 4. 2. скользящие дисперсии как дополнительные признаки фонем
  - 3. 4. 3. Собственные векторы ковариационных матриц фонем — альтернативные признаковые подпространства
- 3. 5. Выводы
4. РАСПОЗНАВАНИЕ ФОНЕМ НА ОСНОВЕ ЛСК
- 4. 1. Метод распознавания на основе ЛСК с использованием ДПР
  - 4. 1. 1. Процедура обучения
  - 4. 1. 2. Исследование алгоритма распознавания
- 4. 2. Метод распознавания на основе СС ЛСК
  - 4. 2. 1. Процедура обучения
  - 4. 2. 2. Исследование алгоритма распознавания
  - 4. 2. 3. Нейтрализация влияния дифтонгов
- 4. 3. Распознавание на основе комбинированного алгоритма с нейтрализацией влияния дифтонгов
- 4. 4. ВЫВОДЫ

Разработка и исследование метода распознавания фонем русского языка на основе аппарата линейного предсказания (реферат, курсовая, диплом, контрольная)

До недавнего времени процесс речевого общения человека и компьютера был непременным атрибутом научно-фантастических романов и никем не воспринимался всерьез. Несколько лет назад ситуация кардинально изменилась. Сегодня использование речевых технологий в прикладных программах в качестве альтернативного средства взаимодействия в системе «человек-компьютер» приобретает все больший размах. Такой процесс носит вполне обоснованный и объективный характер в силу ряда причин. Во-первых, развитие речевых средств взаимодействия с персональным компьютером лежит в рамках мировой тенденции «очеловечивания» ПК, т. е. позволяет создавать интерфейсы, максимально дружественные пользователю. Во-вторых, миниатюризация современных средств управления и связи требует принципиально новых подходов к осуществлению взаимодействия пользователя с такого типа устройствами. Для современных технологий не представляет большого труда создание, например, мобильного телефона размером с авторучку, однако механический набор номера на таком телефоне будет сопряжен с определенными трудностями. Голосовой набор номера и авторизация в этом случае являются очевидным и наиболее подходящим выходом. В-третьих, для большого круга пользователей речевой способ общения с ПК является единственно возможным в силу ограниченности их физических возможностей (люди с нарушениями опорно-двигательного аппарата, другими физическими недостатками, слепые и т. д.) либо специфики профессии.

Большое значение приобрели также задачи, связанные с быстрым поиском и получением от больших информационно-вычислительных систем («информационных банков») нужных сведений в виде обычных речевых сообщений, передаваемых по телефонным каналам. Все это сделало проблему автоматического распознавания речи разносторонней и актуальной.

Можно указать на следующие, наиболее перспективные области применения автоматического распознавания и синтеза речи:

— сжатие речи для передачи ее по более простым и экономичным узкополосным линиям связи;

— установление прямой речевой связи с ЭВМ специального назначения и с поисково-информационными системами, снабжающими абонентов различной информацией;

— управление голосом (посредством устных команд) различными процессами и машинами (в том числе боевыми) без помощи других управляющих средств или в комбинации с ними;

— идентификация или верификация личности по голосу;

— автоматический синхронный перевод с одного языка на другой;

— создание устройств для понимания устной речи глухими и чтения книг слепыми.

В настоящее время сильно развивается синтетическая телефония. При этом тесно связываются между собой такие области как цифровая обработка сигналов (ЦОС), синтез речи, анализ (распознавание) речи. Теоретические и практические разработки в области ЦОС, кодирования и передачи PC ведутся российскими и зарубежными учеными многие годы. Большой вклад в теоретическом и практическом планах внесли А. А. Пирогов, В.Н. Трунин-Донской, А. А. Ланнэ, JI. Рабинер, Р. Шафер, Д. Макхоул и др.

Исследования по машинному распознаванию речи ведутся сравнительно недавно, однако за это время написано множество теоретических работ и предложен ряд практических реализаций систем распознавания речи (СРР). При этом достаточно большое количество идей взято из области ЦОС. Существенный вклад в развитие СРР внесли советские и российские ученые В.Н. Трунин-Донской, Т. К. Винцюк, Н. Г. Загоруйко, Ю. А. Косарев, JI.JI. Мясников, зарубежные ученые Д. Д. Маркел, А. Х. Грей, Б. Гоулд, Г. Фант и др. Тем не менее задача качественного распознавания русской речи еще не решена.

Восприятие речи есть сложный многоуровневый процесс, в котором тесно переплетены различные уровни — акустический, лингвистический, смысловой. В многоуровневой модели распознавания речи ее качество (надежность) определяется качеством реализации каждого отдельно взятого уровня.

На настоящий момент лингвистическая часть модели проработана удовлетворительно, что подтверждается многими исследователями, а также наличием программ, распознающих написанный или напечатанный текст. Этого нельзя утверждать применительно к акустической части модели распознавания. Объясняется это следующими причинами:

1. Неустойчивостью и случайностью параметров PC, их изменением при смене дикторов, различными внешними факторами (механические перегрузки, пониженные температуры окружающей среды, темнота и т. д.). Основными причинами затруднений при разработке акустической части СРР является отсутствие на настоящий момент системы признаков, позволяющей с высокой точностью определять «что поступает» на вход распознающей системы независимо от обозначенных причин.

2. Недостаточной адекватностью используемых моделей PC, что не позволяет получить качественные признаки для их дальнейшей обработки.

3. Большинство исследователей считает, что нельзя «хорошо понимать» речь, не используя при этом закономерности фонетического уровня.

Объектом исследования являются модели и методы выделения акустических признаков фонем для систем распознавания русской речи.

Предметом исследования являются линейные спектральные корни (JICK) применительно к задаче распознавания речи на фонетическом уровне.

Состояние проблемы и задачи исследования. К настоящему времени известно большое число моделей и методов выделения первичных (акустических) признаков PC. Одним из самых перспективных методов многие исследователи (Ю.А. Косарев, С. В. Виноградов, Н. Г. Загоруйко, Д. Макхоул и др.) считают аппарат линейного предсказания (ЛП): полученные на основе ЛП признаки обладают рядом практически полезных свойств — они просто рассчитываются, дают компактное представление PC, позволяют контролировать устойчивость, наименее чувствительны к действиям помех. Наиболее широко при разработке «речевых» систем используются JICK, предложенные Итакурой. С появлением обобщающей теории JICK (А.А. Ланнэ «Новая теория линейных спектральных корней») оказалось возможным получать новые (отличные от уже известных) ЛСК, которые еще не исследованы с точки зрения применимости в СРР.

Целью диссертационной работы является исследование ЛСК для их использования в качестве акустических признаков фонем в CP слитной русской речи.

Для достижения поставленной цели необходимо в ходе выполнения теоретических и экспериментальных исследований решить следующие задачи:

1. Провести анализ существующих структур СРР и методов формирования признаков фонем в СРР на акустическом уровне.

2. Разработать математическое и программное обеспечение для проведения исследований и тестирования разработанных моделей.

3. Исследовать свойства ЛСК как признаков фонем:

— разработать параметрическую модель расчета ЛСК для ПЭВМ;

— исследовать статистические свойства ЛСК;

— исследовать влияние параметров расчета ЛСК на качество разделения фонем в пространствах ЛСК;

— на основании предложенных критериев осуществить выбор оптимальных параметров расчета ЛСК.

4. Разработать компактный рабочий словарь признаков фонем, опираясь на известные свойства ЛСК.

5. Разработать метод формирования кластеров фонем на основе рабочего словаря признаков фонем.

6. Построить тестовую программную модель распознавания фонем для ЭВМ.

7. Осуществить проверку предложенного метода распознавания фонем путем проведения машинных экспериментов на тестовых PC.

Методы исследования. Решение указанных задач осуществлено на основе применения методов теории вероятности и математической статистики, теории синтеза линейных электрических цепей, цифровой обработки сигналов.

Основные положения, выносимые на защиту:

1. J1CK — акустические признаки фонем, обладающие высокой компактностью и слабой чувствительностью к смене диктора.

2. Применение преобразования Карунена-Лоэва (на этапе формирования рабочего словаря признаков фонем) позволяет ввести ранжирование признаков по степени их информативности. Исключение из описания фонем «неинформативных» признаков позволяет получить компактный рабочий словарь признаков с размерностью векторов признаков не более трех.

3. Решение задачи повышения надежности распознавания фонем на основе J1CK может быть решена путем поиска наилучших (в смысле минимума ошибки распознавания) параметров модели линейного предсказания методом динамических сгущений.

4. Методы формирования кластеров фонем на основе признаков «первого уровня» (значений JTCK) и «второго уровня» (скользящих средних JTCK) позволяют сформировать признаковые подпространства малых размерностей (2−3), в которых образы фонем хорошо разделяются независимо от диктора. Решена задача поиска оптимальных (в объявленном смысле) подпространств, в которых ошибка разделения фонем минимальна.

5. Алгоритмы распознавания фонем с использованием предлагаемых методов формирования кластеров позволяют выделять фонемы из речевого потока независимо от диктора.

Практическая ценность. На основании результатов исследований сделаны выводы о возможности применения J1CK в СРР, разработана и доведена до практической реализации на ПЭВМ модель акустического блока СРР, исследована её надежность (качество распознавания).

Результаты внедрения. Разработанные методы, модели и программы являются частью работ, проводимых в рамках НИР № 190−93−054 по каф. ЦВТИ в 2000;2002 г. СПбГУТ под руководством д.т.н., проф. Е. А. Шульгина.

Результаты научных исследований и практические разработки используются «Центром речевых технологий» Санкт-Петербурга, теоретические результаты внедрены в учебный процесс СПбГУТ им. проф. М.А. Бонч-Бруевича.

Апробация работы. Основные положения, выводы и практические результаты диссертационной работы обсуждались на конференциях:

— 2-я международная научно — техническая конференция студентов, аспирантов и молодых специалистов СПбГУТ в 2000 г;

— Международная научно-практическая конференция «Компьютерные технологии в науке, производстве, социальных и экономических процессах», г. Новочеркасск, 2002 г;

— 52-я, 53-я, 54-я, 55-я научно-технические конференции СПбГУТ.

Часть результатов и выводов представлена в отчете по НИР № 190−93−054, проводившейся в СПбГУТ в 2000;2002 гг. под руководством д.т.н., проф. Е. А. Шульгина.

По теме диссертационной работы опубликовано 10 печатных работ, в том числе отчет по НИР.

Объем и структура диссертации. Диссертационная работа включает введение, четыре главы, заключение, список литературы и приложения. Вся работа изложена на 193 страницах текста, включающих в себя 47 страниц приложений, 67 рисунков, 9 таблиц. Количество библиографических ссылок -101.

— 1404.4 Выводы.

1. Произведена оценка качества распознавания фонем на тестовых речевых сигналах. Машинные эксперименты по распознаванию фонем показали хорошее соответствие результатов оценок, расчетов и эксперимента.

2. Применение признаков первого уровня (JICK) для описания фонем в совокупности с методом классификации на основе ДПР дало возможность выделять фонемы из речевого потока с вероятностью правильного принятия решения 65%. Относительно других предложенных в работе алгоритмов, такой алгоритм выделения фонем требует минимальных вычислительных затрат.

3. Причина невысокого качества распознавания фонем на основе СС ЛСК связано с наличием переходных участков (дифтонгов), которые в подпространствах СС ЛСК преобразовываются в межкластерные траектории. Вследствие случайного расположения кластеров в подпространствах СС ЛСК, траектории могут пересекать границы кластеров. При этом возникает дополнительная ошибка распознавания. Предложен метод минимизации ошибки за счет введения в алгоритм распознавания дополнительного параметра — времени нахождения точки-представителя распознаваемого объекта внутри границ кластера. В результате использования предложенного метода удалось повысить качество распознавания до 81%.

4. Наилучший результат (15% ошибок) достигнут с применением комбинированного алгоритма распознавания: рассчитывались СС ЛСК и далее принятие решения о принадлежности к одному из классов проводилось на основании отнесения точки-представителя окна PC к той или иной ветке оптимизированного ДПР.

— 141-ЗАКЛЮЧЕНИЕ.

Речевой сигнал существенно отличается от всех искусственных, технических сигналов своей сложностью, неустойчивостью параметров, избыточностью. Если сравнить осциллограммы или спектрограммы одного и того же слова, произнесенного дважды одним и тем же диктором, а тем более разными дикторами, то бросаются в глаза значительные отличия уровней, длительностей участков, формы колебаний, спектральных картин. Поскольку органы речеобразования практически находятся в состоянии непрерывной перестройки, в речевом сигнале трудно указать границы отдельных фонем. Эти границы можно указать лишь с большой долей условности, при этом переходные участки обладают большим разнообразием и вносят основные трудности в процесс классификации звуков. При акустическом анализе речи формируют различные системы признаков (спектральные, автокорреляционные и др.). Области, отображающие фонемы (кластеры), в любой известной системе признаков частично перекрываются, что является первопричиной исходной неопределенности речи. Вряд ли возможна такая система признаков, в которой фонемы живой разговорной речи разделялись бы без ошибок. Даже человек не может безошибочно членить речевой поток на фонемы на основе только акустической информации, т. е. на основе знания фонетического состава речи. Основные результаты работы состоят в следующем:

1. Предложены новые акустические признаки фонем русской речи — ЛСК, которые до сих не применялись в СРР.

2. Разработана параметрическая модель расчета ЛСК для ЭВМ. На ее основе исследованы свойства ЛСК, произведена оценка влияния параметров модели (размер временного окна и его шага) на качество разделения фонем в пространствах ЛСК.

3. Предложен метод расчета вероятности ошибки классификации фонем, основанный на методе динамических сгущений.

4. Предложен статистический метод оценки информативности ЛСК, позволивший сократить в 3−4 раза размерность признакового пространства.

— 1425. Разработаны методы формирования кластеров фонем, в основе которых лежат статистические свойства ЛСК.

6. Предложен метод минимизации ошибки распознавания, возникающей вследствие наличия дифтонгов.

7. Разработана программная модель фонемного уровня распознавания СРР для ПЭВМ.

Показать весь текст

Список литературы

Сапожков М.А. Речевой сигнал в кибернетике и связи. М.: Связь, 1963. 452 с.
Fralik S.C. Learning of recognize pattern without a teacher. // IEEE Trans.- 1997.- IT-13.-№ 1.
Айвазян C.A., Бажаева З. И., Староверов O.B. Классификация многомерных наблюдений.- М.: Статистика, 1974.
Арчер Т., Уайтчепел Э. «Visual С++ .net». Издательство «Диалектика», 2003.
Ахмед Н., Рао К.Р. Ортогональные преобразования при обработке цифровых сиг-налов.-М: Связь, 1980.
Вентцель Е.С. Теория вероятностей.- М.: Наука, 1964.
Виноградов С.В. Методы предварительной обработки речевого сигнала в системах распознавания речи. Л., ЛИИАН, 1987 г.
Вокодерная телефония. Методы и проблемы. Под. ред. А. А. Пирогова.
Выгодский Я.Н. Справочник по элементарной математике. М.: Наука, 1967.
Г. Корн, Т. Корн «Справочник по высшей математике». Издательство «Наука», Москва, 1984.
Г. Н. Воробьева, А. Н. Данилова «Практикум по вычислительной математике».
Г. Стренг «Линейная алгебра и ее применение». Издательство «Мир», 1980.
Галунов В.И. Бионическая модель системы распознавания речи. // Исследование моделей речеобразования и речевосприятия.- Л.: 1981, С. 36−51.
Галунов В.И., Жаков М. Л. и др. Первичный анализ в системах автоматического распознавания. // Тез. докл. 15 Всесоюз. шк.-семинара" Автоматическое распознавание слуховых образов".- Таллинн: ИК АН ЭССР, 1989.- С. 49−58.
Горелик A. JL, Скрипкин В. А. Методы распознавания. Учебное пособие для вузов- М., Высшая школа, 1984 г.
Загоруйко Н.Г. Комбинированный метод принятия решений. Сб. тр. ИМСО АНСССР «Вычислительные системы» вып. 19, Новосибирск, 1965.
Загоруйко Н.Г. Методы распознавания и их применение. М., Советское радио, 1972 г.
Загоруйко Н.Г., Елкина В. Н., Емельянов С. В., Лбов Г. С. Пакет прикладных программ ОТЭКС. М.: Финансы и статистика, 1986.
Зигангиров К.Ш., Сорокин В. Н. Об использовании последовательного декодирования для распознавания слитной речи. // ППИ. 1977 № 4. с. 81−88.
Зяблов В.В. Речевая информатика. М.: Наука, 1989.
Кельманов А.В. О некоторых проблемах построения систем распознавания инвариантных к диктору. // Тез. докл 15 Всесоюз.шк.-семинара" Автоматическое распознавание слуховых образов".- Таллинн: ИК АН ЭССР, 1989.- С. 103−104.
Косарев Ю.А. Естественная форма диалога с ЭВМ. Л.: Машиностроение. Ле-нингр. отд- ние, 1989. — 143с.
Косарев Ю.А., Естественная форма диалога с ЭВМ Л., Машиностроение, 1989 г.
Кулагина О.С. Исследования по машинному переводу. -М.: Наука, 1979.
Ланнэ А.А. Оптимальный синтез линейных электрических цепей. — М: Связь, 1969.
Ланнэ А.А., Матюшкин Б. Д., Улахович Д. А. Основы цифровой обработки сигналов.-Л: ВАС, 1995.
Ланнэ А.А., Улахович Д. А. Передача информации о состоянии фильтра-предсказателя с помощью спектральных пар // Радиоэлектроника и связь. 1991 г.29,3033,34,35,36,37.38,39.40,41.
Лбов Г. С. Методы обработки разнотипных экспериментальных данных. Новосибирск: Наука (Сибирское отделение), 1981.
Любимов А.Ю., Евсиков М. М. Линейное предсказание речи это просто // Монитор № 4, 1995.
Люблинская В.В. Восприятие речи. Общие представления и подходы к исследованию. // Тез. докл. 15 Всесоюз. шк.-семинара «Автоматическое распознавание слуховых образов». Таллинн, ИК АН ЭССР, 1989. — С.32−36. Макхоул Д. Линеное предсказание. Обзор.
Маркел Д Д., Грей А. Х. Линейное предсказание речи: Пер. с англ. М: Связь, 1980.
Мышкис А.Д. Лекции по высшей математике. М: Наука, 1969.
Покровский Н.Б. Расчет и измерение разборчивости речи. М.: Связь, 1962.391с.
Попов Э.В. Общение с ЭВМ на естественном языке. М., Наука, 1982 г. Рабинер Л. Р., Шафер Р. В. Цифровая обработка речевых сигналов.- М.: Радио и связь, 1981.
Файн B.C. Распознавание образов и машинное понимание естественного языка. -М.: Наука, 1987.
Чичагов А.В., Математическое моделирование сигналов. /М.:ВЦ РАН, 1995.
Чучупал В.Я., Маковкин К. А. Распознавание последовательностей слов для компьютерной телефонии. /Современные речевые технологии. Сборник трудов 9 сессии Российского акустического общества. -М.: ГЕОС, 1999, с. 81−84.
Чучупал В.Я., Маковкин К. А. Система распознавания слитно-произносимых названий цифр для телекоммуникационных приложений. /М.:ВЦ РАН, 1997.
Улахович Д.А., Сергеев М. В. Статистические свойства спектральных корней русской речи. // Труды учебных заведений связи / СПбГУТ.-СПб, 1988, № 64.
Бьерн Страуструп «Язык программирования С++. Специальное издание». Издательство «Бином», 2001.1. ОПУБЛИКОВАННЫЕ СТАТЬИ
Кисляков С.В. Ортогональные полиномы в распознавании речевых сигналов // 51-я НТК: тез. докл. / СПбГУТ. СПб, 1998.
Кисляков С.В., Шульгин Е. А. Применение преобразования Карунена-Лоэва для классификации фонем при дикторонезависимом распознавании речи // Труды учебных заведений связи / СПбГУТ. СПб, 2000. № 166.
Кисляков С.В., Симонина О. А. Модель дикторонезависимого распознавания речи. // 2-я Межд. НТК «Техника и технология связи» / СПбГУТ. СПб, 2000.
Кисляков С. В. Шульгин Е.А. Анализ признаков речевых фонем, полученных на основе полинома Гурвица // 53-я НТК: тез. докл. / СПбГУТ. СПб, 2001.
Кисляков С.В. Некластерный алгоритм разделения согласных звуков речи независимо от диктора // 53-я НТК: тез. докл. / СПбГУТ. СПб, 2001.
Кисляков С.В. Выбор порядка ЛП-модели при построении системы распознавания речи // 54-я НТК: тез. докл. / СПбГУТ. СПб, 2002.
Кисляков С.В. Современное состояние проблемы создания систем речевого диалога человека и ЭВМ // 54-я НТК: тез. докл. / СПбГУТ. СПб, 2002.
Кисляков С.В., Шульгин Е. А. Оценка качества признаков речевых единиц в задаче распознавания // 55-я НТК: тез. докл. / СПбГУТ. СПб, 2003.
Фундаментальные аспекты новых информационных и ресурсосберегающих технологий: Отчет / рук. Е. А. Шульгин. НИР № 190−93−054. СПб, 2002.1. ПРИЛОЖЕШ1М

Заполнить форму текущей работой