Информативные признаки на основе линейных спектральных корней в системах распознавания речевых команд
Диссертация
Существенный вклад в развитие систем распознавания речи (СРР) внесли советские и российские ученые В.Н. Трунин-Донской, Т. К. Винцюк, Н. Г. Загоруйко, JLJL Мясников, зарубежные ученые Д. Д. Маркел, А. Х. Грей, Б. Гоулд, Г. Фант и др. Множество современных идей при создании систем распознавания речи взято из области цифровой обработки сигналов. Большой вклад в теоретическом и практическом планах… Читать ещё >
Содержание
- 1. АНАЛИЗ ПРОБЛЕМЫ АВТОМАТИЧЕСКОГО РАСПОЗНАВАНИЯ РЕЧИ
- 1. 1. Формирование и восприятие речи человеком
- 1. 2. Классификация речевых единиц
- 1. 3. Общая структура и классификация систем автоматического распознавания речи
- 1. 4. Современные разработки в области речевых технологий
- 1. 4. 1. IBM ASR ViaVoice
- 1. 4. 2. Microsoft Speech SDK
- 1. 4. 3. Санкт-Петербургский институт информатики и автоматизации Российской академии наук
- 1. 4. 4. Сектор Цифровой Обработки и Распознавания Речевых Сигналов ВЦ РАН
- 1. 4. 5. Центр речевых технологий
- 1. 4. 6. Фирма «Стэл — Компьютерные Системы»
- 1. 4. 7. Кафедра Математической теории интеллектуальных систем МГУ
- 1. 4. 8. Фирма «Одитек»
- 1. 4. 9. Кафедра «Цифровой обработки сигналов» СПБ ГУТ
- 1. 4. 10. Белорусская компания «Сакрамент»
- 1. 4. 11. Объединенный институт проблем информатики НАН Беларуси
- 1. 4. 12. Vocative Russian ASR Engine
- 1. 4. 13. SPIRIT ASR Engine
- 1. 4. 14. Программный комплекс Dragon NaturallySpeaking
- 1. 4. 15. Набор программных библиотек НТК
- 1. 4. 16. Набор программных библиотек Sphinx
- 1. 5. Методы выделения признаков речевых сигналов
- 1. 5. 1. Спектральный иформантный анализ
- 1. 5. 2. Вейвлет преобразования
- 1. 5. 3. Линейное предсказание
- 1. 6. Методы сравнения с эталонными единицами
- 1. 6. 1. Динамическое программирование
- 1. 6. 2. Скрытые Марковские модели
- 1. 6. 3. Нейронные сети
- 2. 1. Структура разработанной системы распознавания речевых команд
- 2. 1. 1. Общее описание модулей системы
- 2. 1. 2. Схема функционирования системы
- 2. 2. Решение задачи линейного предсказания
- 2. 2. 1. История создания метода линейного предсказания и его преимущества
- 2. 2. 2. Постановка задачи линейного предсказания
- 2. 2. 3. Вычисление коэффициентов линейного предсказателя
- 2. 2. 4. Выбор метода нахождения параметров модели
- 2. 2. 5. Автокорреляционный алгоритм Левинсона-Дарбина
- 2. 2. 6. Особенности вычисления коэффициентов линейного предсказания при возбуждении белым шумом
- 2. 2. 7. Переход к линейным спектральным корням
- 2. 3. Использование ЛСК в качестве информативных признаков для распознавания PC
- 2. 4. Оценка возможности сокращения подпространства признаков векторов ЛСК
- 3. 1. Методика формирования словаря эталонов
- 3. 2. Поиск по словарю с помощью выделения центров тяжести
- 3. 2. 1. Процедура классификации входного PC по словарю эталонов
- 3. 2. 2. Распознавание отдельно стоящих фонем
- 3. 3. Поиск по словарю методом динамического программирования
- 3. 3. 1. Метод динамического программирования
- 3. 3. 2. Распознавание отдельных слов
- 3. 3. 3. Распознавание целых командных слов на базе слогов
- 3. 3. 4. Процедура нечеткого поиска строк по словарю
- 3. 3. 5. Поиск слов в слитной речи и выделение пауз между словами
- 3. 4. Критерий для оценки достоверности распознавания команд
- 3. 5. Выбор оптимальных параметров для расчета линейных спектральных корней
- 3. 6. Построение иерархического словаря в соответствии с лексической моделью языка
- 3. 7. Оптимизация поиска команд по словарю с применением метода кластеризации
- 3. 8. Оценка качества формирования словаря
- 4. 1. Функциональные возможности
- 4. 2. Алгоритмическая модель системы
- 4. 2. 1. Общее описание
- 4. 2. 2. Первичная настройка и обучение системы
- 4. 2. 3. Процедура распознавания входящей голосовой команды
- 4. 2. 4. Функция расчета ЛСК на сигнале произвольной длительности (LSK)
- 4. 2. 5. Функция расчета ЛСК на окне сигнала (LSKW)
- 4. 2. 6. Функция расчета коэффициентов экстраполятора (EXTRP)
- 4. 2. 7. Функция расчета одного корня уравнения по методу Ньютона (ROOT)
- 4. 2. 8. Функция расчета производной произвольного порядка (DXFX)
- 4. 2. 9. Функция расчета всех корней уравнения по методу Ньютона (ROOTS)
- 4. 3. Описание пользовательского интерфейса
- 4. 3. 1. Общий вид системы
- 4. 3. 2. Константы
- 4. 3. 3. Отчет «Траектории двух ЛСК в плоскости»
- 4. 3. 4. Отчет «Поиск эталона по сигналу»
- 4. 3. 5. Отчет «Поиск эталонов по сигналу»
- 4. 3. 6. Отчет «Поиск команды по словарю»
- 4. 3. 7. Отчет «Поиск команды по словарю методом половинного деления»
- 4. 3. 8. Отчет «Траектории трех ЛСК в пространстве»
- 4. 3. 9. Отчет «Траектории сравнения сигналов»
- 4. 3. 10. Отчет «Просмотр значений ЛСК»
- 4. 3. 11. Отчет «Сравнение центров эталонов и сигналов»
- 4. 3. 12. Отчет «Влияние параметров ЛСК на поиск команды по словарю»
- 4. 3. 13. Отчет «Оценка разделения сигналов по МДС»
- 4. 3. 14. Отчет «Сравнение каждого с каждым»
- 4. 3. 15. Формат файла входного речевого сигнала
- 4. 4. Техническая реализация, программные и аппаратные требования
- 4. 5. Исследование инвариантности системы к основным параметрам PC
- 4. 6. Сравнение ЛСК с другими методами получения первичных признаков
Список литературы
- Бочаров И. В. Акатьев Д.Ю., Распознавание речевых сигналов на основе корреляционного метода, Электронный ресурс. / http://zhurnal.ape.relarn.ru/articles/2003/131 .pdf Режим доступа свободный. — Загл. С экрана.
- Василенко О.В. Анализ эталонного метода распознавания раздельной речи основанного на нечетком сопоставлении Электронный ресурс., / http://masters.donntu.edu.ua/publ2002/fvti/vasilenko.pdf Режим доступа свободный. — Загл. С экрана.
- Винцюк Т.К. Анализ, распознавание и интерпретация речевых сигналов. -Киев: Наукова думка, 1987.
- Винцюк Т.К. Распознавание слов устной речи методами динамического программирования М.: Кибернетика, 1968, № 1, С.15−22.
- Вольская Н., А. Коваль, С. Коваль, И. Опарин, Е. Погарева, П. Скрелин, Н. Смирнова, А. Таланов. Синтезатор русской речи по тексту нового поколения // Труды международной конференции «Диалог'2005», Звенигород, 1−6 июня, 2005 г.
- Галунов В.И., Галунов Г. В. Один подход к автоматическому распознаванию речи Электронный ресурс. / http://www.auditech.ru/article/cntrid/click.php?action=download&id=9 Режим доступа свободный. — Загл. С экрана.
- Горелик А.Л., Скрипкин В. А. Методы распознавания. Учебное пособие для вузов М., Высшая школа, 1984 г.
- ГОСТ 21 950–93. Оценка качества речевого канала.
- П.Дегтярев Н. П., Параметрическое и информационное описание речевых сигналов Минск: Объединенный институт информатики HAH Беларуси, 2003, 216 С.
- Ермоленко Т., Шевчук В. Алгоритмы сегментации с применением быстрого вейвлет-преобразования. // Труды международной конференции «Диалог», Москва, 2003 г.
- Загоруйко Н.Г. Методы распознавания и их применение. М., Советское радио, 1972 г.
- Иванов A.B., Петровский A.A. Методы построения устройств распознавания речи на базе гибрида нейронная сеть/скрытая Марковская модель // Нейрокомпьютеры: разработка, применение, 2002, № 12. с. 26 — 36.
- Иконин С. Ю., Сарана Д. В. Система автоматического распознавания речи SPIRIT ASR Engine. // Цифровая обработка сигналов, 2003 г, № 3.
- Киселёв В.В., Таланов А. О. Автоматический поиск ключевых слов внепрерывном потоке речи на основе технологии «распознавание через синтез» // Труды международной конференции «Диалог 2006», Бекасово, 31 мая 4 июня 2006 г.
- Кисляков C.B. Разработка и исследование метода распознавания фонем русского языка на основе аппарата линейного предсказания. // Диссертационная работа, Санкт-Петербург 2004 г.
- Кнеллер Э.Г. Анализ параметров речевого сигнала создающих восприятие элементарных звуков речи // Труды международной конференции «Диалог 2006», Бекасово, 31 мая 4 июня 2006 г.
- Коваль C. JL, Смирнова Н. С., Хитров М. В. К проблеме разработкифонетического уровня в системах автоматического распознавания речи // Труды международной конференции «Диалог», Москва, 2002 г.
- Кондаков И. Психологический словарь. Электронный ресурс. / http://vocabularv.ru/dictionary/478/. Режим доступа свободный. — Загл. С экрана.
- Кузнецов В., Чучупал В., Маковкин К., Чичагова А. Проектирование и внедрение русская телефонная базы (TeCoRus). // «Речь и компьютер», Москва, 1999, с. 179−181.
- Кучерявый A.A. Бортовые информационные системы: Курс лекций / Под ред. В. А. Мишина и Г. И. Клюева. 2-е изд. перераб. и доп. — Ульяновск: УлГТУ, 2004. — 504 с.
- Ланнэ A.A. Новая теория линейных спектральных корней // Труды 3-ей Международной конференции «Цифровая обработка сигналов и ее применение», Москва, 2000 г. 29 ноября 1 декабря с. 118−125.
- Ланнэ A.A., Улахович Д. А. Передача информации о состоянии фильтра-предсказателя с помощью спектральных пар // Радиоэлектроника и связь. -1991г.-№ 1.
- Леонович A.A. Современные технологии распознавания речи // Труды международной конференции «Диалог», Москва, 2005 г.
- Ли У. Методы автоматического распознавания речи. М.: Мир, 1983.
- Ли И.В., Ронжин А. Л. Проектирование речевого диалога // Труды СПИИРАН, Вып. З, т. 1 СПб.: Наука, 2006, С. 320−338.
- Мазуренко И.Л. Многоканальная система распознавания речи. Московский // VI всероссийская конференция «Нейрокомпьютеры и их применение». Сборник докладов. Москва 16−18 февраля 2000 г.
- Мандель И.Д. Кластерный анализ. М.: Финансы и статистика. 1988.
- Маркел Д.Д., Грей А. Х. Линейное предсказание речи: Пер. с англ. М: Связь, 1980.
- Медведев М.С. Фонемная сегментация речевого сигнала с использованием вейвлет-преобразования. // Труды V всероссийской конференции молодых ученых по математическому моделированию и информационным технологиям 1−3 ноября 2004, г. Новосибирск.
- Мельников С. Точность распознавания речи доходит до 90%. // Cnews: издание о высоких технологиях Электронный ресурс. Режим доступа: http://cnews.ni/reviews/index.shtrnl72007/12/24/280 965 2. свободный. — Загл. С экрана.
- Михайлов В.Г., Златоустова JI.B. Измерение параметров речи. М.: Радио и связь, 1987.
- Мясников JI.JI. Объективное распознавание звуков речи // ЖТФ 1943 № 3, С. 109−115
- Оппенгейм А. В., Шафер Р. В. Цифровая обработка сигналов. М.: Связь, 1979
- Потапова Р.К. Речевое управление роботом: лингвистика и современные автоматизированные системы. Изд.2 М.: Букинист., 2005 г.
- Рабинер Л.Р. Скрытые марковские модели и их применение в избранных приложениях при распознавании речи: Обзор // ТИИЭР, т. 77, № 2, февраль 1989 г.
- Ронжин А.Л., Карпов A.A., Ли И.В. Автоматическая система распознавания русской речи Sirius // Научно-теоретический журнал «Искусственный интеллект, Донецк, 2005, № 3, С. 590−601.
- Ронжин А.Л., Карпов A.A., Ли И.В. Речевой и многомодальный интерфейсы М.: Наука, 2006.
- Рабинер Л.Р., Шафер Р. В. Цифровая обработка речевых сигналов.- М.: Радио и связь, 1981.
- Рутковская Д., Пилиньский М., Рутковский Л. Нейронные сети, генетические алгоритмы и нечеткие системы М.: Горячая линия, 2007 г.
- Сайт лаборатории речевых и многомодальных интерфейсов Санкт-Петербургского института информатики и автоматизации РАН http://www.spiiras.nw.ru/speech/index.html
- Сайт санкт-петербургского центра речевых технологий http://www.speechpro.ru/
- Сайт кафедры математической теории интеллектуальных систем МГУhttp://intsvs.msu.ru/invest/speech/
- Сайт компании «Стэл Компьютерные Системы» http://www.stel.ru/speech/
- Сайт компании «Одитэк» Санкт-Петербург http://www.auditech.ru/
- Сайт компании «Сакрамент» Белоруссия http://www.sakrarnent.com/
- Сайт объединенного института проблем информатики НАН Беларусии http://www.uiip.bas-net.bv/
- Сайт сектора автоматического распознавания речи и цифровой обработки сигналов РАН http://www.ccas.ru/depart/chuchu/doc ru/Frames.htm
- Сайт компании Nuance Corporation http://www.nuance.com
- Сайт проекта НТК, Кэмбриджский университет, Великобритания http://htk.eng.cam.ac.uk/
- Сайт кафедры ЦОС Санкт-Петербургского Государственного университета телекоммуникаций им. Проф.М.А. Бонч-Бруевича http://www.dsp.sut.ru/
- Сайт проекта Sphinx, университет Карнэги Мэллон, США http://cmusphinx. sourceforge. net/sphin х4/
- Сайт проекта IBM ASR ViaVoice http://www-01 .ibm.com/software/pervasive/embedded viavoice/
- Сайт проекта Microsoft Speech SDK http://www.microsoft.com/downloads/details.aspx7FamilyID-5e86ec97−40a7−453f-bOee-6583 1 71 b4530&displaylang=en#Qverview
- Сайт компании Vocative Санкт-Петербург http://www.vocative.ru/
- Солонина А.И., Улахович Д. А., Арбузов С. М., Соловьева Е. Б. Основы цифровой обработки сигналов СПб. БХВ, 2005.
- Сорокин В.Н. Истинные и ложные цели в распознавании и синтезе речи. //
- Речевая информатика.- Киев: Ин-т кибернетики АН УССР, 1989.- С. 40−45.
- Сорокин В.Н. Синтез речи. М.: Наука, 1992
- Страуструп Б. Язык программирования С++ М.: Бином, 2001.
- Станкевич JI.A. Интеллектуальные роботы и системы управления // Нейрокомпьютеры: разработка и применение, № 8−9, 2005 г.
- Турбович И.Т., Файн B.C. Распознавание образов. — М.: Наука, 1977.
- Улахович Д.А., Сергеев М. В. Статистические свойства спектральных корней русской речи. // Труды учебных заведений связи / СПбГУТ.-СПб, 1988, № 64
- Фант Г. Акустическая теория речеобразования. М.: Наука, 1964
- Фланаган Дж.Л. Анализ, синтез и восприятие речи М.Связь, 1968
- Фролов A.B., Фролов Г. В. Синтез и распознавание речи. Современные решения. Электронный ресурс. / http://www.frolov-lib.ru/books/hi/ch01.html. Режим доступа свободный. — Загл. с экрана.
- Цзинбинь Я., Хейдоров.И.Э., Алиев P.M. Поиск ключевых слов с использованием решетки слогов // Труды международной конференции «Диалог», Москва, 2009 г.
- Цыплихин А.И., Сорокин В. Н. Сегментация речи на кардинальные элементы. //Информационные процессы, Т. 6. 2006. № 3. С. 177−207
- Чистович Л.А., Венцов A.B. и др. Физиология Речи. Л., Наука, 1976
- Чучупал В.Я., Маковкин К. А. Система распознавания слитно-произносимых названий цифр для телекоммуникационных приложений. /М.:ВЦ РАН, 1997.
- Чучупал В.Я. К вопросу об оптимальном выборе алфавита моделей звуков русской речи для распознавания речи // Журнал «Искусственный интеллект». 2002 № 2 С. 575−579
- Шелепов В.Ю. К проблеме пофонемного распознавания // Журнал «Искусственный интеллект». 2005 № 4 С. 662−668
- Штарк Г. Применение вейвлетов для ЦОС / М.: Техносфера, 2007
- Furui, S. 50 years of progress in speech and speaker recognition // Proceedings of SPECOM'2005, Patras, Greece, 2005, pp. 3−9
- Ronzhin A.L., Rafael M.Y. Survey of Russian Speech Recognition Systems // SPECOM'2006, St. Petersburg, 25−29 June 2006
- Theodoridis S., Koutroumbas K. Pattern Recognion // USA: Academic Press, 2006
- Young, S. The НТК Book // Cambridge University Engineering Department, 20 021. Опубликованные работы
- Гладышев, К.К. Влияние основных физических параметров речи на качество ее распознавания / К. К. Гладышев. 2007. СПбГУТ. 9 с. Деп. в ВИНИТИ 26.06.07. № 676-В2007.
- Свидетельство об официальной регистрации программы для ЭВМ 2 007 614 250 РФ. Программа распознавания речевых информационных сигналов / К. К. Гладышев и др. // Информационный бюллетень официальной регистрации РосАПО. 2007.
- Гладышев, К.К. Проблема выбора эталонной единицы при распознавании речи / К. К. Гладышев // Журнал научных публикаций аспирантов и докторантов. 2008. — № 9. — С.244−247 (на момент выхода публикации входил в перечень ВАК).
- Гладышев, К.К. Система поиска ключевых слов в непрерывном речевом потоке / К. К. Гладышев // Естественные и технические науки. 2009. — № 1. — С. 242−244 (входит в перечень ВАК).
- Гладышев, К.К. Система автоматического распознавания речевых команд / К. К. Гладышев, Е. А. Шульгин // Известия высших учебных заведений. Приборостроение. 2009. — № 3. — С. 17−21 (входит в перечень ВАК).