Оценка параметров дикторонезависимых признаков фонем с применением адаптивного частотно-временного анализа
Диссертация
По результатам многочисленных экспериментов проведенных над речевыми сигналами различных дикторов найдены дикторонезависимые признаки гласных, фрикативных и взрывных фонем. Эксперименты с эталонными речевыми сигналами показали, что точность оценки параметров дикторонезависимых признаков фонем с применением адаптивного частотно-временного анализа выше, чем точность оценки тех же параметров методом… Читать ещё >
Содержание
- 1. Анализ технических средств и методов преобразования, обработки и распознавания речевых сигналов
- 1. 1. Структура систем регистрации, накопления и обработки речевых сигналов
- 1. 2. Классификация систем распознавания речи
- 1. 3. Особенности речевых сигналов. Основные характеристики, используемые в системах распознавания речи
- 1. 4. Методы обработки речевых сигналов в задачах распознавания речи
- 1. 5. Выводы
- 2. Определение основных параметров частотно-временного анализа
- 2. 1. Введение
- 2. 2. Модель источника речевых сигналов
- 2. 3. Моделирование смены состояний речи марковским процессом с дискретным временем
- 2. 4. Определение оптимального размера окна преобразования для марковского процесса с дискретным временем
- 2. 5. Определение оптимального шага смещения окна преобразования для марковского процесса с дискретным временем
- 2. 6. Зависимость вероятности правильного распознавания состояния от шага смещения окна преобразования по времени
- 2. 7. Моделирование смены состояний источника речи марковским процессом с непрерывным временем
- 2. 8. Определение оптимального шага смещения окна преобразования для марковского процесса с непрерывным временем
- 2. 9. Выводы
- 3. Адаптивный частотно-временной анализ сигналов в задачах дикторонезависимого распознавания речи
- 3. 1. Введение
- 3. 2. Связь между структурой, моделью и процессом распознавания речи
- 3. 3. Определение параметров модели
- 3. 4. Предсказание состояний. Способ коррекции вектора вероятностей состояний системы
- 3. 5. Метод адаптивного частотно-временного анализа в задачах дикторонезависимого распознавания речи
- 3. 6. Особенности формантного анализа на основе непрерывного вейвлет-преобразования
- 3. 7. Выводы
- 4. Экспериментальное исследование модели источника речевых сигналов и метода адаптивного частотно-временного анализа
- 4. 1. Задачи и условия проведения экспериментов
- 4. 2. Особенности вычисления непрерывного вейвлет-преобразования. Ускорение вычислений
- 4. 3. Выбор шкалы частот вейвлет-преобразования для формирования полных частотно-временных картин речевых сигналов
- 4. 4. Визуализация результатов вейвлет-преобразования
- 4. 5. Алгоритм нахождения частоты основного тона и определения вокализованности/невокализованности участка речевого сигнала на основе непрерывного вейвлет-преобразования
- 4. 6. Сегментирование речевого сигнала
- 4. 7. Периодичность гласных фонем
- 4. 8. Дикторонезависимые признаки гласных фонем. Алгоритм формантного анализа на основе непрерывного вейвлет-преобразования
- 4. 9. Дикторонезависимые признаки фрикативных фонем
- 4. 10. Дикторонезависимые признаки глухих взрывных фонем
- 4. 11. Экспериментальное исследование точности оценки параметров дикторонезависимых признаков методом адаптивного частотно-временного анализа
- 4. 12. Экспериментальное исследование адекватности разработанной модели источника речи и вычислительных затрат метода адаптивного частотно-временного анализа
- 4. 13. Выводы
Список литературы
- Котов В.В., Киселев А. Н. Ускорение вычисления непрерывного вейвлет-преобразования. // Интеллектуальные и информационные системы: материалы межрегиональной научно-технической конференции. // Тула: изд-во ТулГУ, 2003. 124 с. (С. 93−94).
- Котов В.В., Киселев А. Н. Ускорение вычисления непрерывного вейвлет-преобразования при анализе высокочастотных компонент сигналов. // Известия Тульского государственного университета. Серия
- Вычислительная техника. Информационные технологии. Системы управления. Т. 1. Вып. 2. Вычислительная техника. Тула: изд-во ТулГУ, 2003.-170 с. (С. 113−120).
- Свидетельство № 4575 от 04.04.2005 г./ Котов В. В., Киселев А. Н. Вейвлет-преобразование и анализ звуковых сигналов. — Отраслевой Фонд Алгоритмов и Программ Госкоорцентра Министерства образования и науки Российской Федерации.
- Киселев А.Н. Определение не зависящих от диктора признаков глухих фрикативных фонем. // Естественные и технические науки. — М.: изд-во «Компания Спутник +», 2005.-251 с. (С. 145).
- Гасов В.М., Москвин B.C., Сенькин С. И. Организация взаимодействия человека с техническими средствами АСУ. М.: Высшая школа, 1990.
- Рош JI. Уин. Библия по техническому обеспечению Уина Роша. — Минск.: МХХК «Динамо», 1992.
- Кочетков Г. Б. Автоматизация конторского труда в США. Теория и практика «офиса будущего». М.: Наука, 1985.
- Пиконе Джозеф. Методы моделирования сигнала в распознавании речи. Пер. Р. Попова. Кемерово: 2000 г.
- Фланаган Дж. Анализ, синтез и восприятие речи. М.: Связь, 1968.
- Рабинер Л.Р., Шафер Р. В. Цифровая обработка речевых сигналов. — М.: Радио и связь, 1981.
- Фуканага К. Введение в статистическую теорию распознавания образов. М.: Мир, 1978. — 312 с.
- Оппенгейм А.В., Шафер Р. В., Цифровая обработка сигналов. М.: Связь, 1979.
- Рабинер Л.Р., Гоулд Б. Теория и применение цифровой обработки сигналов. — М.: Мир, 1978.
- Блейкут Р. Быстрые алгоритмы цифровой обработки сигналов. — М.: Мир, 1989.
- Ахмед Н., Рао К.Р. Ортогональные преобразования при обработке цифровых сигналов. -М.: Связь, 1980.
- Jensen A., A. la Cour-Harbo. Ripples in Mathematics: The Discrete Wavelet Transform. Springer, 2001.
- Addison P., Addison N. The Wavelet Transform Handbook. Hardcover, 2002.
- Toswell C. Handbook Wavelet Transform Algor. Hardcover, 2002.
- Percival D.B., Walden A.T. Wavelet Methods For Time Series Analysis. Hardcover, 2000.
- Vidakovic. Statistical Modeling by Wavelets. Hardcover, 2000.
- Strang G., Nguyen T. Wavelets and Filter Banks. Hardcover, 1999.
- Mallat S.G. Wavelet analysis is signal processing. Hardcover, 1996.
- Котов В.В. Применение вейвлетов различных типов для анализа событий. // Известия Тульского государственного университета. Серия: Вычислительная техника. Автоматика. Управление. Том 3. Выпуск 3. Управление. Тула: ТулГУ, 2001. С. 165−167.
- Котов В.В., Соколов В. А. Частотное мультиплексирование с применением вейвлет-анализа сигналов. / Интеллектуальные и информационные системы: материалы межрегиональной научно-технической конференции. // Тула: изд-во ТулГУ, 2003. С. 86−89.
- Новиков JI.B. Основы вейвлет-анализа сигналов. Санкт-Петербург: 1999.
- Чжун Кай-Лай. Однородные цепи Маркова. М.: Мир, 1964.
- Баруча-Рид А. Т. Элементы теории марковских процессов и их приложения. — М.: Наука, 1969.
- Прохоров Ю.Н. Статистические модели и рекуррентное предсказание речевых сигналов. -М.: Радио и связь, 1984.
- Juang В.Н. On the hidden markov model and dynamic time warping for speech recognition. AT&T Tech. J., vol. 63, no. 7, pp. 1213−1243, 1984.
- Rabiner L.R., Juang B.H. An introduction to hidden markov models. -IEEE ASSP Mag, vol. 3, no. 1, pp. 4−16, 1986.
- Вентцель А.Д. Курс теории случайных процессов. М.: Наука, 1975.-320 с.
- Вентцель Е.С. Теория вероятностей. — М.: Наука, 1964. 572 с.
- Моттль В.В., Мучник И. Б. Скрытые марковские модели в структурном анализе сигналов. М.: ФИЗМАТЛИТ, 1999. — 352 с.
- Справочник по теории вероятностей и математической статистике / B.C. Королюк, Н. И. Портенко, А. В. Скороход, А. Ф. Турбин. М.: Наука, Гл. ред. физ.-мат. лит., 1985. — 640 с.
- Тихонов В.И., Миронов М. А. Марковские процессы. — М.: Сов. радио, 1977.-488 с.
- Вентцель Е.С., Овчаров Л. А. Теория случайных процессов и её инженерные приложения. — М.: Высш. шк., 2000. — 383 с.
- Натан А.А. Теория распознавания образов. М.: Наука, 1988.
- Васильев В.И. Распознающие системы: справочник. Киев: Наукова думка, 1983. — 422 е., ил.
- Фор А. Восприятие и распознавание образов. — М.: Машиностроение, 1989. —271 е., ил.
- Горелик А.Л., Скрипкин В. А. Методы распознавания. М.: Высшая школа, 1984. — 208 е., ил.
- Ту, Дж. Т., Гонсалес, Р. Принципы распознавания образов. М.: Мир. 1978.-411 е., ил.
- Горелик А.Л., ^Гуревич И.Б., Скрипкин В. А. Современное состояние проблемы распознавания: Некоторые аспекты. М.: Радио и связь, 1985.-160 е., ил.
- Винцюк Т.К. Анализ, распознавание и интерпретация речевых сигналов. — Киев: Наукова думка, 1987.
- Игнатьев В.М., Ларкин Е. В. Восприятие информации в системах искусственного интеллекта. Тула, 1993.
- Загоруйко Н.Г. Методы распознавания и их применение. М.: Сов. радио, 1972.
- Методы автоматического распознавания речи. / Под ред. Ли У. В 2-х томах. -М.: Мир, 1983.-716 с.
- А.Н.Колмогоров, С. В. Фомин. Функциональный анализ.- М.:Наука, 1984.
- Шикин Е.В., Плис А. И. Кривые и поверхности на экране компьютера. — М.: Диалог-МИФИ, 1996.
- Аммерал Л. Машинная графика на персональном компьютере. М.: Сол Систем, 1992. — 230 с.
- Toth D.L. On ray tracing parametric surfaces // SIGGRAPH'85. 1985. -Vol.19, № 3. P. 171−178.
- Levin J.A. Parametric algorithm for drawing pictures of solid objects composed of quadric surfaces // Communication of the ACM. 1976. — Vol. 1, № 10.-P. 555−563.
- Jarke J.V. Bicubic patches for approximating non-rectangular control-point meshes // Computer Aided Geometric Design. -1986. Vol. 3, № 1. P. 456 459.
- Bajaj C.L. Surface fitting using implicit algebraic surface patches. In Topics in Surface Modeling. H. Hagen, Ed., SIAM, 1992.
- Иванов В.П., Батраков A.C. Трехмерная компьютерная графика. -М.: Радио и связь, 1995.
- Лапшин Е.В. Компьютерная графика. -М.: Солон, 1995.
- Тихомиров Ю. Программирование трехмерной графики в OpenGL. -Санкт-Петербург: BHV, 1998.
- Гельман М.М. Аналого-цифровые преобразователи для информационно-измерительных систем. М.: Изд-во стандартов, 1989.
- Gold D., Rabiner L.R. Parallel Processing Techniques for Estimating Pitch Periods of Speech in the Time Domain. Journal of the Acoustical Society of America, vol. 46, no. 2, pt. 2, pp. 442−448, 1969.
- Noll A.M. Cepstrum Pitch Determination, Journal of the Acoustical Society of America, vol. 41, no. 2, pp. 293−309, February 1967.
- Hess W. Pitch Determination Of Speech Signals, Springer-Verlag, New York, NY, USA, 1983.
- Нуссбаумер Г. Быстрое преобразование Фурье и алгоритмы вычисления сверток. М.: Радио и связь, 1985. — 248 е., ил.
- Rabiner L.R., Schafer R.W. Digital Processing of Speech Signals, Prentice-Hall, Englewood Cliffs, New Jersey, USA, 1978.
- Блейхут P. Быстрые алгоритмы цифровой обработки сигналов. М: Мир, 1989.
- Голд Б., Рейден И. Цифровая обработка сигналов. М.: Мир, 1973. -367 с.
- Гольберг JI.M. Цифровая обработка сигналов. — М.: Радио и связь, 1990.- 325 с.
- Rabiner L. R., Juang В.Н., Fundamentals of Speech Recognition, Prentice-Hall, Englewood Cliffs, New Jersey, USA, 1993.
- Markel J., A.H. Gray, Jr. Linear Prediction of Speech, Springer-Verlag, New York, NY, USA, 1980.
- Atal B.S., Hanauer S.L. Speech analysis and synthesis by linear prediction of the speech wave, Journal of the Acoustical Society of America, vol. 50, no. 2, pp. 637−655, March 1971.
- Фатуев B.A., Каргин A.B., Понятский B.M. Структурно-параметрическая идентификация динамических систем: Учеб. пособие.-Тула: Изд-во Тул-ГУ, 2003.-156 с.
- I. Daubechies. Ten Lectures on Wavelets. CBMS-NSF Regional Conf. Series in Appl. Math., Vol. 61. Society for Industrial and Applied Mathematics, Philadelphia, PA, 1992.
- Васильев Ф.П. Численные методы решения эстремальных задач. — М.: Наука, 1980.-520 с.- 150 -Приложение
- ВНИМАНИЕ !!! Теперь обработка сигнала осуществляетсяс позиции, в которую установлен скролл-бар //int CurPos=0-
- RedrawWavelet=true- SignalScrollBar→Enabled=false- IsDWT=false-try {f0=F0Edit→Text.ToDouble ()-if (f0==0.0) {
- F0Edit→SetFocus () — return-catch (EConvertError& ex) F0Edit→SetFocus ()-tryfn=FNEdit→Text.ToDouble () — catch (EConvertError& ex) FNEdit→SetFocus ()-try
- FQ=FQEdit→Text.Tolnt () — catch (EConvertErrorS ex) FQEdit→SetFocus ()-try {a=AEdit→Text.ToDouble ()-catch (EConvertErrorS ex) {1. AEdit→SetFocus ()-try {1. N=NEdit→Text.Tolnt ()-if (N>(SignalLength-WND)) {
- Если она сильно больше нуля, значит либо вейвлеточень маленький, и велики ошибкидискретизации, .либо вейвлет очень большой и невлезает в окноdouble dt=2.0/double (WND) —
- WaveletImage→Picture→Bitmap→Width=N-1. WaveletImage→Width=N-1. WaveletPanel→Width=N-
- Первым делом вычисляем шкалу частот и сопустствующие значения масштабаfor (i=0-i
ItemIndex==0) { //Линейная шкала - FreqFQ-i-1.=(fn-fO)*double (i)/double (FQ-1)+f0else if (ScaleRadioGroup→ItemIndex==l) {1. FreqFQ-i1.=f0*exp (double (i)*log (fn/fO)/double (FQ-1)) — }else {1. FreqFQ-i-1.=100.0-
- ScaleFQ-i-1.=a*fd*dt/(2.0*MPI*Freq[FQ-i-1])-for (i=0-i
- SignalPart1.=complex (double (Signali.-128), 0.0)-for (i=L-i
- SignalPart1.=complex (0.0,0.0)-*/if (NBytes==l) {for (i=0-i
- SignalPart1.=complex (double (Signali.128., 0.0) — }elsefor (i=0- KFFTN- i++)
- SignalPart1.=complex (double (IntSignali.)/256.0.128.0,0.0) — }for (i=0-i
- SignalPart1.=complex (double (Signali.-128), 0.0)-for (i=L- KFFTN- i++)
- SignalPart1.=complex (0.0,0.0)-bpf (SignalPart, FFTLN) — AnsiString ForCaption- for (i=0-i
- Morlet = GenerateMorletWavelet2(Scale 1.) — Step=int (Scalei./(Scale[0]*P)) — if (Step==0)
- Step=l- if (Step>N) Step=N-
- NCWT=double (WaveletEnd)-double (WaveletBegin) — //CostCWT=NCWT*double (N-WND-1)/double (Step)-if (Morlet≥0.3) {for (j=0-j