Применение вейвлет-анализа в задачах автоматического распознавания речи
Диссертация
Эксперименты по использованию недиадических вейвлетов, учитывающих особенности человеческого слуха, а также вейвлеты, основанные на моделировании механизмов речевоспроизведения, показали точность распознавания, сравнимую с точностью распознавания при использовании блока предобработки, основанном на Фурье-преобразовании (точность распознавания раздельного произношения слов в системе… Читать ещё >
Содержание
- Глава 1. Обзор применения технологии вейвлет-анализа
- Вейвлеты и их свойства
- Вейвлет-преобразование
- Кратномасштабный анализ и ортогональные вейвлеты
- Быстрый алгоритм вычисления ортогонального вейвлет-преобразования
- Мультивейвлеты
- Вейвлеты в обработке речи
- Очистка речевого сигнала от шума
- Сегментация речевого сигнала и определение основного тона
- Автоматическое распознавание речи
- Выводы к главе 1
- Глава 2. Разработка и исследование методов параметризации речевого сигнала на основе вейвлет-анализа
- Параметризация на основе диадических вейвлетов
- Схема вычисления коэффициентов вейвлет-преобразования
- Схема формирования вектора признаков
- Оценка параметров на основе недиадических вейвлетов
- Вейвлет преобразование в области нижних-частот на основе голосового источника
- Вейвлет преобразование в области верхних частот
- Выводы к главе 2
- Глава 3. Численное моделирование распознавания речи на основе вейвлетного анализа
- Распознавание слитной речи на основе вейвлет-анализа
- Архитектура системы распознавания слитной речи
- Оценка параметров дискретных марковских моделей с помощью самоорганизующихся карт признаков Кохонена
- Оценка параметров на основе диадических вейвлетов
- Расчетные формулы
- Речевой материал
- Результаты численных экспериментов
- Оценка параметров на основе недиадических вейвлетов
- Расчетные формулы
- Речевой материал
- Результаты численных экспериментов
- Выводы к главе 3
Список литературы
- Lebrun J., Vetterli M. Balanced multiwavelets: theory and design. IEEE Trans. Signal Proc., № 4, 1998.
- Strang G., Strela V. Short wavelets and matrix dilation equations //IEEE Trans. Signal Proc., 1995, v.3. P.108−115.
- Q. Jiang, On the Design of Multifilter Banks and Orthonormal Multiwavelet Bases, IEEE Transactions on Signal Processing, Vol. 46, N0.12, December 1998.
- H. Hermansky and S. Sharma. Temporal Patterns (TRAPS) in ASR of Noisy Speech. Proc. ICASSP, 1:289−292, March 1999.
- P. McCourt, S. Vaseghi, and N. Harte. Multi-Resolution Cepstral Features for Phoneme Recognition across Speech Sub-Bands. Proc. ICASSP, 1:557−560, May 1998.
- S. Wu, B. Kingsbury, N. Morgan, and S. Greenberg. Incorporating Information from Syllable-length Time Scales into Automatic Speech Recognition. Proc. ICASSP, 11:721−724, May 1998.
- Daubechies. Ten Lectures on Wavelets. SIAM, 1992.
- S. Kadambe, G. Faye Boudreaux-Bartels, Application of the Wavelet Transform for Pitch Detection of Speech Signals, IEEE Trans, on Info. Theory, vol. 38, no. 2, March 1992, pp. 917−924.
- H.-Y. Gao. Wavelet estimation of spectral densities in time series analysis, Ph.D. dissertation, Dept. Stat. Univ. California, Berkley. 1993.
- H.-Y. Gao. Choice of thresholds for wavelet shrinkage estimate of the spectrum, J. Time Series Anal., vol.18 pp.231−251,1997.
- Andrew T. Walden, Donald B. Percival, Emma J. McCoy, Spectrum Estimation by Wavelet Thresholding of Multitaper Estimators, IEEE Transactions on Signal Processing, Vol. 46, N0.12, December 1998.
- M.A. TrenasJ.C. Rutledge N.A. Whitmal. Wavelet-Based Speech Enhancement for Hearing Aids, to appear in Proc. EMBEC, 1999
- L. Rabiner, B.-H. Juang Fundamentals of Speech Recognition. Prentice Hall, Englewood Cliffs, NJ, 1993
- M. Gupta and A. Gilbert, Robust speech recognition using wavelet coefficient features, in Proc. of IEEE Automatic Speech Recognition and Understanding Workshop, Italy, 2001.
- M. Vitterli, J. Kovacevic. Wavelets and Subband Coding. Prentince-Hall, Upper Saddele River, NJ, 1995
- R.T. Ogden. Essential Wavelets for Statistical Applications and Data Analysis. Birkhauser, 1997
- M. Krishnan, C. Neophytou, and G. Prescott. Wavelet transform speech recognition using vector quantization, dynamic time wraping and articicial neural networks. Preprint, 1994.
- Lori F. lamel etal. An Improved Endpoint Detector for Isolated Word Recognition, IEEE Trans. Acoust., Speech, Signal Processing, vol. ASSP-29, pp.777−785, Aug. 1981
- Daubechies, Orthonormal Bases of Compactly Supported Wavelets, Comm. on Pure and Applied Math., vol.41, pp.909−996, Nov.1988.
- G. Mallat. A Theory for Multiresolution Signal Decomposition: The Wavelet Representation, IEEE Trans. Pattern Anal, and Mach. Intel., vol.11, pp.674−693 Jul. 1989.
- R.Lippmann, An introduction to computing with neural networks, IEEE ASSP, pp.422, Apr. 1987.
- M. S. Crouse, R. D. Nowak, andR. G. Baraniuk. Wavelet-Based Statistical Signal Processing Using Hidden Markov Models. IEEE Trans, on Signal Processing, vol. 46, no. 4, pp. 886−902, April 1998.
- Katrin Keller, Souheil Ben-Yacoub, and Chafic Mokbel, Combining Wavelet-domain Hidden Markov Trees with Hidden Markov Models, IDIAP-RR 99−14, 1999.
- H. Choi and R. G. Baraniuk. Image Segmentation using Wavelet-domain Classification, Proc. SPIE Technical Conference on Mathematical Modeling, Bayesian Estimation, and Inverse Problems, pp. 306−320, Denver, July 1999.
- Christopher Wendt, Athina P. Petropulu, Pitch determination and speech segmentationUsing the discrete wavelet transform.
- J. R. DellerJr., J. G. Proakis, J. H. L. Hansen, Discrete-Time Processing of Speech Signals, Macmillan, New York, 1993.
- M. Noll, Cepstrum Pitch Determination, J.Acoust. Soc. Amer., vol. 41, no. 2, pp. 293 309,1970.
- J. D. Wise, J. R. Caprio, and T. W. Parks, Maximum likelihood pitch estimation, IEEE Trans. Acoust., Speech, Signal Processing, vol. ASSP-24, pp. 418−423,1976.
- M. M. Sondhi, New methods of pitch extraction, IEEE Trans. Audio Electroacoust., ol. AU-16, pp. 262−266, June 1968.
- H. W. Strube, Determination of the instant of glottal closure from the speech wave, J. Acoust. Soc. Amer., vol. 56, no. 5, pp. 1625−29, 1974.
- Y.M. Cheng, D. O’Shaughnessy, Automatic and Reliable Estimation of Glottal Closure Instant and Period, IEEE Trans. Acoust., Speech, Signal Processing, vol. 37, no. 12, pp. 1805−15, 1989.
- S. Kadambe, G. Faye Boudreaux-Barlels, Application of the Wavelet Transform for Pitch Detection of Speech Signals, IEEE Trans, on Info. Theory, vol. 38, no. 2, March 1992, pp. 917−924.
- S. G. Mallat, S. Zhong, Characterization of signals from multiscale edges, IEEE Trans, of Patt. Analy. and Mach. Intell., vol.14, pp. 710−32, July 1992.
- M. Akay, Wavelet Applications in Medicine, IEEE Spectrum, 1997, Vol. 34, No. 5, pp. 50−56.
- F. Yang, W. Liao, Modeling and Decomposition of IIRV Signals with Wavelet Transforms, IEEE Engineering in Medicine and Biology, 1997, Vol. 16, No. 4, pp. 1722.
- P. C. Ivanov, M. G. Rosenblum, С. K. Peng, J. Mietus, S. Havlin, H. E. Stanley, A. L. Goldberger, Scaling Behaviour of Heartbeat Intervals Obtained by Wavelet Based Time — Series Analysis «, Nature, 1996, Vol. 383, No. 26, pp. 323−327.
- JI. Левкович-Маслюк, А. Переберин. Вейвлет-анализ и его приложения. Материалы учебной программы 8-й международной конференции по компьютерной графике и визуализации ГрафиКон'98'99.
- Цвикер Э., Фельдкеллер P. Ухо как приемник информации. Пер. с нем. под общ. ред. Б. Г. Белкина.-М.:Связь, 1971. Ухо как приёмник информации.
- Чучупал В.Я., Маковкин К. А., Чичагов А. В. К вопросу об оптимальном выборе алфавита моделей звуков русской речи для распознавания речи //Искусственный интеллект, том 4, № 1,2002, стр.575−579, Наука i осв1та, Киев.
- V.Kouznetsov, V. Chuchupal, KMakovkin, A.Chichagov. Design and Implementation of a Russian Telephone Speech Database. //In Proc. of Int. Workshop „Speech and Computer“, Moscow, 1999, pp. 179−181.
- Филиппович Ю. H., E. B, Родионов, А. Черкасова Организация взаимодействия человека с техническими средствами АСУ, В 7кн. М.: Высшая школа, 1990 -Кн. 2. Языковые средства диалога человека с ЭВМ.
- Потапова Р.К. Речевое управление роботом. М.: Радио и связь, 1989
- David L. Donoho Non-linear Wavelet Methods for Recovering Signals, Images and Densities from Indirect and Noisy Data, 1993.
- C. Schremmer, T. Haenselmann, F. Bomers A Wavelet Based Audio Denoiser, Department of Praktische Informatik IV, University of Mannheim
- M. Roy, V.-R. Kumar, B.D. Kulkarni, J. Sanderson, M. Rhodes, M. van der Stappen Simple denoising algorithm using wavelet transform. AIChE Journal, vol.45, 1999
- F. Bomers, Wavelets in Real-Time Digital Audio Processing: Analysis and Sample Implementations, M.S. thesis, Universifat Mannheim
- J. Berge, C. Nichols Brahms at the piano, Leonardo Mus. Journal, vol. 4, pp. 23−30, 1994.
- S. Mallat AWavelet Tour of Signal Processing, Academic Press, San Diego, CA, USA, 1998.
- M. Lang, H. Guo, J.E. Odegard, C.S. Burrus Nonlinear processing of a shift invariant DWT for noise reduction, SPIE, Mathematical Imaging: Wavelet Applications for Dual Use, April 1995.
- F. Mujica, F. D’Alvano, C. Bruscianelli, D. Ros A Simple Wavelet Based Perceptual Audio Coder //Grupo de Procesamiento de Senales (GPS) Dpto. de Electronica у Circuitos, Universidad Simon Bolivar, Venezuela
- N. Jayant Signal Compression: Technology Targets and Research Directions, IEEE Journal on Selected Areas in Communications, vol. 10, no. 5, June 1992.
- C. Grewin, T. Ryden Subjective Assessments on Low Bit-Rate Audio Codecs, presented in the 10th AES Convention, London, September 1991.
- В. C. Moore: Characterization of simultaneous, forward and backward masking, Proceedings of the 12th International AES Conference, pp. 22−23, June 1993.
- E. Zwicker, H. Fasti, Psychoacoustics, Facts and Models, Springer-veriag, Munich, June 1990.
- D. E. Ros, Modelos Perceptuales para Esquemas de Codijicacion у Compresion de Audio, Master Thesis, Universidad Simon Bolivar, May 1994.
- D. Pan A Tutorial on MPEG/AudioCompression, //IEEE Multimedia Magazine, Summer 1995.
- K. Brandenburg у G. Stoll, ISO-MPEG-I Audio: A Generic Standard for Coding of High-Quality Digital Audio, Journal of the Audio Engineering Society, vol 42, no 10, October 1994.
- D. Sinha Low Bit Rate Transparent Audio Compression using Adapted Wavelets,
- EE Transactions on Signal Processing, vol. 41, no. 12, December 1993. 64.1. Daubechies, Orthonormal Based of Compactly Supported Wavelets, Communications on Pure and Applied Mathematics, vol. XLI909−996,1988.
- M. Bourges Creating, а С library of wavelets functions, IRISA Internal Publication No 864, September 1994.
- F. Mujica Transformada de Ondiculas para Esquemas de Compresion Perceptual de Audio, Master Thesis, Universidad Simon Bolivar, July 1995.
- M. Holzapfel, R. Hoffmann, H. Hoge A Wavelet-Domain PSOLA Approach. Institute for Technical Acoustics, Technical University of Dresden, D-I0162 Dresden, Germany
- L. Janer, J. Mart, C. Nadeu, E. Lleida-Solano Wavelet Transforms for Non-Uniform Speech Recognition Systems //GTC Dept. IEEC Centro Politecnico Superior de Ingenieros Zaragoza, Spain
- F. J. Ancin, B.L. Burrows, R.A. Carrasco. A Novel DyWTVT approach for continuous speech pitch estimation. In Proceedings EUSIPCO, volume 3, pages 7P.13 1677−1680,1994.
- Mark Black, Mehmet Zeytinoglu. Computationally eficient wavelet packet coding ofwide-band stereo audio signals. In Procedings ICASSP, volume 5, pages 3075−3078,1995.
- F. Cutugno, P. Maturi. Analysing connected speech with wavelets: some Italian data. In Proceedings EUROSPEECH, 1993.
- C. D’Alessandro. Speech Analysis and Synthesis Using an Auditory-Based Wavelet Representation. In Proceedings ESCA Workshop: Comparing Speech Signal
- Reid C.E., Passing T.B. Signal Processing in C. //Addison-Waseley, 1992
- Shamma S.A., A biophysical model of cochlear processing: intensity dependence of pure tone responses. //Journal of the Acoustic Society of America 80, 133−145, 1986
- A.P. Dempster, N.M. Laird, and D.B. Rubin, Maximum likelihood from incomplete data via the EM algorithm // J. Roy. Stat. Soc. vol. 39, no. 1, pp. 1−38, 1977.
- S.E. Levinson, L.R. Rabiner, and M.M. Sondhi, An introduction to the application of the theory of probabilistic function of a Markov process to automatic speech recognition //Bell Syst. Tech. Journal, vol. 62, no.4, pp. 1035−1074, Apr. 1983.
- Kohonen Т., Analysis of a simple self-organizing process. //Biol. Cybern. vol. 44, pp. 135−140, 198 281. Kohonen Т., Self-organization and associative memory, //Springer, 1984
- Cottrell M, FortJ.C., A stochastic model of retinotopy: a self-organizin process, //Biol. Cybern., vol. 53, pp.405−411, 1986
- Ritter H., Schulter K. Convergence properties of Kohonen’s topology conserving maps: fluctuations, stability, and dimension selection, //Biol. Cybern. vol. 60, pp. 5971,1988
- Brauer P., Knagenhjelm P. Infrastructure in Kohonen maps, //IEEE Int. Confernce on acoustic, speech and signal processing», ICASSP-89, vol. 1, pp. 647−650, 1989
- Knudsen E.I., du Lac S., Esterly S.D. Computational maps in the brain, //Ann. Rev. Neurosci., vol. 10, pp.41−65, 1987
- Kohonen Т., Torkkola K, Shozadai M., Kangas J., Venta O., Phonetic typewriter for Finnish and Japanese //IEEE International conference on acoustic, speech and signal processing, ICASSP-88, vol. 1, pp. 607−610, 1988
- Brauer P., Knagenhjelm P. Infrastructure in Kohonen maps, //IEEE Int. Confernce on acoustic, speech and signal processing", ICASSP-89, vol. 1, pp. 647−650, 1989
- Wiener N. Extrapolation, interpolation and smoothing of stationary time series, with engineering applications. //NY: Wieley, 1949.
- Мекклеллан Дж. Г., Рейдер Ч. М. Применение теории чисел ы цифровой обработке сигналов: Пер. с англ./Под ред.Ю. И. Манина. — М.: Радио и связь, 1983. —264 с.
- МаркелДж. Д. ГрейА.Х. Линейное предсказание речи: Пер. с англ./Под ред. Ю. Н. Прохорова и В. А. Звездина. — М.: Связь, 1980. — 308 с.
- КШ.Зигангиров, В. Н. Сорокин. Применение последовательного декодирования к распознаванию слитной речи. //Проблемы передачи информации, N 4,1977, с. 81−88.