Методы и программные средства фонетико-языкового моделирования в системах автоматического распознавания русской речи
Диссертация
Следующим этапом после распознавания слов является генерация грамматически правильных и осмысленных гипотез произнесенной фразы с помощью некоторой модели языка. Одним из подходов к построению языковых моделей являются статистические «-граммы, которые оценивают вероятность появления слова в зависимости от последовательности из п произнесенных до этого слов. Существующие модели в большинстве… Читать ещё >
Содержание
- Положения, выносимые на защиту
- Глава 1. Анализ подходов к фонетико-языковому моделированию разговорной речи
- 1. 1. Основные методы автоматического распознавания речи
- 1. 2. Методы моделирования вариативности произношения в разговорной речи
- 1. 3. Методы языкового моделирования разговорной речи
- 1. 4. Аналитический обзор систем распознавания русской речи с большим словарем
- 1. 4. 1. Обзор автоматических систем распознавания русской речи
- 1. 4. 2. Обзор систем распознавания речи со сверхбольшим словарем
- 1. 5. Выводы по главе 1
- Глава 2. Моделирование фонетических единиц разговорной русской речи
- 2. 1. Орфографико-фонематическое преобразование слов
- 2. 1. 1. Используемый фонемный алфавит
- 2. 1. 2. Определение положения ударения в слове
- 2. 1. 3. Базовые правила фонематического транскрибирования слов
- 2. 1. 4. Правила транскрибирования, учитывающие возможную редукцию и ассимиляцию звуков речи
- 2. 2. Метод автоматического создания базовых и альтернативных транскрипций
- 2. 3. Анализ частотности правил редукции и ассимиляции
- 2. 4. Правила транскрибирования текстов
- 2. 5. Оценка работы метода транскрибирования
- 2. 6. Выводы по главе 2
- 2. 1. Орфографико-фонематическое преобразование слов
- Глава 3. Языковое моделирование разговорной русской речи
- 3. 1. Сбор и статистическая обработка обучающего текстового корпуса
- 3. 1. 1. Нормализация текстовых данных
- 3. 1. 2. Автоматический анализ текстовых данных
- 3. 2. Создание базовой статистической модели русского языка
- 3. 3. Метод создания модели языка с использованием синтаксического анализа
- 3. 3. 1. Элементы синтаксического анализа русского языка
- 3. 3. 2. Создание синтаксическо-статистической модели русского языка
- 3. 4. Оценка созданной модели языка
- 3. 4. 1. Вычисление энтропии и коэффициента неопределенности
- 3. 4. 2. Вычисление количества внесловарных слов и совпадений я-грамм
- 3. 5. Выводы по главе 3
- 3. 1. Сбор и статистическая обработка обучающего текстового корпуса
- Глава 4. Комплекс программных средств для распознавания разговорной русской речи
- 4. 1. Архитектура комплекса программных средств для обработки и распознавания речи
- 4. 1. 1. Блок обучения моделей акустических единиц речи
- 4. 1. 2. Блок предварительной обработки текстового материала
- 4. 1. 3. Блок создания фонематических транскрипций слов
- 4. 1. 4. Блок выбора наилучших транскрипций
- 4. 1. 5. Блок создания стохастической модели языка
- 4. 1. 6. Блок распознавания речи
- 4. 2. Эксперименты по распознаванию русской речи с использованием разработанного программного комплекса
- 4. 2. 1. Критерии оценки качества распознавания речи
- 4. 2. 2. Результаты экспериментов по распознаванию речи с применением множественных вариантов транскрипций
- 4. 2. 3. Результаты распознавания русской речи при использовании различных моделей языка
- 4. 3. Выводы по главе 4
- 4. 1. Архитектура комплекса программных средств для обработки и распознавания речи
Список литературы
- Автоматическая обработка текста. Исходники словарей и программ. http://www.aot.ru/download.php (дата обращения: 16.05.2011).
- Александров В.В. Развивающиеся процессы и системы. Степенные законы// Журн. «Информационные системы и технологии». 2007. -№ 1(1). —С. 58−83.
- Александров В.В., Кулешов C.B. Компьютерный симулятор рече-визуального интерфейса управления и контроля летательным аппаратом // Материалы конференции «Человеческий фактор в авиации и космонавтике» Москва-Ярополец, 13−15 июня 2007 г.
- Антонова A.A., Мисюрев A.B. Об использовании синтаксического анализатора Cognitive Dwarf 2.0 // Труды ИСА РАН. Т 38, 2008, С 91−109.
- Баглей С.Г., Антонов A.B., Мешков B.C., Суханов A.B. Статистические распределения слов в русскоязычной текстовой коллекции. Материалы международной конференции «Диалог 2009». Москва, 2009, С. 13−18.
- Боумедин Шаннаг, Александров В. В. Морфологический анализатор для арабского языка (SAMA1) «Информационно-измерительные и управляющие системы», № 11, т.7, 2009. — С.60−62.
- Библиотека синтаксического анализа текста RCO Syntactic Engine SDK. http://www.rco.ru/product.asp?obno=15 (дата обращения: 16.05.2011).
- Веб-сайт программы Emsa HTML Tag Remover http://www.e-systems.ro/
- Викторов А.Б., Грамницкий С. Г., Гордеев С. С., Ескевич MIB., Климина Е. М. Универсальная методика подготовки компонентов обучения систем распознавания речи // Речевые технологии, Народное образование № 2. 2009. С. 39−55.
- Винцюк Т.К. Анализ, распознавание и интерпретация речевых сигналов. — Киев: Наук, думка, 1987. 264 с.
- Винцюк Т.К., Скрипник А. Г. Модуль анализатора речи СРД «Речь-2» -Тезисы докладов 16-го всесоюзного семинара (АРСО 16), 1991. — С. 250 251.
- Гейльман Н.И. Разговорная речь // Проблемы и методы экспериментально-фонетического анализа речи/под ред. JI.P. Зиндера и JI.B. Бондарко. Л.: изд-во СПбГУ, 1980. С.110−122.
- Горностай Т., Васильев А., СкадинынР., СкадиняИ. Опыт латышско-прусского машинного перевода// Материалы международной конференции «Диалог 2007». Москва. 2007. С. 137−146.
- Джелинек Ф. Распознавание непрерывной речи статистическими методами // ТИИЭР. 1976. — Т. 64. — № 4. — С. 131−160:
- Дружкин К.Ю., Цинман Л. Л. Синтаксический анализатор лингвистического процессора ЭТАП-3: Эксперименты по ранжированию. Материалы международной конференции «Диалог 2008». Москва, 2008.
- Зализняк A.A. Грамматический словарь русского языка: Словоизменение // 4-е изд., испр. и доп. — М.: Руские словари, 2003.
- Захаров J1.M. Акустическая вариативность звуковых единиц в русской речи // Язык и речь: проблемы и решения. Сборник научных трудов к юбилею профессора J1. В. Златоустовой / Под ред. Г. Е. Кедровой и1. B.В. Потапова. М. 2004.
- Земская Е.А. (ред.) Русская разговорная речь. М.: Наука, 1973. 485 с.
- Иванова Т.И. Компьютерные технологии в телефонии. Эко-Трендз, М., 2002.
- Кагиров И.А., Леонтьева Ан.Б. Автоматический синтаксический анализ русских текстов на. основе грамматики составляющих // Известия вузов. Приборостроение. 2008. Т. 51, № 11. С. 47−51.
- Карпов A.A. Модели и программная реализация распознавания русской речи на основе морфемного анализа. Диссертация на соискание ученой степени кандидата технических наук. 2007. 129 с.
- Карпов A.A., Ронжин А. Л., Кипяткова И. С. Мультимедиа корпус аудиовизуальной русской речи RusAVSpeechCorpus // Свидетельство о государственной регистрации базы данных № 2 011 620 085 — М: РОСПАТЕНТ ФГУ ФИПС, 2011.
- Карпов A.A., Ронжин А. Л., Ли И.В. SIRIUS — система дикторонезависимого распознавания слитной русской речи // Известия ТРТУ. № 10. 2005. С. 44−53.
- Кибкало A.A., Лотков М. М., Рогожкин И. Г., Туровец A.A. Разработка системы распознавания русской речи // Вопросы атомной науки и техники. Сер. Математическое моделирование физических процессов. 2003. Вып. 3.1. C. 8−20.
- Кипяткова И.С. Создание альтернативных транскрипций слов для моделирования вариативности произношения в системах голосового управления // Свидетельство ОФАП № 9525. 2007.
- Кипяткова И.С. Комплекс программных средств обработки и распознавания разговорной русской речи // Информационно-управляющие системы. № 4, Т. 53, 2011, С. 53−59.
- Кипяткова И.С., Карпов A.A. Автоматическая обработка и статистический анализ новостного текстового корпуса для модели языка системы распознавания русской речи // Информационно-управляющие системы. -СПб: СПбГУАП, № 4(47), 2010, С. 2−8.
- Кипяткова И.С., Карпов A.A. Модуль фонематического транскрибирования для системы распознавания разговорной русской речи // Искусственный интеллект, Донецк, Украина, № 4, 2008, С. 747−757.
- Компьютерный фонетический алфавит SAMPA. http://www.phon.ucl.ac.uk/home/sarnpa/ (дата обращения: 16.05.2011).
- Косарев Ю.А. Естественная форма диалога с ЭВМ. JL: Машиностроение, 1989.- 143 с.
- Крестьянинов C.B. Интеллектуальные сети и компьютерная телефония. М., «Радио и связь», 2001.
- Кузнецов В.И. Вокализм связной речи. СПб.: изд-во СПбГУ, 1997. 247с.
- Лаптева O.A. Живая русская речь с телеэкрана: разговорный пласт телевизионной речи в нормативном аспекте. М., 2007.
- Левенштейн В.И. Двоичные коды с исправлением выпадений, вставок и замещений символов. Докл. АН СССР, 163, 4, стр. 845−848, 1965.
- Моттль В.В., Мучник И. Б. Скрытые марковские модели в структурном анализе сигналов / М.: Физматлит, 1999. 351 с.
- Национальный корпус русского языка, www.ruscorpora.ru (дата обращения: 16.05.2011).
- Ножов И.М. Реализация автоматической синтаксической сегментации русского предложения. Диссертация на соискание ученой степени кандидата технических наук. 2003, 140 с.
- Охтилев М.Ю., Соколов Б. В., Юсупов P.M. Интеллектуальные технологии мониторинга и управления структурной динамикой сложных технических объектов. М.: Наука, 2006. 410 с.
- Пилипенко В.В. Распознавание дискретной и слитной речи из сверхбольших словарей на основе выборки информации из баз данных// Искусственный интеллект. 2006. № 3. С. 548−557.
- Пилипенко В.В., Робейко В. В. Автоматизированный стенограф украинской речи // Искусственный интеллект. 2008. № 4. С. 768−775.
- Потапова Р.К. Речь: коммуникация, информация, кибернетика. 2003. — 568 с.
- Проект «Эволюция языка». Русские словари и морфология. http://starling.rinet.ru/morpho.php?lan=ru (дата обращения: 24.03.2011).
- Протасов C.B. Вывод и оценка параметров дальнодействующей триграммной модели языка// Материалы международной конференции «Диалог 2008″. Москва. 2008. С. 443−449.
- Прохоров A.M. (гл. ред.) Большая советская энциклопедия. Т. 23. М.: Советская энциклопедия, 1976, 638 с.
- РонжинА.Л. Топологические особенности морфофонемного способа представления словаря для распознавания русской речи // Вестник компьютерных и информационных технологий. № 9. 2008. С. 12−19.
- Ронжин А.Л., Карпов A.A., Кипяткова И. С. Многомодальный пользовательский интерфейс для интеллектуальной информационнойсистемы// Свидетельство о регистрации ПрЭВМ № 2 010 617 640 — М.: РОСПАТЕНТ ФГУ ФИПС, 2010.
- Роижин А.Л., Карпов A.A., Ли И.В. Речевой и многомодальный интерфейсы. М.: Наука, 2006 — (Информатика: неограниченные возможности и возможные ограничения), 173 с.
- Сайт компании „ООО Диктум“. http://www.dictum.ru/ (дата обращения: 16.05.2011).
- Сайт компании MetaProducts. http://www.metaproducts.com/default.asp (дата обращения: 16.05.2011).
- Светозарова Н.Д. Некоторые особенности фонетики русской спонтанной речи//Бюллетень фонетического фонда русского языка № 8, Фонетические свойства русской спонтанной речи. СПб: Бохум, 2000. С. 7−15.
- Скороходько Э.Ф. Семантические сети и автоматическая обработка текста. Киев, 1983. — 112 с.
- Скрелин П.А. Формальные методы анализа речи: проблемы интерпретации результатов. Материалы XXXVI международной филологической конференции. СПб. 2007. С. 3−14.
- Сокирко A.B. Морфологические модули на сайте www.aot.ru // Труды Международной конференции „Диалог-2004. Компьютерная лингвистика и интеллектуальные технологии“. М.: Наука, 2004. С. 559−564.
- Станкевич Л.А. Адаптивные поведенческие системы на нейрологических сетях. 11-я Национальная конференция по искусственному интеллекту с международным участием (КИИ-08), 29.09−3.10. 2008.
- Станкевич Л.А., Серебряков C.B. Когнитивные системы и агенты. В Сб. Труды СПИИРАН, под общей ред. P.M. Юсупова». Вып. 3, т.1. — СПб.: Наука, 2006, С.71−87.
- Станкевич Л.А., Тихомиров В. В., Троцкий Д. И. Распознавание трехмерных объектов на основе структурного описания. «Нейрокомпьютеры», № 6, 2006, С. 121−136.
- Старостин А.С., Мальковский М. Г. Алгоритм синтаксического анализа, используемый в системе морфо-синтаксического анализа «Treeton». Материалы международной конференции «Диалог 2007». Москва, 2007, С. 516−524.
- Холоденко А.Б. О построении статистических языковых моделей для систем распознавания русской речи // Интеллектуальные системы. Т.6. Вып. 1−4. 2002. С. 381−394.
- Шведова Н.Ю. (гл. ред.) и др. Русская грамматика: В 2 т. М.: Наука, 1980, 783 с.
- Шеннон К. Работы по теории информации и кибернетике. — М.: Изд. иностр. лит., 2002.
- Amdal I. Learning pronunciation variation. A data-driven approach to rule-based lexicon adaptation for automatic speech recognition. PhD thesis. Department of Telecommunications Norwegian University of Science and Technology. Norway. 2002.
- Arisoy E., Dutagaci H., Arslan, L. A unified language model for large vocabulary continuous speech recognition of Turkish. Signal Processing, Elsevier, 86(10):2844−2862, 2006.
- BahlL.R., de SouzaP.V., Gopalakrishman P. S., Nahamoo D., Picheny M.A. Decision trees for phonological rules in continuous speech. Proc. ICASSP-91, Toronto, Canada, 1991. pp. 185−188.
- Benesty J., Sondhi M., Huang Y. (eds.) Springer Handbook of Speech Processing. Springer, 2008, 1176 p.
- Bolotova O., Gusev M., Smirnov V. Speech Recognition System for the Russian Speech. In Proc. of 12-th International Conference on Speech and Computer SPECOM. Moscow. Russia. 2007. pp. 475−480.
- Clarkson P., Rosenfeld R. Statistical language modeling using the CMU-Cambridge toolkit// Proc. of EUROSPEECH. Rhodes. Greece. 1997. pp.*2707−2710.
- Cole et al. Survey of the state of the art in human language technology, Cambridge University Press, New York, NY, 1997.
- Fosler-Lussier J.E. Dinamic pronunciation models for automatic speech recognition. PhD thesis. University of California. Berkeley. 1999.
- Fosler-Lussier E., Morgan N. Effect of speaking rate and word frequency on pronunciations in conversational speech. Speech Communication, vol. 29. 1999. pp. 137−158.
- Ganapathiraju A., Hamaker J., Picone, J. Hybrid SVM/HMM Architectures for Speech Recognition. Proceedings of Speech Transcription Workshop, 2000. pp. 504−507.
- Hirschman L., Thompson H.S. Overview of evaluation in speech and natural language processing. In: R. Cole et al. (eds.) «Survey of the State of the Art in Human Language Technology», Cambridge University Press, 1997.
- HirsimakiT., PylkkonenJ., Kurimo M. Importance of High-Order N-Gram Models in Morph-Based Speech Recognition, IEEE Trans, on Audio, Speech and Language Processing, 17(4):724−732,2009.
- Humphries J.J., Woodland P.C., Pearce D. Using accent-specific pronunciation modeling for robust speech recognition. Proc. ICSLP-96, Philadelpia (PA), USA, 1996. pp. 2324−2327.
- Jing Z., Min, Z. Speech recognition system based improved DTW algorithm. Proceedings of the International Conference on Computer, Mechatronics, Control and Electronic Engineering CMCE-2010, vol. 5, 2010. pp. 320−323.
- Ipsic I., Martincic-Ipsic S. Croatian Speech Recognition // Advances in Speech Recognition / Noam R. Shabtai, editor (s). Rijeka, Croatia: SCIYO, 2010. pp. 123−140.
- Ircing P., Hoidekr J., Psutka J. Exploiting Linguistic Knowledge in Languagei
- Modeling of Czech Spontaneous Speech. Proceedings of LREC 2006. Paris: ELRA, 2006, pp. 2600−2603.
- Kanevsky D., Monkowski M., Sedivy J. Large Vocabulary Speaker-Independent Continuous Speech recognition in Russian Language// Proc. International Workshop SPECOM'96. St.Petersburg. Russia. 1996. pp. 117−121.
- Karahanoglu N. Likelihood minimizing beamforming. PhD thesis. Friedrih-Alexander-University-Erlangen-Nuremberg. Germany. 2006.
- Kessens J.M., Wester M., Strik H. Modeling Within-word and Cross-word Pronunciation Variation to Improve the Performance of a Dutch CSR. Proc. of thel4 th Int. Congress of Phonetic Sciences, San Francisco, 1999. pp. 16 651 668.
- Kessens J. M., Wester M., Strik H. Improving the performance of Dutch CSR by modeling within-word and cross-word pronunciation variation. Speech Communication, vol. 29. 1999. pp. 193−207.
- Kurimo M., HirsimakiT., TurunenV.T., Virpioja S., Raatikainen N. Unsupervised decomposition of words for speech recognition and retrieval //
- Proceedings of 13-th International Conference «Speech and Computer» SPECOM'2009. St. Petersburg. 2009. pp. 23−28.
- Ladefoged P. A Course in Phonetics. Harcourt Brace Jovanovich, Inc., New York, 1975.
- Merkel A., Klakow D. Improved Methods for Language Model Based Question Classification// Proceedings of 8th Interspeech Conference. Antwerp. 2007. pp 322−325.
- Moore G.L. Adaptive Statistical Class-based Language Modelling. PhD thesis. Cambridge University. 2001. 193 p.
- Nouza J., Silovsky J. Adapting Lexical and Language models for Transcription of Highly Spontaneous Spoken Czech// Springer-Verlag Berlin Heidelberg. Petr Sojka et al. (Eds.): TSD 2010. LNAI 6231. 2010. pp. 377−385.
- Oparin I., Glembek O., Burget L., Cernosky J. Morphological random forest forlanguage modeling of inflectional languages. In Proc. 2nd IEEE Workshop on Spoken Language Technology, Goa, India, 189−192, 2008.
- Oparin I., Talanov A. Stem-Based Approach to Pronunciation Vocabulary Construction and Language Modeling for Russian // Proc. of 10-th International Conference on Speech and Computer SPECOM, Patras, Greece, 2005, pp. 575 578.
- Psutka J., Ircing P., Psutka J.V., Hajic J., Byrne W.J., Mirovsky J. Automatic Transcription of Czech, Russian, and Slovak Spontaneous Speech in the MALACH Project // Proceedings of Eurospeech. Lisboa. Portugal. Sept. 4−8. 2005. pp. 1349−1352.
- Rabiner L., Juang B.-H. Fundamentals of Speech Recognition. Prentice Hall. -1993.-507 p.
- Ragni A. Initial Experiments with Estonian Speech Recognition// Proc. of the 16-th Nordic Conference of Computational Linguistics NODALIDA-2007. Nivre J. et al. (Eds). Tartu. 2007. pp. 249−252.
- Riley M.D. A Statistical Model for Generating Pronunciation Networks. Proc. IEEE Int. Conf. on Acoustics, Speech and Signal Processing, pp. 737−740, Toronto, Canada, May 1991.
- Riley M.D., Ljolje A. Automatic speech and speaker recognition: Advanced topics, ch. Automatic generation of detailed pronunciation lexicons. Kluwer. 1996. pp. 285−301.
- Rotovnik T., Maucec M.S., Kacix Z. Large vocabulary continuous speech recognition of an inflected language using stems and endings. Speech Communication, Vol.49, No.6, 2007. pp. 437−452.
- Saraclar M. Pronunciation Modeling for Conversational Speech Recognition. PhD thesis. Baltimore, USA. 2000.
- Schwarz P., Matejka P., Cernocky J. Hierarchical structures of neural networks for phoneme recognition, Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing ICASSP-2006, Toulouse, France, 2006.
- Serva M., Petroni F. Indo-Iuropean languages tree by Levenshtein distance. EPL (Europhysics Letters), vol. 81, no. 6, pp. 68 005-pl:p5, March 2008.
- Solera-Urena R., Martin-Iglesias D., Gallardo-Antolin A., Pelaez-Moreno C., Diaz-de-Maria F. Robust ASR Using Support Vector Machines // Speech Communication, vol. 49, № 4, 2007. pp. 253−267.
- Stephenson T. A., Escofet J., Magimai-Doss, M., Bourlard H. Dynamic Bayesian Network Based Speech Recognition with Pitch and Energy as Auxiliary Variables. In: IEEE International Workshop on Neural Networks for Signal Processing NNSP-2002. 2002.
- Strom N. Continuous Speech Recognition in the WAXHOLM Dialogue System // Stockholm QPSR, 1996. pp. 67−95.
- Stuker S., Schultz T. A grapheme Based Speech Recognition System for Russian // Proc. International Conference SPECOM'2004. St.Petersburg. Russia. 2004 pp. 297−303.
- Svenson M., Bhanuprasad K. Errgrams A Way to Improving ASR for Highly Inflective Dravidian Languages. Proc. 3rd International Joint Conference on Natural Language Processing IJCNLP'08, India, 805−810, 2008.
- Szarvas M., Furui S. Finite-state transducer based modeling of morphosyntax with applications to Hungarian LVCSR. in Proc. ICASSP, HongKong, China, 368−371,2003.
- TarjanB., MihajlikP. On Morph-Based LVCSR Improvements// Proc. of 2nd International Workshop on Spoken Languages Technologies for Under-resourced Languages (SLTU-10). 2010. pp 10−16.
- The CMU Statistical Language Modeling (SLM) Toolkit. http://www.speech.cs.cmu.edu/SLMinfo.html (дата обращения: 16.05.2011).
- The Hidden Markov Model Toolkit (НТК), http://htk.eng.cam.ac.uk/ (дата обращения: 16.05.2011).
- Trentin E., Gori M. A Survey of Hybrid ANN/HMM Models for Automatic Speech Recognition // Neurocomputing, vol. 37, № 1−4, 2007. pp. 91−126.
- Vaiciunas A. Statistical Language Models of Lithuanian and Their Application to Very Large Vocabulary Speech Recognition. Summary of Doctoral Dissertation. Vytautas Magnus University. Kaunas. 2006. 35 p.
- Vesa S., Teemu H., Mathias C., Mikko K. Unlimited vocabulary speech recognition based on morphs discovered in an unsupervised manner. Proceedings of Eurospeech, 2003. pp. 2293−2296.
- Weintraub M., Fosler E., Galles C., Kao Y., Khudanpur S., Saraclar M., Wegmann S. Automatic Learning of Word Pronunciation from Data. 1996 LVCSR Summer Workshop Technical Reports, 1996.
- Whittaker E.W.D. Statistical Language Modelling for Automatic Speech Recognition of Russian and English. PhD thesis. Cambridge University, 2000, 140 p.
- Whittaker E.W.D., Woodland P.C. «Efficient class-based language modelling for very large vocabularies», in Proc. ICASSP'01 Conference, Salt Lake City, USA, 545−548,2001.
- Wolf M., Eichner M., Hoffmann R. Automatic learning and optimization of pronunciation dictionaries. Proc. ISCA ITRW Adaptation method for speech recognition, Sophia-Antipolis, France, 2001. pp. 159−162.
- Young S. et al. The HTK Book (for HTK Version 3.4). Cambridge. UK, 2009. 375 p.