Методы и программные средства фонетико-языкового моделирования в системах автоматического распознавания русской речи

ДиссертацияПомощь в написанииУзнать стоимостьмоей работы

Содержание

Положения, выносимые на защиту
Глава 1. Анализ подходов к фонетико-языковому моделированию разговорной речи
- 1. 1. Основные методы автоматического распознавания речи
- 1. 2. Методы моделирования вариативности произношения в разговорной речи
- 1. 3. Методы языкового моделирования разговорной речи
- 1. 4. Аналитический обзор систем распознавания русской речи с большим словарем
  - 1. 4. 1. Обзор автоматических систем распознавания русской речи
  - 1. 4. 2. Обзор систем распознавания речи со сверхбольшим словарем
- 1. 5. Выводы по главе 1
Глава 2. Моделирование фонетических единиц разговорной русской речи
- 2. 1. Орфографико-фонематическое преобразование слов
  - 2. 1. 1. Используемый фонемный алфавит
  - 2. 1. 2. Определение положения ударения в слове
  - 2. 1. 3. Базовые правила фонематического транскрибирования слов
  - 2. 1. 4. Правила транскрибирования, учитывающие возможную редукцию и ассимиляцию звуков речи
- 2. 2. Метод автоматического создания базовых и альтернативных транскрипций
- 2. 3. Анализ частотности правил редукции и ассимиляции
- 2. 4. Правила транскрибирования текстов
- 2. 5. Оценка работы метода транскрибирования
- 2. 6. Выводы по главе 2
Глава 3. Языковое моделирование разговорной русской речи
- 3. 1. Сбор и статистическая обработка обучающего текстового корпуса
  - 3. 1. 1. Нормализация текстовых данных
  - 3. 1. 2. Автоматический анализ текстовых данных
- 3. 2. Создание базовой статистической модели русского языка
- 3. 3. Метод создания модели языка с использованием синтаксического анализа
  - 3. 3. 1. Элементы синтаксического анализа русского языка
  - 3. 3. 2. Создание синтаксическо-статистической модели русского языка
- 3. 4. Оценка созданной модели языка
  - 3. 4. 1. Вычисление энтропии и коэффициента неопределенности
  - 3. 4. 2. Вычисление количества внесловарных слов и совпадений я-грамм
- 3. 5. Выводы по главе 3
Глава 4. Комплекс программных средств для распознавания разговорной русской речи
- 4. 1. Архитектура комплекса программных средств для обработки и распознавания речи
  - 4. 1. 1. Блок обучения моделей акустических единиц речи
  - 4. 1. 2. Блок предварительной обработки текстового материала
  - 4. 1. 3. Блок создания фонематических транскрипций слов
  - 4. 1. 4. Блок выбора наилучших транскрипций
  - 4. 1. 5. Блок создания стохастической модели языка
  - 4. 1. 6. Блок распознавания речи
- 4. 2. Эксперименты по распознаванию русской речи с использованием разработанного программного комплекса
  - 4. 2. 1. Критерии оценки качества распознавания речи
  - 4. 2. 2. Результаты экспериментов по распознаванию речи с применением множественных вариантов транскрипций
  - 4. 2. 3. Результаты распознавания русской речи при использовании различных моделей языка
- 4. 3. Выводы по главе 4

Методы и программные средства фонетико-языкового моделирования в системах автоматического распознавания русской речи (реферат, курсовая, диплом, контрольная)

Актуальность темы

диссертации. Большинство современных систем автоматического распознавания речи способны эффективно анализировать только изолированно произнесенные слова или прочитанные фразы. Распознавание разговорной речи затрудняется ее вариативностью: различные дикторы могут произносить одно и то же слово по-разному, кроме того, произношение одного и того же диктора может меняться в зависимости от контекста и темпа речи. Поэтому при разработке систем распознавания разговорной речи важно учитывать вариативность произношения слов.

Для функционирования системы автоматического распознавания речи необходим словарь слов с их орфографическим и фонематическим представлением, который обычно создается с использованием канонических фонетических правил транскрибирования для определенного языка. Для разговорного стиля речи характерны явления ассимиляции (объединения звуков), а также редуцирования (сокращения длительности определенных звуков вплоть до полного исчезновения), причем эти явления могут возникать как внутри слова, так и на стыках слов. Это приводит к значительному снижению точности автоматического распознавания речи. Для учета явлений фонетической редукции и ассимиляции необходимо расширить словарь системы распознавания путем добавления альтернативных вариантов произношения слов к базовым. То есть для каждого слова в словаре должны содержаться транскрипции, которые описывают потенциально возможную вариативность произношения слов, характерную для разговорной речи.

Альтернативные транскрипции могут быть созданы экспертным путем, однако это является трудоемким процессом и, кроме того, при создании новой системы с другим словарем придется создавать транскрипции заново. Для решения указанных проблем в работе предложен метод автоматической генерации альтернативных транскрипций на основе применения разработанных правил, учитывающих явления редукции и ассимиляции звуков русской речи.

Следующим этапом после распознавания слов является генерация грамматически правильных и осмысленных гипотез произнесенной фразы с помощью некоторой модели языка. Одним из подходов к построению языковых моделей являются статистические «-граммы, которые оценивают вероятность появления слова в зависимости от последовательности из п произнесенных до этого слов. Существующие модели в большинстве исследований были апробированы на английском языке и, как следствие, не отвечают специфике русского языка, для которого характерен практически свободный порядок слов в предложениях и наличие большого количества словоформ в каждой лексеме. Для того чтобы учесть дальнодействующие связи между словами во фразе, в работе предложена модифицированная языковая модель, при создании которой производится одновременно синтаксический и статистический анализ обучающих текстовых данных.

Экспертный анализ обучающих акустических, фонетических, текстовых данных при создании систем распознавания речи — трудоемкий процесс, значительно препятствующий внедрению речевых технологий, поэтому разработка математического и программного обеспечения, направленного на автоматизацию способов создания фонетико-языковых моделей русской разговорной речи, приобретает особую актуальность.

Целью диссертационной работы является разработка методов, алгоритмов и программных средств акустико-фонетического моделирования вариативности произношения слов и синтаксическо-статистического моделирования языка для повышения точности распознавания разговорной русской речи. Для достижения поставленной цели в работе решены следующие задачи:

1. Анализ современных методов и подходов к фонетико-языковому моделированию разговорной речи.

2. Разработка методов и алгоритмов для создания множественных транскрипций, учитывающих различные варианты возможного произнесения одного и того же слова в разговорной речи, и коррекция транскрипций по обучающему корпусу.

3. Разработка методов и программных средств статистического и синтаксического анализа обучающих текстовых корпусов для создания эффективной стохастической модели русского языка.

4. Разработка программных средств и количественное оценивание качества автоматического распознавания разговорной русской речи со сверхбольшим словарем.

Методы исследования. Для решения поставленных задач в работе используются методы цифровой обработки сигналов, теории информации, теории множеств, статистического анализа, автоматического анализа текста. Компьютерная реализация разработанных алгоритмов производилась на основе объектно-ориентированного подхода.

Научная новизна работы состоит в следующем:

1. Разработан комбинированный метод генерации множественных вариантов акустико-фонематических транскрипций слов для словаря системы распознавания разговорной русской речи, отличающийся объединением методов, основанных на знаниях и данных, полученных при анализе речевых корпусов.

2. Разработана стохастическая модель русского языка системы автоматического распознавания речи, отличающаяся совместным применением статистического и синтаксического анализа обучающих текстовых данных и позволяющая учесть дальнодействующие грамматические связи между словами во фразе.

3. Создан комплекс программных средств по обработке разговорной русской речи, отличающийся применением разработанных методов фонетико-языкового моделирования и возможностью оперативного обновления моделей при разработке систем автоматического распознавания русской речи со сверхбольшим словарем.

Обоснованность и достоверность научных положений, основных выводов и результатов диссертации обеспечивается за счет анализа состояния исследований в данной области, согласованности теоретических выводов с результатами экспериментальной проверки моделей, а также апробацией основных теоретических положений диссертации в печатных трудах и докладах на международных научных конференциях.

Практическая ценность работы. Разработанные модели, алгоритмы и программные средства для фонетико-языкового моделирования направлены на решение проблемы повышения точности автоматического распознавания разговорной русской речи и сокращение объема экспертной работы на этапе обучения систем распознавания. Метод фонематического транскрибирования, реализованный в комплексе программных средств, позволяет создавать как базовые фонематические транскрипции для списка независимых слов, так и альтернативные транскрипции слов, которые учитывают различные варианты возможного произнесения одного и того же слова в разговорной речи, а также позволяет моделировать вариативность произношения слов в разговорной речи. Предложенный метод позволяет создавать и обучать посредством речевого корпуса акустико-фонетические модели речевых единиц. Предложенная в работе модель языка создается за счет объединения результатов статистического и синтаксического анализа текстов. Использование дополнительного синтаксического анализа обучающего корпуса при создании модели языка позволяет учесть дальнодействующие грамматические связи между словами в предложении и тем самым расширить модель языка. Модель позволяет увеличить точность распознавания русской речи, сохранив при этом приемлемую скорость распознавания.

Реализация результатов работы. Исследования, отраженные в диссертации, проведены в рамках научно-исследовательских работ: НИР Министерства образования и науки РФ «Разработка принципов и инновационных информационных технологий для взаимодействия пользователей с интеллектуальным пространством», ГК № 14.740.11.0357, 2010.

2012 гг. и «Разработка методов, моделей и алгоритмов для автоматического распознавания аудиовизуальной русской речи», ГК №П2579, 2009;2011 гг. в рамках федеральной целевой программы «Научные и научно-педагогические кадры инновационной России" — грант РФФИ № 08−08−128-а «Моделирование нефонемных речевых элементов и создание альтернативных транскрипций для распознавания спонтанной русской речи" — гранты Комитета по науке и высшей школе Правительства Санкт-Петербурга для молодых ученых № 26−05/051 «Разработка программного модуля преобразования «буква-фонема» для системы стенографирования разговорной русской речи» 2009 г. и «Разработка программного модуля языкового моделирования системы стенографирования разговорной русской речи» 2010 г.

Апробация результатов работы. Результаты диссертационного исследования представлялись на Международной конференции «Речь и Компьютер» БРЕСОМ (Санкт-Петербург, 2009), Международной научно-технической конференции «Открытые семантические технологии проектирования интеллектуальных систем» (08Т18−2011) (Минск, 2011), Международной филологической конференции (Санкт-Петербург, 2008, 2009, 2011), междисциплинарном семинаре «Анализ разговорной русской речи» (2007, 2008, 2010), Международной научно-практической конференции «Искусственный интеллект. Интеллектуальные системы» ИИ-2008 (Кацивели, Украина, 2008) — Международной конференции «Региональная информатика» (Санкт-Петербург, 2010).

Публикации. По материалам диссертации опубликовано 22 печатные работы, включая 3 публикации в ведущих научных журналах, рекомендованных ВАК («Известия вузов. Приборостроение» и «Информационно-управляющие системы»), получены 4 свидетельства об официальной регистрации программ и базы данных в Федеральной службе по интеллектуальной собственности, патентам и товарным знакам.

Структура и объем работы. Диссертация объемом 136 машинописных страниц, содержит введение, четыре главы и заключение, список литературы.

4.3 Выводы по главе 4.

1. Модели, методы и алгоритмы, описанные в главах 2 и 3 были реализованы в виде единого комплекса программных средств для обработки и распознавания разговорной русской речи. Комплекс включает в себя следующие блоки: блок обучения моделей акустических единиц речи, блок предварительной обработки текстового материала, блок создания транскрипций слов, блок выбора наилучших транскрипций, блок создания стохастической модели языка, блок распознавания (декодирования) речи. Комплекс программных средств предназначается для автоматического распознавания (декодирования) слов и фраз слитной русской речи, поступающей в виде звукового сигнала непосредственно от микрофона или из базы данных.

2. Для блока предварительной обработки текстового материала был разработан программный модуль нормализации текстадля блока создания транскрипций слов были созданы программные модули определения ударной гласной в слове, создания базовых транскрипций для слов и для аббревиатур, создания альтернативных транскрипцийдля блока отбора наилучших транскрипций были разработаны модули подсчета частоты выбора альтернативных транскрипции и выбора часто* употребляемых транскрипций по порогудля блока создания и-граммной, модели языка разработаны программные модули обработки результатов синтаксического анализа, объединения списков и-грамм, удаления я-грамм с частотой появления, меньшей заданного порога, я-грамм со словами, отсутствующими в словаре, «-грамм со словами, присутствующими не во всех позициях.

3. Для тестирования разработанных методов созданияальтернативных транскрипций были проведены эксперименты по дикторонезависимому распознаванию слитно произнесенных фраз и слов из речевого корпуса, содержащего записи произнесений номеров телефонов длиной до семи слов. Проведенный анализ результатов экспериментов по распознаванию речи показал, что при использовании автоматически созданных альтернативных транскрипций точность распознавания как слов целиком, так и фраз увеличилась по отношению к распознаванию с использованием только базовых транскрипций слов.

4. Для обучения и тестирования системы распознавания речи со сверхбольшим словарем, использующей различные модели языка, записан и размечен речевой корпус, содержащий реальные слитно произнесенные фразы длиной до 20 слов.

5. Предложена мера оценки качества работы системы распознавания речи в виде флективной точности распознавания, которая приписывает вес 1,0 всем ошибкам, которые привели к изменению лексемы и вес 0,5 всем ошибкам в словах, где было неверно распознано окончание словоформы, но лексема слова осталась правильной.

6. Проведены эксперименты по распознаванию слитно произнесенных фраз из тестового корпуса, которые показали, что применение созданных моделей языка позволяет получить точность распознавания слов русской речи на уровне 50%, а также точность распознавания графем на уровне 15%. Наилучшие результаты были получены с применением предложенной синтаксическо-статистической модели языка.

Заключение

Автоматическое распознавание разговорной русской речи представляет собой крайне сложную задачу по сравнению с распознаванием изолированных слов. Во-первых, произношение слов в разговорной речи сильно варьируется, и фонетическое представление произнесенных слов зачастую не совпадает с транскрипциями слов, сделанными по фонетическим правилам транскрибирования. Во-вторых, при автоматическом, распознавании разговорной речи распознавателю необходима модель языка, описывающая допустимые фразы. Однако в русскомязыке отсутствуют жесткие грамматические конструкции предложений, что затрудняет создание моделей языка.

В результате проведенной работы были разработаны методы и алгоритмы для создания альтернативных транскрипций слов, которые позволяют учесть вариативность произношения слов в разговорной речи и* тем1 самым повысить точность распознавания. Альтернативные транскрипции создаются/ за счет применения к базовой транскрипции каждого слова правил учета возможной редукции и ассимиляции звуков. Метод выбора оптимальных вариантов транскрипций слов основан на комбинировании методов, базирующихся на речевых данных и знаниях, то есть правилах фонетического транскрибирования.

Для языкового моделирования разработана синтаксическо-статистическая модель языка. Данная модель языка создана на основе базовой биграммной модели, полученной в результате автоматического статистического анализа обучающего текстового корпуса, собранного, с интернет-сайтов электронных газет. Базовая' биграммная модель была расширена засчет выполнения синтаксического анализа обучающего текстового корпуса, в ходе которого выявляются грамматически связанные пары слов, разделенные в тексте другими словами. Таким образом, синтаксический анализ позволяет учесть дальнодействующие грамматические связи между словами.

Предложенные методы и алгоритмы были реализованы в комплексе программных средств для обработки и распознавания разговорной русской речи. В зависимости от задачи в качестве обучающего текстового корпуса могут использоваться тексты из различных предметных областей, таким образом, возможно получить предметно-ориентированную систему автоматического распознавания речи. Проведенные эксперименты по распознаванию слитной речи с использованием данного программного комплекса показали, что разработанные методы для фонетико-языкового моделирования разговорной русской речи позволяют повысить точность распознавания слов и графем русской речи.

Таким образом, в ходе исследований, представленных в диссертации, были получены следующие основные результаты:

1. Разработаны методы и алгоритмы автоматической генерации базовых и возможных альтернативных транскрипций по орфографическому представлению слов и фраз.

2. Предложена расширенная синтаксическо-статистическая биграммная модель, в которую добавляются выявляемые за счет синтаксического анализа текстового корпуса грамматически связанные пары слов, разделенные в обучающем тексте другими словами (дальнодействующие биграммы).

3. Для обучения и оценивания системы распознавания речи со сверхбольшим словарем записан и размечен речевой корпус, содержащий слитно произнесенные дикторами русскоязычные фразы длиной до 20 слов.

4. Предложен показатель оценки качества работы системы распознавания речи в виде флективной точности распознавания слов, который подразделяет ошибки распознавания на грубые (приводящие к изменению лексемы) и негрубые (ошибки в окончаниях словоформы).

5. Реализован комплекс программных средств для обработки и распознавания разговорной русской речи, объединяющий предложенные модели, методы и алгоритмы.

Совокупность предложенных методов, моделей и программных средств обработки речи и текста направлена на решение актуальной задачи повышения точности автоматического распознавания разговорной русской речи за счет акустико-фонетического моделирования вариативности произношения слов и синтаксическо-статистического моделирования языка.

Показать весь текст

Список литературы

Автоматическая обработка текста. Исходники словарей и программ. http://www.aot.ru/download.php (дата обращения: 16.05.2011).
Александров В.В. Развивающиеся процессы и системы. Степенные законы// Журн. «Информационные системы и технологии». 2007. -№ 1(1). —С. 58−83.
Александров В.В., Кулешов C.B. Компьютерный симулятор рече-визуального интерфейса управления и контроля летательным аппаратом // Материалы конференции «Человеческий фактор в авиации и космонавтике» Москва-Ярополец, 13−15 июня 2007 г.
Антонова A.A., Мисюрев A.B. Об использовании синтаксического анализатора Cognitive Dwarf 2.0 // Труды ИСА РАН. Т 38, 2008, С 91−109.
Баглей С.Г., Антонов A.B., Мешков B.C., Суханов A.B. Статистические распределения слов в русскоязычной текстовой коллекции. Материалы международной конференции «Диалог 2009». Москва, 2009, С. 13−18.
Боумедин Шаннаг, Александров В. В. Морфологический анализатор для арабского языка (SAMA1) «Информационно-измерительные и управляющие системы», № 11, т.7, 2009. — С.60−62.
Библиотека синтаксического анализа текста RCO Syntactic Engine SDK. http://www.rco.ru/product.asp?obno=15 (дата обращения: 16.05.2011).
Веб-сайт программы Emsa HTML Tag Remover http://www.e-systems.ro/
Викторов А.Б., Грамницкий С. Г., Гордеев С. С., Ескевич MIB., Климина Е. М. Универсальная методика подготовки компонентов обучения систем распознавания речи // Речевые технологии, Народное образование № 2. 2009. С. 39−55.
Винцюк Т.К. Анализ, распознавание и интерпретация речевых сигналов. — Киев: Наук, думка, 1987. 264 с.
Винцюк Т.К., Скрипник А. Г. Модуль анализатора речи СРД «Речь-2» -Тезисы докладов 16-го всесоюзного семинара (АРСО 16), 1991. — С. 250 251.
Гейльман Н.И. Разговорная речь // Проблемы и методы экспериментально-фонетического анализа речи/под ред. JI.P. Зиндера и JI.B. Бондарко. Л.: изд-во СПбГУ, 1980. С.110−122.
Горностай Т., Васильев А., СкадинынР., СкадиняИ. Опыт латышско-прусского машинного перевода// Материалы международной конференции «Диалог 2007». Москва. 2007. С. 137−146.
Джелинек Ф. Распознавание непрерывной речи статистическими методами // ТИИЭР. 1976. — Т. 64. — № 4. — С. 131−160:
Дружкин К.Ю., Цинман Л. Л. Синтаксический анализатор лингвистического процессора ЭТАП-3: Эксперименты по ранжированию. Материалы международной конференции «Диалог 2008». Москва, 2008.
Зализняк A.A. Грамматический словарь русского языка: Словоизменение // 4-е изд., испр. и доп. — М.: Руские словари, 2003.
Захаров J1.M. Акустическая вариативность звуковых единиц в русской речи // Язык и речь: проблемы и решения. Сборник научных трудов к юбилею профессора J1. В. Златоустовой / Под ред. Г. Е. Кедровой и1. B.В. Потапова. М. 2004.
Земская Е.А. (ред.) Русская разговорная речь. М.: Наука, 1973. 485 с.
Иванова Т.И. Компьютерные технологии в телефонии. Эко-Трендз, М., 2002.
Кагиров И.А., Леонтьева Ан.Б. Автоматический синтаксический анализ русских текстов на. основе грамматики составляющих // Известия вузов. Приборостроение. 2008. Т. 51, № 11. С. 47−51.
Карпов A.A. Модели и программная реализация распознавания русской речи на основе морфемного анализа. Диссертация на соискание ученой степени кандидата технических наук. 2007. 129 с.
Карпов A.A., Ронжин А. Л., Кипяткова И. С. Мультимедиа корпус аудиовизуальной русской речи RusAVSpeechCorpus // Свидетельство о государственной регистрации базы данных № 2 011 620 085 — М: РОСПАТЕНТ ФГУ ФИПС, 2011.
Карпов A.A., Ронжин А. Л., Ли И.В. SIRIUS — система дикторонезависимого распознавания слитной русской речи // Известия ТРТУ. № 10. 2005. С. 44−53.
Кибкало A.A., Лотков М. М., Рогожкин И. Г., Туровец A.A. Разработка системы распознавания русской речи // Вопросы атомной науки и техники. Сер. Математическое моделирование физических процессов. 2003. Вып. 3.1. C. 8−20.
Кипяткова И.С. Создание альтернативных транскрипций слов для моделирования вариативности произношения в системах голосового управления // Свидетельство ОФАП № 9525. 2007.
Кипяткова И.С. Комплекс программных средств обработки и распознавания разговорной русской речи // Информационно-управляющие системы. № 4, Т. 53, 2011, С. 53−59.
Кипяткова И.С., Карпов A.A. Автоматическая обработка и статистический анализ новостного текстового корпуса для модели языка системы распознавания русской речи // Информационно-управляющие системы. -СПб: СПбГУАП, № 4(47), 2010, С. 2−8.
Кипяткова И.С., Карпов A.A. Модуль фонематического транскрибирования для системы распознавания разговорной русской речи // Искусственный интеллект, Донецк, Украина, № 4, 2008, С. 747−757.
Компьютерный фонетический алфавит SAMPA. http://www.phon.ucl.ac.uk/home/sarnpa/ (дата обращения: 16.05.2011).
Косарев Ю.А. Естественная форма диалога с ЭВМ. JL: Машиностроение, 1989.- 143 с.
Крестьянинов C.B. Интеллектуальные сети и компьютерная телефония. М., «Радио и связь», 2001.
Кузнецов В.И. Вокализм связной речи. СПб.: изд-во СПбГУ, 1997. 247с.
Лаптева O.A. Живая русская речь с телеэкрана: разговорный пласт телевизионной речи в нормативном аспекте. М., 2007.
Левенштейн В.И. Двоичные коды с исправлением выпадений, вставок и замещений символов. Докл. АН СССР, 163, 4, стр. 845−848, 1965.
Моттль В.В., Мучник И. Б. Скрытые марковские модели в структурном анализе сигналов / М.: Физматлит, 1999. 351 с.
Национальный корпус русского языка, www.ruscorpora.ru (дата обращения: 16.05.2011).
Ножов И.М. Реализация автоматической синтаксической сегментации русского предложения. Диссертация на соискание ученой степени кандидата технических наук. 2003, 140 с.
Охтилев М.Ю., Соколов Б. В., Юсупов P.M. Интеллектуальные технологии мониторинга и управления структурной динамикой сложных технических объектов. М.: Наука, 2006. 410 с.
Пилипенко В.В. Распознавание дискретной и слитной речи из сверхбольших словарей на основе выборки информации из баз данных// Искусственный интеллект. 2006. № 3. С. 548−557.
Пилипенко В.В., Робейко В. В. Автоматизированный стенограф украинской речи // Искусственный интеллект. 2008. № 4. С. 768−775.
Потапова Р.К. Речь: коммуникация, информация, кибернетика. 2003. — 568 с.
Проект «Эволюция языка». Русские словари и морфология. http://starling.rinet.ru/morpho.php?lan=ru (дата обращения: 24.03.2011).
Протасов C.B. Вывод и оценка параметров дальнодействующей триграммной модели языка// Материалы международной конференции «Диалог 2008″. Москва. 2008. С. 443−449.
Прохоров A.M. (гл. ред.) Большая советская энциклопедия. Т. 23. М.: Советская энциклопедия, 1976, 638 с.
РонжинА.Л. Топологические особенности морфофонемного способа представления словаря для распознавания русской речи // Вестник компьютерных и информационных технологий. № 9. 2008. С. 12−19.
Ронжин А.Л., Карпов A.A., Кипяткова И. С. Многомодальный пользовательский интерфейс для интеллектуальной информационнойсистемы// Свидетельство о регистрации ПрЭВМ № 2 010 617 640 — М.: РОСПАТЕНТ ФГУ ФИПС, 2010.
Роижин А.Л., Карпов A.A., Ли И.В. Речевой и многомодальный интерфейсы. М.: Наука, 2006 — (Информатика: неограниченные возможности и возможные ограничения), 173 с.
Сайт компании „ООО Диктум“. http://www.dictum.ru/ (дата обращения: 16.05.2011).
Сайт компании MetaProducts. http://www.metaproducts.com/default.asp (дата обращения: 16.05.2011).
Светозарова Н.Д. Некоторые особенности фонетики русской спонтанной речи//Бюллетень фонетического фонда русского языка № 8, Фонетические свойства русской спонтанной речи. СПб: Бохум, 2000. С. 7−15.
Скороходько Э.Ф. Семантические сети и автоматическая обработка текста. Киев, 1983. — 112 с.
Скрелин П.А. Формальные методы анализа речи: проблемы интерпретации результатов. Материалы XXXVI международной филологической конференции. СПб. 2007. С. 3−14.
Сокирко A.B. Морфологические модули на сайте www.aot.ru // Труды Международной конференции „Диалог-2004. Компьютерная лингвистика и интеллектуальные технологии“. М.: Наука, 2004. С. 559−564.
Станкевич Л.А. Адаптивные поведенческие системы на нейрологических сетях. 11-я Национальная конференция по искусственному интеллекту с международным участием (КИИ-08), 29.09−3.10. 2008.
Станкевич Л.А., Серебряков C.B. Когнитивные системы и агенты. В Сб. Труды СПИИРАН, под общей ред. P.M. Юсупова». Вып. 3, т.1. — СПб.: Наука, 2006, С.71−87.
Станкевич Л.А., Тихомиров В. В., Троцкий Д. И. Распознавание трехмерных объектов на основе структурного описания. «Нейрокомпьютеры», № 6, 2006, С. 121−136.
Старостин А.С., Мальковский М. Г. Алгоритм синтаксического анализа, используемый в системе морфо-синтаксического анализа «Treeton». Материалы международной конференции «Диалог 2007». Москва, 2007, С. 516−524.
Холоденко А.Б. О построении статистических языковых моделей для систем распознавания русской речи // Интеллектуальные системы. Т.6. Вып. 1−4. 2002. С. 381−394.
Шведова Н.Ю. (гл. ред.) и др. Русская грамматика: В 2 т. М.: Наука, 1980, 783 с.
Шеннон К. Работы по теории информации и кибернетике. — М.: Изд. иностр. лит., 2002.
Amdal I. Learning pronunciation variation. A data-driven approach to rule-based lexicon adaptation for automatic speech recognition. PhD thesis. Department of Telecommunications Norwegian University of Science and Technology. Norway. 2002.
Arisoy E., Dutagaci H., Arslan, L. A unified language model for large vocabulary continuous speech recognition of Turkish. Signal Processing, Elsevier, 86(10):2844−2862, 2006.
BahlL.R., de SouzaP.V., Gopalakrishman P. S., Nahamoo D., Picheny M.A. Decision trees for phonological rules in continuous speech. Proc. ICASSP-91, Toronto, Canada, 1991. pp. 185−188.
Benesty J., Sondhi M., Huang Y. (eds.) Springer Handbook of Speech Processing. Springer, 2008, 1176 p.
Bolotova O., Gusev M., Smirnov V. Speech Recognition System for the Russian Speech. In Proc. of 12-th International Conference on Speech and Computer SPECOM. Moscow. Russia. 2007. pp. 475−480.
Clarkson P., Rosenfeld R. Statistical language modeling using the CMU-Cambridge toolkit// Proc. of EUROSPEECH. Rhodes. Greece. 1997. pp.*2707−2710.
Cole et al. Survey of the state of the art in human language technology, Cambridge University Press, New York, NY, 1997.
Fosler-Lussier J.E. Dinamic pronunciation models for automatic speech recognition. PhD thesis. University of California. Berkeley. 1999.
Fosler-Lussier E., Morgan N. Effect of speaking rate and word frequency on pronunciations in conversational speech. Speech Communication, vol. 29. 1999. pp. 137−158.
Ganapathiraju A., Hamaker J., Picone, J. Hybrid SVM/HMM Architectures for Speech Recognition. Proceedings of Speech Transcription Workshop, 2000. pp. 504−507.
Hirschman L., Thompson H.S. Overview of evaluation in speech and natural language processing. In: R. Cole et al. (eds.) «Survey of the State of the Art in Human Language Technology», Cambridge University Press, 1997.
HirsimakiT., PylkkonenJ., Kurimo M. Importance of High-Order N-Gram Models in Morph-Based Speech Recognition, IEEE Trans, on Audio, Speech and Language Processing, 17(4):724−732,2009.
Humphries J.J., Woodland P.C., Pearce D. Using accent-specific pronunciation modeling for robust speech recognition. Proc. ICSLP-96, Philadelpia (PA), USA, 1996. pp. 2324−2327.
Jing Z., Min, Z. Speech recognition system based improved DTW algorithm. Proceedings of the International Conference on Computer, Mechatronics, Control and Electronic Engineering CMCE-2010, vol. 5, 2010. pp. 320−323.
Ipsic I., Martincic-Ipsic S. Croatian Speech Recognition // Advances in Speech Recognition / Noam R. Shabtai, editor (s). Rijeka, Croatia: SCIYO, 2010. pp. 123−140.
Ircing P., Hoidekr J., Psutka J. Exploiting Linguistic Knowledge in Languagei
Modeling of Czech Spontaneous Speech. Proceedings of LREC 2006. Paris: ELRA, 2006, pp. 2600−2603.
Kanevsky D., Monkowski M., Sedivy J. Large Vocabulary Speaker-Independent Continuous Speech recognition in Russian Language// Proc. International Workshop SPECOM'96. St.Petersburg. Russia. 1996. pp. 117−121.
Karahanoglu N. Likelihood minimizing beamforming. PhD thesis. Friedrih-Alexander-University-Erlangen-Nuremberg. Germany. 2006.
Kessens J.M., Wester M., Strik H. Modeling Within-word and Cross-word Pronunciation Variation to Improve the Performance of a Dutch CSR. Proc. of thel4 th Int. Congress of Phonetic Sciences, San Francisco, 1999. pp. 16 651 668.
Kessens J. M., Wester M., Strik H. Improving the performance of Dutch CSR by modeling within-word and cross-word pronunciation variation. Speech Communication, vol. 29. 1999. pp. 193−207.
Kurimo M., HirsimakiT., TurunenV.T., Virpioja S., Raatikainen N. Unsupervised decomposition of words for speech recognition and retrieval //
Proceedings of 13-th International Conference «Speech and Computer» SPECOM'2009. St. Petersburg. 2009. pp. 23−28.
Ladefoged P. A Course in Phonetics. Harcourt Brace Jovanovich, Inc., New York, 1975.
Merkel A., Klakow D. Improved Methods for Language Model Based Question Classification// Proceedings of 8th Interspeech Conference. Antwerp. 2007. pp 322−325.
Moore G.L. Adaptive Statistical Class-based Language Modelling. PhD thesis. Cambridge University. 2001. 193 p.
Nouza J., Silovsky J. Adapting Lexical and Language models for Transcription of Highly Spontaneous Spoken Czech// Springer-Verlag Berlin Heidelberg. Petr Sojka et al. (Eds.): TSD 2010. LNAI 6231. 2010. pp. 377−385.
Oparin I., Glembek O., Burget L., Cernosky J. Morphological random forest forlanguage modeling of inflectional languages. In Proc. 2nd IEEE Workshop on Spoken Language Technology, Goa, India, 189−192, 2008.
Oparin I., Talanov A. Stem-Based Approach to Pronunciation Vocabulary Construction and Language Modeling for Russian // Proc. of 10-th International Conference on Speech and Computer SPECOM, Patras, Greece, 2005, pp. 575 578.
Psutka J., Ircing P., Psutka J.V., Hajic J., Byrne W.J., Mirovsky J. Automatic Transcription of Czech, Russian, and Slovak Spontaneous Speech in the MALACH Project // Proceedings of Eurospeech. Lisboa. Portugal. Sept. 4−8. 2005. pp. 1349−1352.
Rabiner L., Juang B.-H. Fundamentals of Speech Recognition. Prentice Hall. -1993.-507 p.
Ragni A. Initial Experiments with Estonian Speech Recognition// Proc. of the 16-th Nordic Conference of Computational Linguistics NODALIDA-2007. Nivre J. et al. (Eds). Tartu. 2007. pp. 249−252.
Riley M.D. A Statistical Model for Generating Pronunciation Networks. Proc. IEEE Int. Conf. on Acoustics, Speech and Signal Processing, pp. 737−740, Toronto, Canada, May 1991.
Riley M.D., Ljolje A. Automatic speech and speaker recognition: Advanced topics, ch. Automatic generation of detailed pronunciation lexicons. Kluwer. 1996. pp. 285−301.
Rotovnik T., Maucec M.S., Kacix Z. Large vocabulary continuous speech recognition of an inflected language using stems and endings. Speech Communication, Vol.49, No.6, 2007. pp. 437−452.
Saraclar M. Pronunciation Modeling for Conversational Speech Recognition. PhD thesis. Baltimore, USA. 2000.
Schwarz P., Matejka P., Cernocky J. Hierarchical structures of neural networks for phoneme recognition, Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing ICASSP-2006, Toulouse, France, 2006.
Serva M., Petroni F. Indo-Iuropean languages tree by Levenshtein distance. EPL (Europhysics Letters), vol. 81, no. 6, pp. 68 005-pl:p5, March 2008.
Solera-Urena R., Martin-Iglesias D., Gallardo-Antolin A., Pelaez-Moreno C., Diaz-de-Maria F. Robust ASR Using Support Vector Machines // Speech Communication, vol. 49, № 4, 2007. pp. 253−267.
Stephenson T. A., Escofet J., Magimai-Doss, M., Bourlard H. Dynamic Bayesian Network Based Speech Recognition with Pitch and Energy as Auxiliary Variables. In: IEEE International Workshop on Neural Networks for Signal Processing NNSP-2002. 2002.
Strom N. Continuous Speech Recognition in the WAXHOLM Dialogue System // Stockholm QPSR, 1996. pp. 67−95.
Stuker S., Schultz T. A grapheme Based Speech Recognition System for Russian // Proc. International Conference SPECOM'2004. St.Petersburg. Russia. 2004 pp. 297−303.
Svenson M., Bhanuprasad K. Errgrams A Way to Improving ASR for Highly Inflective Dravidian Languages. Proc. 3rd International Joint Conference on Natural Language Processing IJCNLP'08, India, 805−810, 2008.
Szarvas M., Furui S. Finite-state transducer based modeling of morphosyntax with applications to Hungarian LVCSR. in Proc. ICASSP, HongKong, China, 368−371,2003.
TarjanB., MihajlikP. On Morph-Based LVCSR Improvements// Proc. of 2nd International Workshop on Spoken Languages Technologies for Under-resourced Languages (SLTU-10). 2010. pp 10−16.
The CMU Statistical Language Modeling (SLM) Toolkit. http://www.speech.cs.cmu.edu/SLMinfo.html (дата обращения: 16.05.2011).
The Hidden Markov Model Toolkit (НТК), http://htk.eng.cam.ac.uk/ (дата обращения: 16.05.2011).
Trentin E., Gori M. A Survey of Hybrid ANN/HMM Models for Automatic Speech Recognition // Neurocomputing, vol. 37, № 1−4, 2007. pp. 91−126.
Vaiciunas A. Statistical Language Models of Lithuanian and Their Application to Very Large Vocabulary Speech Recognition. Summary of Doctoral Dissertation. Vytautas Magnus University. Kaunas. 2006. 35 p.
Vesa S., Teemu H., Mathias C., Mikko K. Unlimited vocabulary speech recognition based on morphs discovered in an unsupervised manner. Proceedings of Eurospeech, 2003. pp. 2293−2296.
Weintraub M., Fosler E., Galles C., Kao Y., Khudanpur S., Saraclar M., Wegmann S. Automatic Learning of Word Pronunciation from Data. 1996 LVCSR Summer Workshop Technical Reports, 1996.
Whittaker E.W.D. Statistical Language Modelling for Automatic Speech Recognition of Russian and English. PhD thesis. Cambridge University, 2000, 140 p.
Whittaker E.W.D., Woodland P.C. «Efficient class-based language modelling for very large vocabularies», in Proc. ICASSP'01 Conference, Salt Lake City, USA, 545−548,2001.
Wolf M., Eichner M., Hoffmann R. Automatic learning and optimization of pronunciation dictionaries. Proc. ISCA ITRW Adaptation method for speech recognition, Sophia-Antipolis, France, 2001. pp. 159−162.
Young S. et al. The HTK Book (for HTK Version 3.4). Cambridge. UK, 2009. 375 p.

Заполнить форму текущей работой