Методы и алгоритмы гибридного синтеза естественной русской речи на основе скрытых марковских моделей и метода Unit Selection

ДиссертацияПомощь в написанииУзнать стоимостьмоей работы

Содержание

Актуальность проблемы. Процесс изучения и построения систем синтеза речи становится все более и более популярен в последнее время. Много подходов и алгоритмов предложено в этой области. Если в первых подобных системах акцент делался на разборчивость речи, то теперь особое внимание уделяется ее естественности, интонационной насыщенности, эмоциональной окраске. Голос довольно точно передает окружающим информацию о текущем состоянии человека, о его переживаниях, отношении к фактам, самочувствии, а нередко — и о темпераменте, о чертах характера. Уловить эмоции позволяет тон голоса. А для понимания сообщения важны как сила голоса, так и его высота.

С развитием технологий автоматического синтеза речи, синтезированная речь становится все более и более естественной, приближенной к речи человека. Однако системы синтеза речи в современных человеко-машинных интерфейсах, системах виртуальной реальности и мультимедийного общения, по-прежнему обладают рядом недостатков, которые утомляют слушателя, не давая ощущения того, что с ними общается живой человек. Для уменьшения количества дефектов, присущих синтезированной речи, различными научными коллективами разрабатываются методы, позволяющие повысить естественность речи. В России наиболее заметные результаты в области автоматического синтеза речи получены в Санкт-Петербургском государственном университете (П.А. Скрелин, В.И. Галунов), Институте проблем передачи информации РАН (В.Н. Сорокин), Московском государственном лингвистическом университете (Р.К. Потапова), МГУ им. М. В. Ломоносова (О.Ф. Кривнова). Из стран СНГ наиболее значимые результаты получены в Объединенном институте проблем информатики

Национальной академии наук Беларуси (Б.М. Лобанов). В данном исследовании произведена разработка программного средства преобразования текста в речь, объединяющего подходы к синтезу речи, основанные на скрытых марковских моделях и методе Unit Selection. Такое программное средство обеспечивает обратную связь человека с вычислительной машиной посредством речевого интерфейса.

Разработанная автором гибридная система синтеза речи обеспечивает «чтение» произвольного русского текста без специальной предварительной разметки, с максимальной приближенностью к естественной слитной речи и естественным тембром голоса в широком диапазоне изменения основного тона голоса диктора и темпа его речи. Такая система востребована во всех случаях, когда получателем информации является человек: разгружается зрительный аппарат и повышается интерактивность взаимодействия с компьютером [1−3]. Особенно остро данная система необходима для людей с ограниченными возможностями, в частности, инвалидов по зрению [4,5].

Наряду с системой распознавания речи, система синтеза речи может быть использована в са11-центрах и системах автоматического информирования.

Приложения на его основе могут быть востребованы во всех информационных сервисах в случаях, когда необходимо осуществление коммуникационных действий с пользователем, а предварительная запись требуемых фраз по тем или иным причинам невозможна.

Актуальность проведенных исследований подтверждается большим количеством докладов на эту тему на международных научно-технических конференциях, крупнейшей из которых является ежегодная конференция Interspeech, и потребностью рынка в программно-технических средствах, позволяющих осуществлять интерактивное взаимодействие с компьютером посредством речи.

В результате работы создано программное средство, обеспечивающее человеко-машинный интерфейс, где ЭВМ выполняет взаимодействие с человеком посредством голоса. Затронуты такие аспекты, как теоретическое и эксперимснтальнос исследование в области систем управления базами данных и знаний (подготовка речевой базы данных и автоматизация этого процесса) — разработка математического и программного обеспечения вычислительных машин (программные средства создания модели голоса и модификации речевого сигнала) — повышение эффективности подготовки речевого корпуса (размеченной речевой базы данных) за счет автоматизации трудоемких процессов.

Цель диссертационной работы — создание программных средств синтеза естественной русской речи на основе совместного использования скрытых марковских моделей (СММ) и метода Unit Selection.

Для достижения данной цели были поставлены и решены следующие задачи.

1. Разработка методов, алгоритмов и программных средств синтеза естественной русской речи, основанных на совместном использовании скрытых марковских моделей и метода Unit Selection.

2. Проведение экспериментальных исследований, оценка качества работы созданной системы синтеза естественной русской речи, сравнение с мировыми аналогами.

Объектом исследования в данной работе являются системы преобразования печатного текста в естественно звучащую речь.

Предметом исследования является гибридная система синтеза естественной русской речи на основе совместного использования скрытых марковских моделей (СММ) и метода Unit Selection.

Научная новизна.

1. Разработана методика создания нового голоса для системы синтеза естественной русской речи, позволяющая существенно повысить качество звучания и снизить трудоемкость подготовки звуковой базы данных.

2. Разработаны алгоритмы стыковки и модификации речевых элементов, качественно улучшающие естественность синтезируемой речи.

3. Создан комплекс программных средств синтеза естественной русской речи на основе гибридной технологии, включающей совместное использование скрытых марковских моделей и метода Unit Selection.

Основные положения, выносимые на защиту.

1. Методика подготовки размеченной речевой базы данных (речевого корпуса).

2. Набор признаков звуковой единицы русского языка, обучение на основе которых приводит к созданию модели интонации, близкой к естественной.

3. Набор критериев поиска последовательности звуковых элементов методом Unit Selection, обеспечивающий высокое качество синтезированной речи.

4. Методика создания модели голоса.

5. Параллельные алгоритмы обучения моделей.

6. Алгоритм модификации частоты основного тона, энергии и длительности аллофонов.

7. Алгоритм стыковки звуковых элементов.

Методы исследования. В работе использованы методы дискретной математики, теории вероятностей и математической статистики, цифровой обработки сигналов, теории алгоритмов и прикладной лингвистики.

Достоверность научных положений, выводов и практических рекомендаций, полученных в диссертационной работе, подтверждается корректным обоснованием постановок задач, точной формулировкой критериев, компьютерным моделированием, результатами экспертной оценки, а также их внедрением на практике.

Практическая ценность. Результаты, полученные в ходе выполнения работы, используются на практике:

1) как самостоятельные решения, применяемые для озвучивания электронных книг и новостных лент-

2) в составе комплексного продукта, представляющего собой систему голосового самообслуживания.

Внедрение результатов работы. Результаты диссертации использованы при выполнении следующих научно-исследовательских работ: «Разработка комплекса аппаратно-программных средств синтеза русской речи по тексту» (федеральная целевая программа «Исследования и разработки по приоритетным направлениям развития научно-технологического комплекса России на 2007−2012 годы»), «Разработка и реализация в виде программного обеспечения технологии синтеза речи на русском языке с учетом синтаксического и семантического анализа русского текста с высоким качеством звучания» и «Создание компьютерного лингвистического тренажера для экспресс-освоения навыков общения на иностранном языке» (по заказу министерства образования и науки РФ). Также результаты работы были внедрены в различные коммерческие продукты компании ООО «ЦРТ».

Апробация результатов работы. Основные положения диссертационной работы докладывались на научно-методических конференциях: «Международная конференция по компьютерной лингвистике Диалог-2010» (Москва), «Международная конференция по компьютерной лингвистике Диалог-2011» (Москва), «IEEE Conference, North West Russia Section» (Санкт-Петербург, 2011), «International Conference on Speech and Computer SPECOM 2011» (Казань), «XLI научная и учебно-методическая конференция НИУ ИТМО» (Санкт-Петербург, 2012), «I всероссийский конгресс молодых ученых НИУ ИТМО» (Санкт-Петербург, 2012), «Международная конференция по компьютерной лингвистике Диалог-2012» (Москва).

Личный вклад автора. Автором лично были разработаны программные средства синтеза русской речи на основе гибридной технологии, методика создания модели голоса и инструменты для ее обучения, алгоритмы модификации и стыковки звуковых элементов, качественно улучшающие естественность синтезируемой речи- проведены экспериментальные исследования по выбору признаков звуковых единиц русского языка и критериев поиска последовательности звуковых элементов методом Unit Selection. Реализована система сбора речевого материала, разметки, создания голоса синтеза. Подготовка основных публикаций проводилась с соавторами, при этом вклад автора был основным.

Публикации. По теме диссертации опубликовано 17 научных работ, в том числе 16 статей, из которых 6 статей опубликованы в журналах из перечня ВАК.

Структура диссертации. Диссертация изложена на 134-х страницах и состоит из введения, четырех глав и заключения.

Список литературы содержит 132 наименования. Работа иллюстрирована 40-а рисунками и 13-ю таблицами.

Методы и алгоритмы гибридного синтеза естественной русской речи на основе скрытых марковских моделей и метода Unit Selection (реферат, курсовая, диплом, контрольная)

Выводы.

В данной главе представлены эксплуатационные характеристики системы: объем речевых корпусов, параметры производительностиприведены примеры кластеризации состояний моделей длительности и частоты основного тона, моделирования огибающей F0 и синтеза речевого сигналапроведено сравнение синтезированной речи с речью диктора, отмечено существенное сходствопредставлены результаты MOS оценок качества и слоговой разборчивости.

Эксперты очень высоко оценили результаты работы системы как с точки зрения качества синтезируемой речи, так и сточки зрения производительности, позиционируя се как лучшую в мире среди систем синтеза на русском языке.

Заключение

В ходе проведенных исследований была разработана гибридная система синтеза русской речи по тексту, в основе которой лежат скрытые марковские модели и метод Unit Selection. Результаты испытаний показали, что по показателям естественности звучания данная система является лучшей среди систем синтеза на русском языке, при этом полностью удовлетворяя диктуемым реальными приложениями требованиям по производительности (скорости работы и занимаемом объеме памяти). Разработанная система успешно себя зарекомендовала в различных научно-исследовательских и опытно-конструкторских разработках, а также коммерческих решениях компании ООО «ЦРТ» как в качестве самостоятельного продукта, так и в составе других, например, системы голосового самообслуживания.

В диссертации получены следующие результаты.

1. Создана методика подготовки речевого корпуса, включающая методику подготовки текстового корпуса, автоматический контроль параметров записи фонограмм, автоматическую разметку звукового материала.

2. Выбран набор признаков звуковой единицы русского языка и набор критериев поиска последовательности звуковых элементов методом Unit Selection.

3. Выработана методика создания модели голоса.

4. Реализовано масштабируемое ПО обучения моделей голоса.

5. Разработаны алгоритмы и реализовано ПО модификации частоты основного тона, энергии и длительности и стыковки звуковых элементов.

6. Разработаны программные средства синтеза русской речи, основанной на совместном использовании скрытых марковских моделей и метода Unit Selection.

1. Житко В. А., Гецевич Ю. С., Лобанов Б. М. Справочная система с речевым интерфейсом // Открытые семантические технологии проектирования интеллектуальных систем (OST1.-2013): материалы III Междунар. науч.-тсхн. конф. — С. 505−510. — Минск: БГУИР, 2013.

2. Ронжин A. JL, Будков В. Ю. Технологии поддержки гибридных с-совещаний на основе методов аудиовизуальной обработки // Вестник компьютерных и информационных технологий. № 4, С. 31−35. — 2011.

3. Ронжин A. JL, Будков В. Ю., Ронжин Ал.Л. Технологии формирования аудиовизуального интерфейса системы телеконференций // Автоматизация и современные технологии. 5, С. 20−26. 2011.

4. Лосик Г. В., Лобанов Б. М., Ткаченко В. В. Синтезатор речи в персональном компьютере для незрячего // Материалы Международной научно-практической конференции «Инклюзивное образование: проблемы, поиски, решения». С. 23−26. — Якутск. — 2011.

5. Лобанов Б. М., Сизонов О. Г. Квазиречевой видеонавигатор для слепых // Речевые технологии. № 1. — С. 103−110. — М., 2009.

6. Dines J. Model based trainable speech synthesis and its applications // Ph. D. Thesis, Queensland University of Technology, Australia, 2003.

7. Dutoit Th. Introduction au traitement de la parole // Faculte Polytechnique de Mons. 2002.

8. Stilianou Y. Harmonic plus noise models for speech, combined with statistical methods, for speech and speaker modification // Ph.D. Thesis, Ecole Ecole Nationale Superieure des Telecommunications. Paris, France. — 1996.

9. Лобанов Б.M., Цирульник JI.И. Компьютерный синтез и клонирование речи // Минск: Белорусская наука. 316 с. — 2008.

10. Гецевич Ю. С., Лобанов Б. М. Система синтеза белорусской речи по тексту // Речевые технологии. № 1, С. 91−100. — 2010.

11. Аничкин И., Чистиков П. Формализация правил автоматического снятия омонимии в системе синтеза речи по тексту // Труды XXXVIII международной филологической конференции. 2008. — С. 29−45.

12. Алдошина И. Основы психоакустики // Москва. 2007.

13. Скрелин П. А. Формальные методы анализа речи: проблемы интерпретации результатов // Труды международной филологической конференции «Формальные методы анализа русской речи». Санкт-Петербург. — 2007.

14. Кривнова О. Ф. Генерация тонального контура фразы в системах автоматического синтеза речи // Москва: МГУ. 1998.

15. Murray I.R., Arnott J.L. Implementation and testing of a system for producing emotion-by-rule in synthetic speech // Speech Communication. United Kingdom. — 1995. — P. 369−390.

16. Евграфова K.B. Фонетические характеристики гласной вставки в чтении изолированных слов / / Труды международной филологической конференции «формальные методы анализа русской речи». Санкт-Петербург. -2008.

17. Lobanov В., Karnevskaya Е. Pragmatic variation of Question Intonation in TTS synthesis // Speech and Computer: proceedings of the 13-th International conference SPECOM'2009. P. 225−228. — Russia, 2009.

18. Ронжин А. Л., Евграфова К. В. Анализ вариативности спонтанной речи и способов устранения речевых сбоев / / Известия высших учебных заведений. Гуманитарные пауки. Т. 2, Вып. 3, С. 227−231. — 2011.

19. Markel J.D., Gray A.H. Linear Prediction of Speech // Berlin. 1980.

20. Klatt D.H. The Klattalk text-to-speech conversion system // Proceedings on the International Conference on Acoustic, Speech and Signal Processing. -Paris. 1982. — P. 1589−1592.

21. Klatt D.H. Review of text-to-speech conversion for English // Journal of the Acoustical Society of America. September 1987. — Vol. 82. — P. 737−793.

22. Klatt D.H. DecTalk user’s manual // Digital Equipment Corporation Report.- 1990.

23. Allen J., Hunnicutt S., Carlson R., Granstrom B. MITalk-79: The 1979 MIT text-to-speech sytem // Speech Communication Papers Presented at the 97th Meeting of the Acoustical Society of America. Cambridge, USA. — 1979. — P. 507−510.

24. Allen J., Hunnicutt S., Klatt D.H. From Text-to-Speech: The MITalk System // Cambridge: Cambridge University Press. 1987.

25. Чистиков П., Рыбин С. Проблемы естественности речевого сигнала в системах синтеза // Журнал «Компьютерные инструменты в образовании».- 2011. Вып. 1. — С. 22−30.

26. Black A.W., Taylor P., Caley R. The Festival Speech Synthesis System // Centre for Speech Thecnology Research, University of Edinburg. England. -June 1999. — 1.4 ed.

27. Campbell N. CHATR: A high-Definition Speech ReSequencing System // Proceedings of the 3rd ASA/ASJ Joint Meeting. 1996. — P. 1223−1228.

28. Beutnagel M., Conkie A., Scroeter J., Stylianou Y., Sydral A. The AT&T Next-Gen TTS sinthesis // Proceedings of the European Conference on Speech Communication and Technology. Rhodes, Greecs. — 1997. — Vol. 2. — P. 601 604.

29. Coorman G., Fackrell J., Rutten P., Van Coile B. Segment selection tin the L&H realspeak laboratory TTS system // Proceedings of ICSLP. Beijing, China. — 2000.

30. Makhoul J. Spectral Linear Prediction: Properties and Applications // IEEE Trans. ASSP. 1975. — Vol. 23. — No. 5. — P. 283−296.

31. Hamon С., Moulines E., Charpentier F. A diphone synthesis system based on time-domain prosodic manipulations of speech // Proceedings on the International Conference on Acoustic, Speech and Signal Processing. 1989. — P. 238.

32. Charpentier F., Stella M. Diphone synthesis using an overlap-add technique for speech waveforms concatenation // Proceedings on the International Conference on Acoustic, Speech and Signal Processing. Tokio, Japan. — 1986.

33. Главатских И., Чистиков П., Таланов А. Метод модификации физических параметров речевого сигнала на основе периодосинхронного Фурье-анализа // Труды XXXVIII международной филологической конференции.- 2008. С. 47−62.

34. Chistikov P. Pitch-scale modification in text-to-speech systems // Proceedings of the IEEE North West Russia Section. 2011. — P. 37−42.

35. Chistikov P., Talanov A. High Quality Pitch-Scale Modification in Speech Generation Systems // SPECOM 2011 International Conference. 2011. -P. 367−372.

36. Hunt M., Zwierynski D., Carr R. Issues in high quality LPC analysis and synthesis // Eurospeech89. Paris, France. — 1989. — Vol. 2. — P. 348−351.

37. Dutoit Th., Leich H. MBR-PSOLA: Text-to-speech synthesis based on an MBE re-synthesis of the segments database // Speech Commun. November 1993. Vol. 13. No. 34. — P. 167−184.

38. Stylianou Y. Removing phase mismatches in concatenative speech synthesis // Proc. 3rd ESCA Speech Synthesis Workshop. November 1998. — P. 267−272.

39. Stylianou Y. Applying the Harmonic Plus Noise Model in Concatenative Speech Synthesis // IEEE Trans. Speech Audio Processing. January 2001. — Vol. 9. No. 1. P. 21−29.

40. Mobius В. Rare events and closed domains: Two delicate concepts in speech synthesis // Proceedings of the 4th ESCA Workshop on Speech Synthesis. -Perthshire, Scotland. 2001.

41. Tokuda K. HMM-based Speech Synthesis System (HTS). 2011. — Режим доступа: // http://hts.sp.nitech.ac.jp. — Загл. с экрана.

42. Huang X., Acero A., Adcock J., Goldsmith J., Liu J. Whistler: A Trainable Text-to-Specch System // Proceedings of the International Conference on Spoken Language Processing. Philadelphia, PA. — 1996.

43. Donovan R.E., Eide E.M. The IBM Trainable Speech Synthsis System // Proceedings ICSLP'98. Sydney, Australia. — 1998.

44. Boite R., Bourland H., Dutoit Th., Hancq J., Leich H. Traitement dc la parole // Presses Polytechniques et Universitaires Romandes. 2000.

45. Quatieri T.F. Discrete-time speech signal processing // Prentice Hall. 2001.

46. Пиуновский E.B., Тропченко А. А. Современные технологии сжатия аудиосигналов // Научно-технический вестник информационных технологий, механики и оптики. Вып. 1(65). — 2010.

47. Griffin D.W. Multi-Band Excitation Vocoder // Ph.D. Thesis. Cambridge: MIT. — 1987.

48. Transactions on Acoustic, Speech and Sigal Processing. 1998. — Vol. 6. — No. 1. — P. 12−23.

49. Taylor P. Unifying unit selection and hidden Markov model speech synthesis // In Interspeech. 2006. — P. 1758−1761.

50. Zen H., Tokuda K., Black A. Statistical parametric speech synthesis // Speech Communication. November 2009. — Vol.51. — No.ll. — P. 1039−1064.

51. King S., Karaiskos V. The Blizzard Challenge 2010 // CSTR. University of Edinburgh. — UK. — 2010.

52. Shiga Y., Toda T., Sakai Sh., Ni J., Kawai H., Tokuda K., Tsuzaki M., Nakamura S. NICT Blizzard Challenge 2010 Entry // The Blizzard Challenge 2010. Japan. — September 2010.

53. Black A.W., Hunt A.J. Unit Selection in a Concatenative Speech Synthesis Using a Large Speech Database //In Proceedings of ICASSP 96. Atlanta, Georgia. — 1996. — Vol. 1. — P. 373−376.

54. Black A.W., Taylor P., Calcy R. The festival speech synthesis system. Manual and source code available at http://www.cstr.ed.ac.uk/projects/festival.html.

55. Conkie A. A robust unit selection system for speech synthesis //In Proceedings of Joint, Meeting of ASA, EAA and DAGA. Berlin, Germany. — 1999.

56. Vepa J. Join Cost for Unit Selection Speech Synthesis // University of Edinburgh. 2004.

57. Syrdal A.K., Conkie A. Data-driven perceptually based join costs // In Proceedings of 5th ISCA Speech Synthesis Workshop. Pittsburgh, Pennsylvania. — 2004. — P. 49−54.

58. Black A.W., Taylor P. Automatically clustering similar units for unit selection in speech synthesis //In Proceedings of Eurospeech 97. Rhodes, Greece. -1997. — Vol.2. — P. 601−604.

59. Klabbcrs E., Veldhuis R. On the reduction of concatenation artefacts in diphone synthesis //In Proceedings of the International Conference on Speech and Language Processing. 1998.

60. Moulines E., Verhelst W. Time-domain and frequency-domain techniques for prosodic modification of speech in Speech Coding and Synthesis // IEEE. -Netherland. 1995. — P. 519−555.

61. Taylor P. Text to Speech Synthesis // University of Cambridge. Great Britan.

62. Rafael C., Luiz W., Netto S. A sequential system for voice pitch modification //In proceedings of the 5th AES-Brazil Conference. Brazil. — 2007.

63. Rafael C., Luiz W., Sergio L. On the application of RLS adaptive filtering for voice pitch modification //In proceedings of the 10th International Conference on Digital Audio Effects. France. — 2007.

64. Kadambe S., Boudrcaux-Bartels G. Application of the wavelet transform for pitch detection of speech signals // IEEE Transactions on Information Theory. 1992. — Vol. 38. — No. 2. — P. 917−924.

65. Ma C., Kamp Y., Willems L. A Frobenius norm approach to glottal closure detection from the speech signal // IEEE Transactions on Speech and Audio Processing. 1994. — Vol. 2. — No. 2. — P. 258−265.

66. Кривнова О. Ф., Захаров JI. М., Строкин Г. С. Подбор текстового материала и статистический инструментарий для создания речевых корпусов // Сборник трудов XI сессии Российского акустического общества. Том 3.

67. Акустика речи. Медицинская и биологическая акустика. ГЕОС, М. 2001.1. C. 87−92.

68. Чистиков П. Технология синтеза русской речи на основе скрытых Марковских моделей // Научно-технический вестник информационных технологий, механики и оптики. 2012. — Вып. 3. — С. 151−152.

69. Narayanan S., Alwan A. Text-to-Speech Synthesis: New Paradigms and Advances // Prentice Hall. 2004.

70. Tokuda K., Masuko Т., Miyasaki N., Kobayashi T. Multi-space probability distribution HMM // IEICE Trans. Information and Systems. March 2002. — Vol. E85-D. — No. 3. — P. 455−464.

71. Tokuda K., Zen H., Black A.W. An HMM-based speech synthesis system applied to English // Proc. IEEE Workshop on Speech Synthesis. 2002. -P. 227−230.

72. Yoshimura Т., Tokuda K, Masuko Т., Kobayashi Т., Kitamura T. Simultaneous modeling of spectrum, pitch and duration in HMMbased specch synthesis //In Proc. EUROSPEECH-99. September 1999. — P. 2374−2350.

73. Yoshimura Т., Tokuda K., Masuko Т., Kobayashi Т., Kitamura T. Mixed excitation for HMM-based speech Synthesis // Proc. of European Conference on Speech Communication and Technology. September 2001. — Vol. 3. — P. 2259−2262.

74. Odell J.J. The Use of Context in Large Vocabulary Speech Recognition // Ph.D. Thesis, University of Cambridge. England. — 1995.

75. Young S., Evermann G., Hain Т., Kershaw D., Moore G., Odell J.J., Ollason.

76. D., Povey D., Valchev V., Woodland P. The НТК Book: For НТК version 3.2.1. // Cambridge University. England. — December 2002.

77. Gosselin B. Classification et Reconnaissance Statistique de Formes // Faculte Polytechnique de Mons. 2000.

78. Masuko T., Tokuda K., Kobayashi T., Imai S. Speech synthesis using HMMs with dynamic features // Proceedings of the International Conference on Acoustic, Speech and Signal Processing. 1996.

79. Plumpe M., Accro A., Hon H., Huang X. HMM-based smoothing for concatenative speech synthesis // Proceedings of the International Conference on Spoken Language Processing. Sydney, Australia. — December 1998. — P. 2751−2754.

80. Tokuda K., Kobayashi T., Imai S. Speech parameter generation from HMM using dynamic features // Proceedings of the International Conference on Acoustic, Speech and Signal Processing. Detroit, USA. — 1995. — P. 660−663.

81. Tokuda K., Yoshimura T., Masuko T., Kobayashi T., Kitamura T. Speech parameter generation algorythms for HMM-based speech synthesis // Proceedings of the International Conference on Acoustic, Speech and Signal Processing. Istanbul, Turkey. — 2000.

82. Kawai H., Toda T., Ni J., Tsuzaki M., Tokuda K., XIMERA: A new TTS from ATR based on corpus-based technologies //in ISCA SSW5. 2004.

83. Rouibia S. and Rosec Unit selection for speech synthesis based on a new acoustic target cost //In Interspeech. 2005. — P. 2565−2568.

84. Hirai T., Tenpaku S. Using 5 ms segments in concatenative speech synthesis // In ISCA SSW5. 2004.

85. Yang H., Zhao Z., Jiang Y., Hu G., Wu X. Multitier non-uniform unit selection for corpus-based speech synthesis //In Blizzard Challenge Workshop. 2006.

86. Mizutani N., Tokuda K., Kitamura T. Concatenative spcech synthesis based on HMM 11 In Autumn meeting of ASJ. 2002. — P. 241−242.

87. Ling Z., Wang R. HMM-based unit selection using frame sized speech segments // In Interspeech. 2006. — P. 2034;2037.

88. Kominek J., Black A. The Blizzard Challenge 2006 CMU entry introducing hybrid trajectory-selection synthesis //In Blizzard Challenge Workshop. -2006.

89. Wouters J., Macon M. Unit fusion for concatenative speech synthesis //In ICSLP. 2000. — P. 302−305.

90. Продан А., Чистиков П., Таланов А. Система подготовки нового голоса для системы синтеза «VITALVOICE» // Сборник «Компьютерная лингвистика и интеллектуальные технологии». 2010. — Вып. 9(16). — С. 394−399.

91. Чистиков П., Хомицевич О. Автоматическое определение границ предложений в потоковом режиме в системе распознавания русской речи // Вестник МГТУ им. Н. Э. Баумана Сер. Приборостроение. 2011. — Вып. S. — С. 117−125.

92. Chistikov P., Khomitsevich О. On-line automatic sentence boundary detection in a Russian ASR system // SPECOM 2011 International Conference. 2011. — P. 112−117.

93. Чистиков П. Г. Моделирование параметров русской речи в системе синтеза // Сборник тезисов докладов конгресса молодых ученых, Выпуск 2. Труды молодых ученых / Главный редактор д.т.н., проф. В. О. Никифоров. СПб: НИУ ИТМО, 2012. — С. 227−228.

94. Chistikov P., Korolkov E. Data-driven Speech Parameter Generation For Russian Text-to-Spcech System // Сборник «Компьютерная лингвистика и интеллектуальные технологии». 2012. — Вып. 11(18). — С. 103−111.

95. Fukada Т., Tokuda К., Kobayashi Т., Imai S. An adaptive algorithm for mel-cepstral analysis of speech // Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP). 1992.

96. Zen H., Tokuda K., Masuko Т., Kobayashi Т., Kitamura T. Hidden semi-Markov model based speech synthesis // Proceedings of the International Conference on Spoken Language Processing (ICSLP). 2004.

97. Black A., Taylor P., Caley R. The Festival Speech Synthesis System. 2011. -Режим доступа: http://www.festvox.org/festival. — Загл. с экрана.

98. Maia R., Zen H., Tokuda К. An HMM-based Brazilian Portuguese Speech Synthesis and Its Characteristics // Revista da Sociedade Brasileira de Telecomunicacoes. 2006.

99. Tokuda K., Masuko Т., Miyazaki N., Kobayashi T. Hidden Markov models based on multi-space probability distribution for pitch pattern modeling //In Proc. ICASSP-99. March 1999. — P. 229−232.

100. Tokuda K., Masuko Т., Miyazaki N., Kobayashi T. Multi-space probability distribution hmm // IEICE Trans. Inf. к Syst. July 2000. — No. J83-DII (7).- P. 1579−1589.

101. Masuko Т., Tokuda K., Miyazaki N., Kobayashi T. Pitch pattern generation using multi-space probability distribution HMM // IEICE Trans. Inf. & Syst.- July 2000. No. J83-D-II (7). — P. 1600−1609.

102. Yoshimura Т., Tokuda K., Masuko Т., Kobayashi Т., Kitamura T. Simultaneous modeling of spectrum, pitch and duration in HMM-based speech synthesis // IEICE Trans. D-II. November 2000. — No. J83-D-II (11). — P. 2099;2107.

103. Young S., Odell J., Woodland P. Tree-based state tying for high accuracy acoustic modeling // Proc. ARPA Human Language Technology Workshop.- March 1994. P. 307−312.

104. Shinoda K., Watanabe T. MDL-based context-dependent subword modeling for speech recognition //J. Acoust. Soc. Japan. — March 2000. — No. 21. -P. 79−86.

105. Yamagishi J. An Introduction to HMM-Based Speech Synthesis // Ph.D. Thesis. October 2006.

106. Toda Т., Tokuda K. A Speech Parameter Generation Algorythm Considering Global Variance for HMM-Based Speech Synthesis // IEICE Trans. Inf. & Syst.- May 2007. Vol. E90-D. — No. 5. — P. 816−824.

107. Smirnova N., Chistikov P. Statistics of Russian Monophones and Diphones // SPECOM 2011 International Conference. 2011.

108. Solomcnnik A., Chistikov P. Automatic generation of text corpora for creating voice databases in a Russian text-to-speech system // Сборник «Компьютерная лингвистика и интеллектуальные технологии». 2012. — Вып. 11(18).- С. 607−615.

109. Корольков Е, Главатских И., Киселев В., Опарин И., Таланов А. Синтез естественной русской речи при помощи метода Unit Selection // Компьютерная лингвистика и интеллектуальные технологии. 2009. — Вып. 8(15).

110. Leggetter С., Woodland P. Maximum likelihood linear regression for speaker adaptation of continuous density hidden Markov models // Computer Speech and Language. 1995. — No. 9. — P. 171−185.

111. Yamagishi J., Kobayashi T. Adaptive training for hidden semi-Markov model // In Proc. ICASSP 2005. March 2005. — P. 365−368.

112. Yamagishi J., Tamura M., Masuko T., Tokuda K., Kobayashi T. A training method of average voice model for HMM-based speech synthesis // IEICE Trans. Fundamentals. August 2003. — No. E86-A (8). — P. 1956;1963.

113. Rahim M., Juang B. Signal bias removal by maximum likelihood estimation for robust telephone speech recognition // IEEE Trans. Speech Audio Processing.- January 1996. No. 4. — P. 19−30.

114. Shinoda K, Watanabe T. Speaker adaptation with autonomous control using tree structure //In Proc. EUROSPEECH-95. September 1995. — P. 1143−1146.

115. Shinoda K., Watanabe T. Speaker adaptation with autonomous model complexity control by MDL principle //In Proc. ICASSP-96. May 1996. P. 717−720.

116. Shinoda K., Lee C. A structural Bayes approach to speaker adaptation // IEEE Trans. Speech Audio Process. March 2001. — No. 9. — P. 276−287.

117. Shiohan O., Myrvoll T., Lee C. Structural maximum a posteriori linear regression for fast HMM adaptation // Computer Speech and Language. -2002. No. 16(3). — P. 5−24.

118. Digalakis V., Neumcyer L. Speaker adaptation using combined transformation and Bayesian methods // IEEE Trans. Speech Audio Processing. July 1996. No. 4. P. 294−300.

119. Chicn J., Wang H., Lee C. Improved Bayesian learning of hidden Markov models for speaker adaptation //In Proc. ICASSP-97. April 1997. — P. 1027−1030.

120. Yamagishi J. Average-Voicc-Bascd Speech Synthesis // Ph.D. Thesis. March.

121. Rabiner L. A Tutorial on Hiden Markov Models and Selected Applications in Speech Recognition // Proceedings of the IEEE. 1989. — Vol. 77. — No. 2. -P. 257−286.

122. Hemptinne C. Integration of the Harmonic plus Noise Model (HNM) into the Hidden Markov Model-Based Speech Synthesis System (HTS) // Master Thesis. Switzerland. — June 2006.2006.

Показать весь текст

Заполнить форму текущей работой