Выводы.
В данной главе представлены эксплуатационные характеристики системы: объем речевых корпусов, параметры производительностиприведены примеры кластеризации состояний моделей длительности и частоты основного тона, моделирования огибающей F0 и синтеза речевого сигналапроведено сравнение синтезированной речи с речью диктора, отмечено существенное сходствопредставлены результаты MOS оценок качества и слоговой разборчивости.
Эксперты очень высоко оценили результаты работы системы как с точки зрения качества синтезируемой речи, так и сточки зрения производительности, позиционируя се как лучшую в мире среди систем синтеза на русском языке.
Заключение
.
В ходе проведенных исследований была разработана гибридная система синтеза русской речи по тексту, в основе которой лежат скрытые марковские модели и метод Unit Selection. Результаты испытаний показали, что по показателям естественности звучания данная система является лучшей среди систем синтеза на русском языке, при этом полностью удовлетворяя диктуемым реальными приложениями требованиям по производительности (скорости работы и занимаемом объеме памяти). Разработанная система успешно себя зарекомендовала в различных научно-исследовательских и опытно-конструкторских разработках, а также коммерческих решениях компании ООО «ЦРТ» как в качестве самостоятельного продукта, так и в составе других, например, системы голосового самообслуживания.
В диссертации получены следующие результаты.
1. Создана методика подготовки речевого корпуса, включающая методику подготовки текстового корпуса, автоматический контроль параметров записи фонограмм, автоматическую разметку звукового материала.
2. Выбран набор признаков звуковой единицы русского языка и набор критериев поиска последовательности звуковых элементов методом Unit Selection.
3. Выработана методика создания модели голоса.
4. Реализовано масштабируемое ПО обучения моделей голоса.
5. Разработаны алгоритмы и реализовано ПО модификации частоты основного тона, энергии и длительности и стыковки звуковых элементов.
6. Разработаны программные средства синтеза русской речи, основанной на совместном использовании скрытых марковских моделей и метода Unit Selection.
1. Житко В. А., Гецевич Ю. С., Лобанов Б. М. Справочная система с речевым интерфейсом // Открытые семантические технологии проектирования интеллектуальных систем (OST1.-2013): материалы III Междунар. науч.-тсхн. конф. — С. 505−510. — Минск: БГУИР, 2013.
2. Ронжин A. JL, Будков В. Ю. Технологии поддержки гибридных с-совещаний на основе методов аудиовизуальной обработки // Вестник компьютерных и информационных технологий. № 4, С. 31−35. — 2011.
3. Ронжин A. JL, Будков В. Ю., Ронжин Ал.Л. Технологии формирования аудиовизуального интерфейса системы телеконференций // Автоматизация и современные технологии. 5, С. 20−26. 2011.
4. Лосик Г. В., Лобанов Б. М., Ткаченко В. В. Синтезатор речи в персональном компьютере для незрячего // Материалы Международной научно-практической конференции «Инклюзивное образование: проблемы, поиски, решения». С. 23−26. — Якутск. — 2011.
5. Лобанов Б. М., Сизонов О. Г. Квазиречевой видеонавигатор для слепых // Речевые технологии. № 1. — С. 103−110. — М., 2009.
6. Dines J. Model based trainable speech synthesis and its applications // Ph. D. Thesis, Queensland University of Technology, Australia, 2003.
7. Dutoit Th. Introduction au traitement de la parole // Faculte Polytechnique de Mons. 2002.
8. Stilianou Y. Harmonic plus noise models for speech, combined with statistical methods, for speech and speaker modification // Ph.D. Thesis, Ecole Ecole Nationale Superieure des Telecommunications. Paris, France. — 1996.
9. Лобанов Б.M., Цирульник JI.И. Компьютерный синтез и клонирование речи // Минск: Белорусская наука. 316 с. — 2008.
10. Гецевич Ю. С., Лобанов Б. М. Система синтеза белорусской речи по тексту // Речевые технологии. № 1, С. 91−100. — 2010.
11. Аничкин И., Чистиков П. Формализация правил автоматического снятия омонимии в системе синтеза речи по тексту // Труды XXXVIII международной филологической конференции. 2008. — С. 29−45.
12. Алдошина И. Основы психоакустики // Москва. 2007.
13. Скрелин П. А. Формальные методы анализа речи: проблемы интерпретации результатов // Труды международной филологической конференции «Формальные методы анализа русской речи». Санкт-Петербург. — 2007.
14. Кривнова О. Ф. Генерация тонального контура фразы в системах автоматического синтеза речи // Москва: МГУ. 1998.
15. Murray I.R., Arnott J.L. Implementation and testing of a system for producing emotion-by-rule in synthetic speech // Speech Communication. United Kingdom. — 1995. — P. 369−390.
16. Евграфова K.B. Фонетические характеристики гласной вставки в чтении изолированных слов / / Труды международной филологической конференции «формальные методы анализа русской речи». Санкт-Петербург. -2008.
17. Lobanov В., Karnevskaya Е. Pragmatic variation of Question Intonation in TTS synthesis // Speech and Computer: proceedings of the 13-th International conference SPECOM'2009. P. 225−228. — Russia, 2009.
18. Ронжин А. Л., Евграфова К. В. Анализ вариативности спонтанной речи и способов устранения речевых сбоев / / Известия высших учебных заведений. Гуманитарные пауки. Т. 2, Вып. 3, С. 227−231. — 2011.
19. Markel J.D., Gray A.H. Linear Prediction of Speech // Berlin. 1980.
20. Klatt D.H. The Klattalk text-to-speech conversion system // Proceedings on the International Conference on Acoustic, Speech and Signal Processing. -Paris. 1982. — P. 1589−1592.
21. Klatt D.H. Review of text-to-speech conversion for English // Journal of the Acoustical Society of America. September 1987. — Vol. 82. — P. 737−793.
22. Klatt D.H. DecTalk user’s manual // Digital Equipment Corporation Report.- 1990.
23. Allen J., Hunnicutt S., Carlson R., Granstrom B. MITalk-79: The 1979 MIT text-to-speech sytem // Speech Communication Papers Presented at the 97th Meeting of the Acoustical Society of America. Cambridge, USA. — 1979. — P. 507−510.
24. Allen J., Hunnicutt S., Klatt D.H. From Text-to-Speech: The MITalk System // Cambridge: Cambridge University Press. 1987.
25. Чистиков П., Рыбин С. Проблемы естественности речевого сигнала в системах синтеза // Журнал «Компьютерные инструменты в образовании».- 2011. Вып. 1. — С. 22−30.
26. Black A.W., Taylor P., Caley R. The Festival Speech Synthesis System // Centre for Speech Thecnology Research, University of Edinburg. England. -June 1999. — 1.4 ed.
27. Campbell N. CHATR: A high-Definition Speech ReSequencing System // Proceedings of the 3rd ASA/ASJ Joint Meeting. 1996. — P. 1223−1228.
28. Beutnagel M., Conkie A., Scroeter J., Stylianou Y., Sydral A. The AT&T Next-Gen TTS sinthesis // Proceedings of the European Conference on Speech Communication and Technology. Rhodes, Greecs. — 1997. — Vol. 2. — P. 601 604.
29. Coorman G., Fackrell J., Rutten P., Van Coile B. Segment selection tin the L&H realspeak laboratory TTS system // Proceedings of ICSLP. Beijing, China. — 2000.
30. Makhoul J. Spectral Linear Prediction: Properties and Applications // IEEE Trans. ASSP. 1975. — Vol. 23. — No. 5. — P. 283−296.
31. Hamon С., Moulines E., Charpentier F. A diphone synthesis system based on time-domain prosodic manipulations of speech // Proceedings on the International Conference on Acoustic, Speech and Signal Processing. 1989. — P. 238.
32. Charpentier F., Stella M. Diphone synthesis using an overlap-add technique for speech waveforms concatenation // Proceedings on the International Conference on Acoustic, Speech and Signal Processing. Tokio, Japan. — 1986.
33. Главатских И., Чистиков П., Таланов А. Метод модификации физических параметров речевого сигнала на основе периодосинхронного Фурье-анализа // Труды XXXVIII международной филологической конференции.- 2008. С. 47−62.
34. Chistikov P. Pitch-scale modification in text-to-speech systems // Proceedings of the IEEE North West Russia Section. 2011. — P. 37−42.
35. Chistikov P., Talanov A. High Quality Pitch-Scale Modification in Speech Generation Systems // SPECOM 2011 International Conference. 2011. -P. 367−372.
36. Hunt M., Zwierynski D., Carr R. Issues in high quality LPC analysis and synthesis // Eurospeech89. Paris, France. — 1989. — Vol. 2. — P. 348−351.
37. Dutoit Th., Leich H. MBR-PSOLA: Text-to-speech synthesis based on an MBE re-synthesis of the segments database // Speech Commun. November 1993. Vol. 13. No. 34. — P. 167−184.
38. Stylianou Y. Removing phase mismatches in concatenative speech synthesis // Proc. 3rd ESCA Speech Synthesis Workshop. November 1998. — P. 267−272.
39. Stylianou Y. Applying the Harmonic Plus Noise Model in Concatenative Speech Synthesis // IEEE Trans. Speech Audio Processing. January 2001. — Vol. 9. No. 1. P. 21−29.
40. Mobius В. Rare events and closed domains: Two delicate concepts in speech synthesis // Proceedings of the 4th ESCA Workshop on Speech Synthesis. -Perthshire, Scotland. 2001.
41. Tokuda K. HMM-based Speech Synthesis System (HTS). 2011. — Режим доступа: // http://hts.sp.nitech.ac.jp. — Загл. с экрана.
42. Huang X., Acero A., Adcock J., Goldsmith J., Liu J. Whistler: A Trainable Text-to-Specch System // Proceedings of the International Conference on Spoken Language Processing. Philadelphia, PA. — 1996.
43. Donovan R.E., Eide E.M. The IBM Trainable Speech Synthsis System // Proceedings ICSLP'98. Sydney, Australia. — 1998.
44. Boite R., Bourland H., Dutoit Th., Hancq J., Leich H. Traitement dc la parole // Presses Polytechniques et Universitaires Romandes. 2000.
45. Quatieri T.F. Discrete-time speech signal processing // Prentice Hall. 2001.
46. Пиуновский E.B., Тропченко А. А. Современные технологии сжатия аудиосигналов // Научно-технический вестник информационных технологий, механики и оптики. Вып. 1(65). — 2010.
47. Griffin D.W. Multi-Band Excitation Vocoder // Ph.D. Thesis. Cambridge: MIT. — 1987.
48. Transactions on Acoustic, Speech and Sigal Processing. 1998. — Vol. 6. — No. 1. — P. 12−23.
49. Taylor P. Unifying unit selection and hidden Markov model speech synthesis // In Interspeech. 2006. — P. 1758−1761.
50. Zen H., Tokuda K., Black A. Statistical parametric speech synthesis // Speech Communication. November 2009. — Vol.51. — No.ll. — P. 1039−1064.
51. King S., Karaiskos V. The Blizzard Challenge 2010 // CSTR. University of Edinburgh. — UK. — 2010.
52. Shiga Y., Toda T., Sakai Sh., Ni J., Kawai H., Tokuda K., Tsuzaki M., Nakamura S. NICT Blizzard Challenge 2010 Entry // The Blizzard Challenge 2010. Japan. — September 2010.
53. Black A.W., Hunt A.J. Unit Selection in a Concatenative Speech Synthesis Using a Large Speech Database //In Proceedings of ICASSP 96. Atlanta, Georgia. — 1996. — Vol. 1. — P. 373−376.
54. Black A.W., Taylor P., Calcy R. The festival speech synthesis system. Manual and source code available at http://www.cstr.ed.ac.uk/projects/festival.html.
55. Conkie A. A robust unit selection system for speech synthesis //In Proceedings of Joint, Meeting of ASA, EAA and DAGA. Berlin, Germany. — 1999.
56. Vepa J. Join Cost for Unit Selection Speech Synthesis // University of Edinburgh. 2004.
57. Syrdal A.K., Conkie A. Data-driven perceptually based join costs // In Proceedings of 5th ISCA Speech Synthesis Workshop. Pittsburgh, Pennsylvania. — 2004. — P. 49−54.
58. Black A.W., Taylor P. Automatically clustering similar units for unit selection in speech synthesis //In Proceedings of Eurospeech 97. Rhodes, Greece. -1997. — Vol.2. — P. 601−604.
59. Klabbcrs E., Veldhuis R. On the reduction of concatenation artefacts in diphone synthesis //In Proceedings of the International Conference on Speech and Language Processing. 1998.
60. Moulines E., Verhelst W. Time-domain and frequency-domain techniques for prosodic modification of speech in Speech Coding and Synthesis // IEEE. -Netherland. 1995. — P. 519−555.
61. Taylor P. Text to Speech Synthesis // University of Cambridge. Great Britan.
62. Rafael C., Luiz W., Netto S. A sequential system for voice pitch modification //In proceedings of the 5th AES-Brazil Conference. Brazil. — 2007.
63. Rafael C., Luiz W., Sergio L. On the application of RLS adaptive filtering for voice pitch modification //In proceedings of the 10th International Conference on Digital Audio Effects. France. — 2007.
64. Kadambe S., Boudrcaux-Bartels G. Application of the wavelet transform for pitch detection of speech signals // IEEE Transactions on Information Theory. 1992. — Vol. 38. — No. 2. — P. 917−924.
65. Ma C., Kamp Y., Willems L. A Frobenius norm approach to glottal closure detection from the speech signal // IEEE Transactions on Speech and Audio Processing. 1994. — Vol. 2. — No. 2. — P. 258−265.
66. Кривнова О. Ф., Захаров JI. М., Строкин Г. С. Подбор текстового материала и статистический инструментарий для создания речевых корпусов // Сборник трудов XI сессии Российского акустического общества. Том 3.
67. Акустика речи. Медицинская и биологическая акустика. ГЕОС, М. 2001.1. C. 87−92.
68. Чистиков П. Технология синтеза русской речи на основе скрытых Марковских моделей // Научно-технический вестник информационных технологий, механики и оптики. 2012. — Вып. 3. — С. 151−152.
69. Narayanan S., Alwan A. Text-to-Speech Synthesis: New Paradigms and Advances // Prentice Hall. 2004.
70. Tokuda K., Masuko Т., Miyasaki N., Kobayashi T. Multi-space probability distribution HMM // IEICE Trans. Information and Systems. March 2002. — Vol. E85-D. — No. 3. — P. 455−464.
71. Tokuda K., Zen H., Black A.W. An HMM-based speech synthesis system applied to English // Proc. IEEE Workshop on Speech Synthesis. 2002. -P. 227−230.
72. Yoshimura Т., Tokuda K, Masuko Т., Kobayashi Т., Kitamura T. Simultaneous modeling of spectrum, pitch and duration in HMMbased specch synthesis //In Proc. EUROSPEECH-99. September 1999. — P. 2374−2350.
73. Yoshimura Т., Tokuda K., Masuko Т., Kobayashi Т., Kitamura T. Mixed excitation for HMM-based speech Synthesis // Proc. of European Conference on Speech Communication and Technology. September 2001. — Vol. 3. — P. 2259−2262.
74. Odell J.J. The Use of Context in Large Vocabulary Speech Recognition // Ph.D. Thesis, University of Cambridge. England. — 1995.
75. Young S., Evermann G., Hain Т., Kershaw D., Moore G., Odell J.J., Ollason.
76. D., Povey D., Valchev V., Woodland P. The НТК Book: For НТК version 3.2.1. // Cambridge University. England. — December 2002.
77. Gosselin B. Classification et Reconnaissance Statistique de Formes // Faculte Polytechnique de Mons. 2000.
78. Masuko T., Tokuda K., Kobayashi T., Imai S. Speech synthesis using HMMs with dynamic features // Proceedings of the International Conference on Acoustic, Speech and Signal Processing. 1996.
79. Plumpe M., Accro A., Hon H., Huang X. HMM-based smoothing for concatenative speech synthesis // Proceedings of the International Conference on Spoken Language Processing. Sydney, Australia. — December 1998. — P. 2751−2754.
80. Tokuda K., Kobayashi T., Imai S. Speech parameter generation from HMM using dynamic features // Proceedings of the International Conference on Acoustic, Speech and Signal Processing. Detroit, USA. — 1995. — P. 660−663.
81. Tokuda K., Yoshimura T., Masuko T., Kobayashi T., Kitamura T. Speech parameter generation algorythms for HMM-based speech synthesis // Proceedings of the International Conference on Acoustic, Speech and Signal Processing. Istanbul, Turkey. — 2000.
82. Kawai H., Toda T., Ni J., Tsuzaki M., Tokuda K., XIMERA: A new TTS from ATR based on corpus-based technologies //in ISCA SSW5. 2004.
83. Rouibia S. and Rosec Unit selection for speech synthesis based on a new acoustic target cost //In Interspeech. 2005. — P. 2565−2568.
84. Hirai T., Tenpaku S. Using 5 ms segments in concatenative speech synthesis // In ISCA SSW5. 2004.
85. Yang H., Zhao Z., Jiang Y., Hu G., Wu X. Multitier non-uniform unit selection for corpus-based speech synthesis //In Blizzard Challenge Workshop. 2006.
86. Mizutani N., Tokuda K., Kitamura T. Concatenative spcech synthesis based on HMM 11 In Autumn meeting of ASJ. 2002. — P. 241−242.
87. Ling Z., Wang R. HMM-based unit selection using frame sized speech segments // In Interspeech. 2006. — P. 2034;2037.
88. Kominek J., Black A. The Blizzard Challenge 2006 CMU entry introducing hybrid trajectory-selection synthesis //In Blizzard Challenge Workshop. -2006.
89. Wouters J., Macon M. Unit fusion for concatenative speech synthesis //In ICSLP. 2000. — P. 302−305.
90. Продан А., Чистиков П., Таланов А. Система подготовки нового голоса для системы синтеза «VITALVOICE» // Сборник «Компьютерная лингвистика и интеллектуальные технологии». 2010. — Вып. 9(16). — С. 394−399.
91. Чистиков П., Хомицевич О. Автоматическое определение границ предложений в потоковом режиме в системе распознавания русской речи // Вестник МГТУ им. Н. Э. Баумана Сер. Приборостроение. 2011. — Вып. S. — С. 117−125.
92. Chistikov P., Khomitsevich О. On-line automatic sentence boundary detection in a Russian ASR system // SPECOM 2011 International Conference. 2011. — P. 112−117.
93. Чистиков П. Г. Моделирование параметров русской речи в системе синтеза // Сборник тезисов докладов конгресса молодых ученых, Выпуск 2. Труды молодых ученых / Главный редактор д.т.н., проф. В. О. Никифоров. СПб: НИУ ИТМО, 2012. — С. 227−228.
94. Chistikov P., Korolkov E. Data-driven Speech Parameter Generation For Russian Text-to-Spcech System // Сборник «Компьютерная лингвистика и интеллектуальные технологии». 2012. — Вып. 11(18). — С. 103−111.
95. Fukada Т., Tokuda К., Kobayashi Т., Imai S. An adaptive algorithm for mel-cepstral analysis of speech // Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP). 1992.
96. Zen H., Tokuda K., Masuko Т., Kobayashi Т., Kitamura T. Hidden semi-Markov model based speech synthesis // Proceedings of the International Conference on Spoken Language Processing (ICSLP). 2004.
97. Black A., Taylor P., Caley R. The Festival Speech Synthesis System. 2011. -Режим доступа: http://www.festvox.org/festival. — Загл. с экрана.
98. Maia R., Zen H., Tokuda К. An HMM-based Brazilian Portuguese Speech Synthesis and Its Characteristics // Revista da Sociedade Brasileira de Telecomunicacoes. 2006.
99. Tokuda K., Masuko Т., Miyazaki N., Kobayashi T. Hidden Markov models based on multi-space probability distribution for pitch pattern modeling //In Proc. ICASSP-99. March 1999. — P. 229−232.
100. Tokuda K., Masuko Т., Miyazaki N., Kobayashi T. Multi-space probability distribution hmm // IEICE Trans. Inf. к Syst. July 2000. — No. J83-DII (7).- P. 1579−1589.
101. Masuko Т., Tokuda K., Miyazaki N., Kobayashi T. Pitch pattern generation using multi-space probability distribution HMM // IEICE Trans. Inf. & Syst.- July 2000. No. J83-D-II (7). — P. 1600−1609.
102. Yoshimura Т., Tokuda K., Masuko Т., Kobayashi Т., Kitamura T. Simultaneous modeling of spectrum, pitch and duration in HMM-based speech synthesis // IEICE Trans. D-II. November 2000. — No. J83-D-II (11). — P. 2099;2107.
103. Young S., Odell J., Woodland P. Tree-based state tying for high accuracy acoustic modeling // Proc. ARPA Human Language Technology Workshop.- March 1994. P. 307−312.
104. Shinoda K., Watanabe T. MDL-based context-dependent subword modeling for speech recognition //J. Acoust. Soc. Japan. — March 2000. — No. 21. -P. 79−86.
105. Yamagishi J. An Introduction to HMM-Based Speech Synthesis // Ph.D. Thesis. October 2006.
106. Toda Т., Tokuda K. A Speech Parameter Generation Algorythm Considering Global Variance for HMM-Based Speech Synthesis // IEICE Trans. Inf. & Syst.- May 2007. Vol. E90-D. — No. 5. — P. 816−824.
107. Smirnova N., Chistikov P. Statistics of Russian Monophones and Diphones // SPECOM 2011 International Conference. 2011.
108. Solomcnnik A., Chistikov P. Automatic generation of text corpora for creating voice databases in a Russian text-to-speech system // Сборник «Компьютерная лингвистика и интеллектуальные технологии». 2012. — Вып. 11(18).- С. 607−615.
109. Корольков Е, Главатских И., Киселев В., Опарин И., Таланов А. Синтез естественной русской речи при помощи метода Unit Selection // Компьютерная лингвистика и интеллектуальные технологии. 2009. — Вып. 8(15).
110. Leggetter С., Woodland P. Maximum likelihood linear regression for speaker adaptation of continuous density hidden Markov models // Computer Speech and Language. 1995. — No. 9. — P. 171−185.
111. Yamagishi J., Kobayashi T. Adaptive training for hidden semi-Markov model // In Proc. ICASSP 2005. March 2005. — P. 365−368.
112. Yamagishi J., Tamura M., Masuko T., Tokuda K., Kobayashi T. A training method of average voice model for HMM-based speech synthesis // IEICE Trans. Fundamentals. August 2003. — No. E86-A (8). — P. 1956;1963.
113. Rahim M., Juang B. Signal bias removal by maximum likelihood estimation for robust telephone speech recognition // IEEE Trans. Speech Audio Processing.- January 1996. No. 4. — P. 19−30.
114. Shinoda K, Watanabe T. Speaker adaptation with autonomous control using tree structure //In Proc. EUROSPEECH-95. September 1995. — P. 1143−1146.
115. Shinoda K., Watanabe T. Speaker adaptation with autonomous model complexity control by MDL principle //In Proc. ICASSP-96. May 1996. P. 717−720.
116. Shinoda K., Lee C. A structural Bayes approach to speaker adaptation // IEEE Trans. Speech Audio Process. March 2001. — No. 9. — P. 276−287.
117. Shiohan O., Myrvoll T., Lee C. Structural maximum a posteriori linear regression for fast HMM adaptation // Computer Speech and Language. -2002. No. 16(3). — P. 5−24.
118. Digalakis V., Neumcyer L. Speaker adaptation using combined transformation and Bayesian methods // IEEE Trans. Speech Audio Processing. July 1996. No. 4. P. 294−300.
119. Chicn J., Wang H., Lee C. Improved Bayesian learning of hidden Markov models for speaker adaptation //In Proc. ICASSP-97. April 1997. — P. 1027−1030.
120. Yamagishi J. Average-Voicc-Bascd Speech Synthesis // Ph.D. Thesis. March.
121. Rabiner L. A Tutorial on Hiden Markov Models and Selected Applications in Speech Recognition // Proceedings of the IEEE. 1989. — Vol. 77. — No. 2. -P. 257−286.
122. Hemptinne C. Integration of the Harmonic plus Noise Model (HNM) into the Hidden Markov Model-Based Speech Synthesis System (HTS) // Master Thesis. Switzerland. — June 2006.2006.