Помощь в учёбе, очень быстро...
Работаем вместе до победы

Предварительная обработка речевых сигналов для системы распознавания речи

РефератПомощь в написанииУзнать стоимостьмоей работы

Чем меньше перекрытие, тем меньшей размерностью в итоге будет обладать вектор свойств, характерный для рассматриваемого участка. Перекрытие иногда пропускается по причине экономии вычислительных ресурсов, поскольку он существенно замедляет скорость обработки данных. Обычно выбирается длина сегментов, соответствующая временному интервалу в 20−30мс. Создание естественных для человека средств… Читать ещё >

Предварительная обработка речевых сигналов для системы распознавания речи (реферат, курсовая, диплом, контрольная)

Создание естественных для человека средств общения с компьютером является в настоящее время важнейшей задачей современной науки, при этом речевой ввод информации осуществляется наиболее удобным для пользователя способом. Распознавание речи является задачей классификации образов акустических характеристик речевых сигналов.

Подсистема предварительной обработки речевых сигналов Предварительная обработка речевого сигнала включает в себя следующие этапы:

процесс ввода речевого сигнала;

выделение границы речевого сигнала;

цифровая фильтрация;

нарезка речевого сигнала перекрывающимися кадрами;

обработка сигнала в окне;

спектральное преобразование;

нормирование частотного спектра.

Рассмотрим подробно этапы.

Процесс ввода речевого сигнала.

Ввод звука осуществляется в реальном времени через звуковую карту или через файлы формата WAV в кодировке PCM. Частота дискретизации 8 КГц и квантование 16 бит являются типовыми параметрами в системах передачи, хранения и обработки речевой информации. Работа с файлами была предусмотрена, чтобы облегчить многократное повторение обработки нейронной сети, что особенно важно при обучении.

Выделение границы речевого сигнала.

Для вычленения из входного сигнала участков, содержащих только речь, используются следующие характеристики речевого сигнала:

кратковременная энергия речевого сигнала;

число нулей интенсивности (мгновенная частота);

плотность распределения значения отчетов паузы.

Кратковременная энергия звукового сигнала и число нулей интенсивности одновременно используются для выделения речи из входного сигнала. Кроме того, можно удалить паузу из выходного сигнала методом на основе нормального (гауссова) распределения.

Цифровая фильтрация.

Вместе с полезным сигналом обычно попадают различные шумы. Шум оказывает отрицательное воздействие на качество работы систем распознавания речи, поэтому с ним приходится бороться. Для снижения уровня шума в подсистеме применяются два типа цифрового фильтра:

пропускающий полосовой фильтр;

предварительный фильтр.

Пропускающий полосовой фильтр можно представить себе в виде комбинации фильтра нижних и верхних частот. Такой фильтр задерживает все частоты, ниже так называемой нижней частоты пропускания, а также выше верхней частоты пропускания.

Предварительная фильтрация представляется для снижения влияния локальных искажений на характерные признаки, которые в дальнейшем будут использоваться для распознавания. Для спектрального выравнивания речевого сигнала его следует пропустить через взвешивающий низкочастотный фильтр.

Нарезка речевого сигнала перекрывающимися кадрами.

Для того чтобы получить векторы признаков одинаковой длины, нужно нарезать речевой сигнал на равные части, а затем выполнять преобразования внутри каждого кадра. Перекрытие используется для предотвращения потери информации о сигнале на границе.

Чем меньше перекрытие, тем меньшей размерностью в итоге будет обладать вектор свойств, характерный для рассматриваемого участка. Перекрытие иногда пропускается по причине экономии вычислительных ресурсов, поскольку он существенно замедляет скорость обработки данных. Обычно выбирается длина сегментов, соответствующая временному интервалу в 20−30мс.

Обработка сигнала в окне.

Обработка сигнала в окне представляется для снижения граничных эффектов, возникающих в результате сегментации. Для подавления нежелательных граничных эффектов принято умножать сигнал на оконную функцию. Существует 4 типа оконных функций:

прямоугольное окно;

окно Ханна;

окно Хемминга;

окно Блэкмана.

В качестве функции использовано окно Хэмминга.

Спектральное преобразование Информации об амплитуде и форме огибающей речевого сигнала не достаточно для выделения из речи лексических элементов. В зависимости от различных обстоятельств форма огибающей речевого сигнала может меняться в широких пределах. Для решения задачи распознавания необходимо выделить первичные признаки речи, которые будут использованы на последующих этапах процесса распознавания. Первичные признаки выделяются посредством анализа спектральных характеристик речевого сигнала. Для получения частотного спектра речевого сигнала используется быстрое преобразование Фурье (БПФ). БПФ представляется для получения амплитудного спектра и информации о фазе сигнала (в реальных и мнимых коэффициентах). Информация о фазе сигнала отбрасывается и вычисляются амплитудные спектры. При этом чаще используется логарифм этого значения.

Предварительная обработка речевых сигналов для системы распознавания речи.

Гдеамплитудный спектр i-ой частоты,.

  • -реальный коэффициент,
  • -мнимый коэффициент,

N — размер БПФ,.

— размер информативной части спектра.

Так как звуковые данные не содержат мнимой части, то по свойству БПФ результат получается симметричным, т. е. Таким образом, размер информативной части спектра NS равен N/2.

Нормирование частотного спектра Все вычисления в нейронных сетях производятся над числами с плавающей точкой. Поэтому значения параметров объектов, классифицируемых с помощью нейронных сетей, ограничены диапазоном [0.0, 1.0]. Для выполнения обработки спектра нейронной сетью полученный спектр нормируется на 1.0. Для этого каждый компонент вектора делится на его максимальный компонент.

Показать весь текст
Заполнить форму текущей работой