Перцепционное кодирование подразумевает способ преобразования потока данных, при котором кодированию подвергается только та часть общей информации, которую способен воспринять слуховой анализатор человека. Часть информации, которая не может быть воспринята, устраняется из потока данных. Другая часть информации, параметры которой могут восприниматься только частично, кодируется более грубо, с использованием меньшего числа информационных разрядов. Таким образом, перцепционное кодирование подразумевает невосполнимую утрату значительной части исходной информации, за счет чего и достигается эффект сжатия. Поэтому данные методы относят к методам сжатия с потерями, в отличие от методов сжатия без потерь.
Вейвлетное преобразование, получившее значительное распространение в области прикладной' математики, находит новые области применения. Аналогия между быстрым алгоритмом диадного дискретного вейвлетного преобразования и квадратурно-зеркальной фильтрацией сигнала делает это преобразование эффективным* инструментом в задачах субполосного кодирования сигналов, к которым могут быть отнесены вопросы сжатия звука с потерями.
Для сокращения времени передачи данных по сетям связи, а также для увеличения полезной емкости носителей данных применяются различные методы сжатия информации. Актуальность эффективного использования и оптимизации методов сжатия постоянно возрастает в связи с увеличением объемов данных, передаваемых по каналам связи. Важное значение имеют экономические факторы. Использование информационного сжатияпозволяет передать звук с высоким или приемлемым. качеством, используя узкую полосу частот. Это, в свою очередь, делает возможным сокращение стоимости аренды спутникового канала, уменьшение диаметров передающей и приемной антенн и т. д.
В рамках целевой правительственной программы по внедрению в Российской Федерации цифрового телеи радиовещания решается ряд задач, в том числе, связанных с эффективным сжатием мультимедиа. К этим задачам относится и рассматриваемая в данной работе проблема, что определяет тем самым актуальность поставленной темы.
Цель и задачи исследования
Цель диссертационной работы состоит в исследовании возможности использования вейвлетного базиса в качестве частотно-временного преобразования в перцепционном кодировании звука Поставленная цель достигается решением следующих задач:
1) анализ существующих и перспективных алгоритмов перцепционного сжатия звука.
2) разработка психоакустической модели слуха в вейвлетном пространстве.
3) разработка эффективного алгоритма сжатия звуковых данных.
4) экспериментальное апробирование результатов теоретических исследований.
Методы исследования. При решении поставленных задач применялись методы теории приближения функций, методы теории вычислений, методы психоакустики, методы статистической обработки результатов эксперимента.
Научная новизна работы.
1) показана возможность вычисления психоакустической модели непосредственно в вейвлетном пространстве.
2) проведена адаптация метода оптимизации вейвлетов к задаче улучшения частотной селективности фильтров Добеши.
3) разработан алгоритм перцепционного кодирования звука, использующий вейвлетное преобразование.
4) разработан формат кадра файла сжатых данных.
Практическая значимость работы. Решение поставленных задач позволяет провести разработку кодека на основе вейвлетного преобразования.
Личный вклад автора состоит в следующем:
— разработка вейвлетных базисов с оптимизированной частотной селективностью.
— разработка и отладка экспериментальной модели аудиокодека.
— обоснование эффективности использования психоакустической модели в пространстве вейвлетов.
— проведение экспериментов исследования.
Защищаемые положения.
1. Принцип расчета психоакустической модели сигнала в вейвлетном пространстве, состоящий в вычислении суммарной энергии коэффициентов уровней вейвлетного разложения с их последующей нормировкой и расчетом индивидуальных и глобального порогов маскирования.
2. Метод кодирования сигнала, заключающийся в переквантовании коэффициентов пакетного вейвлетного преобразования исходного звукового сигнала на основании данных, полученных из психоакустической модели.
3. Способ организации структуры кадра в файле, содержащем сжатые звуковые данные.
Структура и объем диссертации
Диссертация состоит из введения, четырех глав с выводами по каждой из них, заключения, списка литературы и приложения.
Выводы.
В третьей главе были рассмотрены основные принципы, лежащие в основе любого перцепционного алгоритма кодированиязвукового сигнала. Был дан сравнительный анализ существующих психоакустических моделей.
Для решения' поставленных задач, в первую очередь, необходимо было определить, какие из рассмотренных принципов могут быть заимствованы и адаптированы для вейвлетного кодирования звуковых сигналов. Было принято и обосновано решение использовать, маскирующую функцию (3.4), вследствие удобства применения ее к вычислению глобального^ порога маскирования. Для дальнейших исследований рекомендуется рассматривать чирплеты.
В качестве функции, моделирующей пост-маскировку, была выбрана (3.7). Глобальный порог маскирования определяется при помощи выражения (3.37).
Вторым важным положением, рассмотренным в третьей главе, является реализация психоакустическоймодели в вейвлетном пространстве, без вычисления быстрого преобразования Фурье. Вейвлетное преобразование и преобразование Фурье- - оба являются спектральными, тем' не менее, существуют некоторые принципиальные отличия, о которых шла речь в первой главе. Вычисление глобального порога маскирования в частотном пространстве с последующим переносом в пространство вейвлетов требует дополнительных операций для адаптации к контролю квантования вейвлетных коэффициентов. В отличие от такого подхода, непосредственное вычисление глобального порога маскирования по значениям вейвлетных коэффициентов существенно упрощает процесс кодирования.
4 ЭКСПЕРИМЕНТАЛЬНОЕ ИССЛЕДОВАНИЕ МОДЕЛИ ВЕЙВЛЕТНОГО КОДЕКА.
В предыдущей главе нами были изложены необходимые теоретические принципы, на которых базируется концепция перцепционного кодека, использующего вейвлетное сжатие звуковой информации. Настоящая глава, являясь заключительной, несет в себе практическую часть, а именно* основные положения, связанные с реализацией описываемого экспериментального кодека, использующего пакетное дискретное вейвлетное преобразование (ПДВП).
4.1 Алгоритм перцепционного вейвлетного кодирования.
В качестве системы компьютерного моделирования для создания и отладки модели кодека применялся Matlab версии 7.6.0. В пользу выбора этой системы сказалось наличие встроенного инструментария функций для работы с вейвлетами Wavelet Toolbox, позволяющего в значительной мере упростить работу по реализации быстрого алгоритма вейвлетного преобразования и проектирования новых вейвлетных базисов.
По материалам предыдущей главы был разработан алгоритм перцепционного сжатия звука на основе предложенной там же вейвлетной психоакустической модели. Блок-схема экспериментального кодера представлена на рисунке 4.1.
В соответствии с представленной блок-схемой в экспериментальном кодере можно выделить следующие основные части: блок частотно-временного преобразования, в качествекоторого используется ПДВП, блок расчета психоакустической модели, блок перераспределения битов и переквантования коэффициентов преобразования, блок формирования выходного потока.
Входной сигнал.
Выходной сигнал.
Рисунок 4.1 — Структурная схема экспериментального вейвлетного кодера.
В блоке частотно-временного преобразования реализуется анализ сигнала с помощью ПДВП на основе быстрого алгоритма Малла. На выходе указанного блока сигнал оказывается разделенным на 28 субполос различной ширины. Алгоритм позволяет задать тип вейвлетной функции, используемой для синтеза и анализа сигнала.
В разработанном алгоритме можно использовать ортогональные или биортогональные вейвлеты, встроенные в Matlab Wavelet Toolbox, или вейвлеты, которые могут быть добавлены пользователем. Структура дерева вейвлетной декомпозиции, соответствует предложенной в главе 3, является фиксированной и не может быть изменена в ходе выполнения алгоритма. Структура дерева описана в отдельном файле, что упрощает ее последующую модификацию в случае появления такой необходимости. Адаптация структуры к свойствам сигнала в данной модели не предусматривается.
Полученные на выходе блока частотно-временного преобразования значения коэффициентов ПДВП подлежат переквантованию согласно результатам психоакустического расчета, выполняемого на основе оценки этих же значений. Для этого вычисляются суммарные значения энергии коэффициентов в каждой частотной полосе, то есть энергии отдельных уровней декомпозиции, и, далее, на основе этих значений, определяются индивидуальные и глобальный пороги маскирования. Текущие значения глобального порога маскирования передаются в буфер, необходимый для вычисления порога маскирования во временной области, так как при этом следует сравнить значение порога маскирования в текущем кадре со значениями в предыдущих.
При создании алгоритма было принято положение о том, что ниже частоты 2.5 кГц (примерно 15-ой субполосы) маскеры в полосах фильтров имеют тональную форму, а выше этого порога — шумовую [66]. Это позволяет избежать трудностей, связанных с определением степени тональности сигнала в /-ой полосе. Оценка гладкости спектра [24] является эффективной в том случае, если имеется огибающая спектра сигнала, однако в нашем случае из-за недостаточного разрешения' по частоте использование этой оценки не оправдано.
Для коэффициентов вейвлетного преобразования в каждой частотной полосе необходимо определить соответствующий масштабирующий коэффициент (scalefactor). Процедура масштабирования в том или ином виде применяется практически во всех перцепционных кодеках и смысл ее заключается в следующем. Когда определяется спектр широкополосного ИКМ-сигнала, то общий динамический диапазон этого сигнала оценивается по самой большой спектральной составляющей (по самому громкому звуку). В то же время, подавляющее большинство других компонент спектра имеет очень незначительный уровень. Если производить квантование всех спектральных компонент, ориентируясь на максимальную, то спектральные компоненты меньшего уровня будут содержать высокий уровень шумов квантования.
Причем, чем меньше компонента, тем больше в ней будет шумов. Поэтому при делении спектра на субполосы появляется возможность избавиться от такого чрезмерного зашумления спектральных компонент. Для этого наибольшую по величине компоненту данного поддиапазона (которая, скорее всего, не является наибольшей в общем спектре) выделяют и придают ей максимально возможное значение, умножая на некоторый множитель. Все остальные компоненты этого поддиапазона также умножаются на ту же самую величину, которая и определяет коэффициент масштабирования. Таким образом, все спектральные составляющие усиливаются пропорционально друг другу и, каким бы числом разрядов они затем не квантовались, шум квантования в любом случае получится гораздо меньшим, чем если бы они сохранили свое истинное значение. Другими словами, коэффициент масштабирования характеризует степень уменьшения шумов квантования в данном диапазоне [9].
Итак, в результате описываемых операций, для каждой полосы определяется абсолютное максимальное значение вектора коэффициентов преобразования? и из, специальной таблицы, в которой хранятся значения коэффициентов масштабирования, выбирается' следующий больший. Его код (позиция в этой таблице) будет передан в заголовке кадра.
В> результате психоакустического расчета имеется вектор значений глобального порога маскирования, в котором г-ый элемент соответствует значению порога маскирования в т-ой субполосе. При расчете дискретных значений порога маскирования для каждого последующего кадра учитываются значения порогов предыдущих кадров, что необходимо для контроля временной маскировки. На основании данных, полученных с помощью психоакустического анализа коэффициентов вейвлетного преобразования реализуется-процедура перераспределения битов.
В зависимости от числа битов, выделенных кодером для данного кадра, происходит их распределение между 28 частотными полосами. Как указывалось в третьей главе, существует ряд стратегий для эффективного распределения битов между полосами. В нашей работе была выбрана стратегия, учитывающая особенности разложения сигнала с помощью набора фильтров с различной шириной полос пропускания. При ПДВП размер векторов вейвлетных коэффициентов, соответствующих выходам квадратурно-зеркальных фильтров для заданного дерева, варьируется в диапазоне от L/4 для последних (ВЧ) полос до L/256 для первых восьми полос в нижней части звукового диапазона.
В результате такой декомпозиции на выходах первых восьми фильтров после децимации остается всего 2 коэффициента для кадра длиной 512 отсчетов (11.6 мс при частоте дискретизации входного сигнала 44 100 Гц) или 4 коэффициента для кадра длиной 1024 отсчета (23.2 мс при той же частоте дискретизации). Итого, для 8 полос получается 16 коэффициентов преобразования в первом случае и 32 — во втором. Общее количество этих коэффициентов составляет около 3% от общего числа коэффициентов в кадре. Исходя из этой оценки, в силу малого числа указанных коэффициентов-и их существенной’значимости, было принято решение не сокращать их разрядность при переквантовании. С движением в сторону ВЧ на выходах фильтров число коэффициентов начинает возрастать. Учитывая эту тенденцию, обусловленную выбранной структурой дерева, предлагается увеличивать диапазон шагов квантования по направлению к началу дерева.
При реализации процедуры распределения битов, в первую очередь биты выделяются для тех полос, в которых значения суммарной энергии максимальны. В случае, если на ту или иную полосу не было отведено ни единого бита, ее значения не будут переданы и в декодере будут восстановлены в виде нулевого вектора вейвлетных коэффициентов соответствующей длины.
Настоящая версия модели кодека использует постоянный битрейт (CBR, constant bit rate), таким образом, для кодирования каждого кадра может быть использовано только определенное количество битов. Более рациональным ' является использования 4 переменногобитрейта (VBR, variable bit rate), однако, для упрощенияалгоритма перераспределения битов' и в целом структуры кодера выбор был сделан в пользу постоянного битрейта. ¦г.
После того как процедура перераспределения битов оказывается завершенной, происходит переквантование значений вейвлетных коэффициентов в каждой полосе. В кодеке используется неравномерный шаг квантования с р.=¾.
4.2 Способ организации структуры кадра данных.
Полученные переквантованные значения вейвлетных коэффициентов объединяются в поток, вместе со служебными данныминеобходимыми для правильного декодирования сигнала. К служебным данным относятся биты синхронизации, свидетельствующие о начале нового кадра, сведения о количестве распределенных битов по ¦ полосам, номера ячеек таблицы масштабирующих коэффициентов и< прочая информация:
Длясокращения скорости передачи— данных значение /-го масштабирующего коэффициента передается-только если распределение битов для ¿—ой полосы отлично от, нуля. Еслив'- результатепроцедуры перераспределения битов на г-ю полосу не было выделено ни единого бита, код ее масштабирующего" коэффициента не будет передан. Аналогичным образом происходит формирование потока сжатых данных ISO/IEC MPEG-1 Layer 3.
На этапе проектирования структуры потока' сжатых данных следует остановиться на специфических для вейвлетного кодера! полях. В связи с многообразием вейвлетных базисов и задачей точного восстановления сигнала, логичен вывод о необходимости передачи тем или иным способом информации об использованной при кодировании вейвлетной функции. Как следует из первой главы, вейвлетная функция полностью" определяет связанную с ней масштабирующую функцию •" и коэффициенты пары соответствующих квадратурно-зеркальных фильтров. Одним из вариантов решения является строгаяпривязка типа вейвлетного базиса к соответствующему номеру таблицы. Передавать такую информацию, можно через несколько кадров, определяя тем самым общий базис для них. Здесь возникает вопрос адаптации вейвлетного базиса к свойствам сигнала. Принятое решение позволит передавать код найденного оптимального базиса для конкретного кадра или серии кадров. Отрицательным моментом при этом будет являться увеличение времени до воспроизведения, так как для правильного декодирования потребуется обнаружить тот кадр, в котором хранится информация о базисе.
При анализе возможности адаптации базиса и дерева к свойствам сигнала в кадре следует так же учитывать, что согласно- [8], при использовании диадного вейвлет-пакетного разложения, существует не менее, чем 2ып и не более, чем 25/у/8 различных деревьев для дискретных сигналов длиной N.
То есть, для' заданной длины кадра N = 1024 отсчета максимально возможное число деревьев составит 2640. Это значение показывает, что передавать непосредственно код адаптивно выбранного дерева не представляется' возможным. Тем не менее, видится решение в виде фиксированного набора деревьев и вейвлетных базисов.
В случае с последними, теоретически возможна передача отсчетов импульсной характеристики одного из квадратурно-зеркальных фильтров. Это позволило бы конструировать базисы, адаптивные к свойствам сигнала и передавать информацию о них с целью последующего декодирования. Однако, точность, необходимая при задании импульсных характеристик вейвлетных фильтров для выполнения условия идеальной реконструкции, требует значительного количества битов. Так, для фильтра длиной 12 отсчетов при 32-битном формате отсчетов потребуется 12−32 = 384 бита, что составляет 2.3% от размера кадра длиной 1024 отсчета, не считая другой служебной информации.
Обобщая, приведенные выше рассуждения, приходим к выводу о том, что в качестве служебной информации для восстановления одного кадра в зависимости от выбранного метода кодированиядолжны быть переданы значения распределениябитов по полосам, массив указателей на таблицу с масштабирующими коэффициентами, код использованного при анализе вейвлета и код дерева разложения. Последние два при отсутствии необходимости и/или постоянстве базиса и дерева могут передаваться только изредка, например, раз в установленное число кадров.
В процессе формирования выходных данных, по аналогии с КОЛЕС MPEG 1 Layer 1 & 2, поток разбивается на независимые друг от друга кадры. В результате анализа существующих структур кадров, а также исходя из необходимости передачи ряда специфических данных, требующихся для восстановления сигнала из массива вейвлетных коэффициентов, был предложен формат кадра данных, представленный в таблице 4.1.
Заголовок кадра начинается с 12 битов синхронизации (все биты установлены). Далее следует поле из 3 битов, отведенное под номер версии. Предполагается, что 8 возможных вариантов должно быть достаточно. Если установлен бит CRC (Cyclic Redundancy Code — циклический избыточный код), то для проверки правильности информации используется цифровая идентификация данных, основанная на вычислении, контрольного значения циклического избыточногокода. Bf этом случае, 16-разрядное контрольное значение следует непосредственно за окончанием заголовка кадра.
В следующем за CRC поле кодируется значение выбранного битрейта. Для данной модели предлагается использовать таблицы битрейтов MPEG. Биты на позициях 20 и 21 отводятся под выбор частоты дискретизации. Бит пэддинга указывает на наличие нулевого заполнения для текущего кадра. Следующие 2 бита определяют режимстерео и, наконец, последние 7 битов заголовка относятся к кодированию выбранного вейвлета.
Работа над моделью кодека, а также исследование ряда известных приложений, использующих вейвлетное преобразование, показало, что список вейвлетов, активно использующихся для кодирования сигналов, не является большим. К ним могут быть отнесены вейвлеты Добеши средних порядков, симлеты, а так же ряд биортогональных вейвлетов.
Следует обратить внимание на формат 1РЕС-2000 [40]- в котором для кодирования изображений стандартизовано использование всего лишь двух биортогональных вейвлетов. Исходя из этой логики, часть битов может быть использована для кодирования структуры декомпозиции сигнала в кадре или дополнительных, резервных режимов работы кодека.
ЗАКЛЮЧЕНИЕ
.
По результатам диссертационной работы и связанных с ней экспериментальных исследований необходимо отметить следующие положения:
1) В результате проведенных исследований была показана возможность расчета психоакустической модели в вейвлетном пространстве, базирующегося на вычислении суммарной энергии коэффициентов уровней вейвлетного разложения с их последующей нормировкой и расчетом индивидуальных и глобального порогов маскирования. Это положение было подтверждено экспериментально.
2) В ходе работы был реализован метод перцепционного кодирования сигнала, заключающийся в переквантовании коэффициентов пакетного вейвлетного преобразования исходного звукового сигнала на основании данных, полученных из психоакустической модели. Для экспериментальной оценки эффективности сжатия при использовании указанного метода была разработана модель вейвлетного перцепционного кодека.
3) В реализованной модели экспериментального вейвлетного кодека был предложен оригинальный способ распределения битов, учитывающий различия в длине векторов вейвлетных коэффициентов на выходах фильтров, соответствующих различным уровням вейвлетной декомпозиции. Для рационального распределения битов и минимизации искажений предложено увеличивать среднее количество разрядов по направлению к нижней части дерева анализа/синтеза.
4) В ходе работы над экспериментальной моделью кодека был разработан способ организации структуры кадрав файле, содержащем сжатые при помощи описываемой модели звуковые данные. В предложенной структуре кадра учитывается использование вейвлетного базиса, структуры вейвлетной декомпозиции и особенностей переквантования коэффициентов различных уровней вейвлетной декомпозиции звукового сигнала.
5) Для исследования эффективности разработанного алгоритмаперцепционного кодирования была проведена экспертная оценка качества сжатого материала с использованием статистической обработки результатов эксперимента.
Основные рекомендации для дальнейшей работы*.
В диссертационной' работебыла обоснована эффективность использования" вейвлетных преобразованийв- задачах субполосного кодирования звука. Темне менее, остаетсяоткрытым рядвопросов, среди которых в первую очередь, следует выделить задачу нахождения оптимального базиса. Средивсего многообразиявейвлетных функций требуется обнаружить множество таких, которые: бы показали: наибольшуюэффективность при кодировании различных звуковых данных.
Следует учесть превосходство гармонических базисовпри кодированиисигналов, близких к тональным. Для решения этой проблемы. требуется либо нахождение вейвлетного базиса, способного к эффективному представлению гармонических сигналов, либоиспользование обоих базисов с алгоритмом выбора базиса в зависимости от свойств сигнала.
Использование диадных типов деревьев ограничивает возможность дальнейшей аппроксимации-распределения слуховых полос по ширине. Здесь, в первую очередь, требуется анализщелесообразности-дальнейшего приближения-и при положительных результатах — применение М-полосного вейвлетного преобразования;
За рамками диссертации остались адаптивные свойства пакетных вейвлетов. Возможна адаптация структуры дерева к свойствам сигнала в кадре. Одной из обозримых практических проблем при этом является вопрос кодирования выбранной структуры.
Описываемая в диссертации структура кадра данных может претерпевать существенные изменения в зависимости от дальнейшего направления работы. Напрямую от оценки множества эффективных для кодирования базисов зависит количество битов, отведенных для их кодирования.
Реализация и внедрение результатов исследований.
Результаты диссертационной работы были использованы:
— на предприятии НПФ «Супертел Дале» при проведении НИР по разработке головной станции цифрового кабельного телевидения в рамках целевой программы по цифровому телевидению и радиовещанию;
— на предприятии НПФ «Технощит» при проведении НИР по системам волоконно-оптической связи.
Практическая значимость.
Решение поставленных задач позволяет провести разработку звукового кодека на основе пакетного вейвлетного преобразования.
Апробация работы.
По результатам диссертации сделаны доклады на Международном симпозиуме по проблемам применения алгоритмов искусственного интеллекта А1-МЕТН2007 (г. Гливице, Польша, 2007) [70], 7-ой международной научно-технической конференции «Цифровые и информационные технологии в электронной медиаиндустрии — 2009» (г. Санкт-Петербург, 2009) [18] и 12-й Международной конференции «Цифровая обработка сигналов и ее применение — 2010» (г. Москва, 2010) [19].
Связь с научными программами и темами.
Исследования по основным разделам диссертационной работы проводились в рамках НИОКР № 07−06/2−1138: «Разработка оборудования и технологий цифрового фильмопроизводства и кинопоказа» (номер гос. регистрации 01.2.007 8 694) и НИР № 607-ФР «Создание диагностического комплекса» (номер гос. регистрации 0120.0 800 779).
Публикации.
Основные положения диссертации опубликованы в 12 работах, среди которых 3 статьи [16], [20], [69] и тезисы 9 докладов [11], [12], [13], [14], [15], [17], [18], [19], [70].