Помощь в учёбе, очень быстро...
Работаем вместе до победы

Разработка и исследование усовершенствованного метода компрессии звуковых данных в мультимедийных системах

ДиссертацияПомощь в написанииУзнать стоимостьмоей работы

Для достижения поставленной цели определены следующие задачи диссертации: исследование известных методов сжатия аудиоинформации — определение специфических требований к методам сжатия звуковой информации в мультимедийных системах на основе психоакустической модели слухового аппарата человекаразработка усовершенствованного алгоритма компрессии аудиоданных в мультимедийных системах в реальном… Читать ещё >

Содержание

  • Глава 1. Анализ проблем обработки и передачи звуковой информации в мультимедийных системах в реальном масштабе времени
    • 1. 1. Основные положения теории звука
    • 1. 2. Аналого-цифровое и цифро-аналоговое преобразования аудиоинформации и их особенности
    • 1. 3. Применение методов спектрального анализа для обработки звуковых сигналов
    • 1. 4. Современное состояние развития методов сжатия звуковых сигналов. Классификация методов сжатия
    • 1. 5. Методы сжатия звуковых сигналов, основанные на использовании импульсно-кодовой модуляции и ее разновидностей
    • 1. 6. Методы сжатия звуковых сигналов, основанные на использовании линейного предиктивного кодирования
    • 1. 7. Методы сжатия звуковых сигналов, основанные на использовании свойств слухового аппарата человека
    • 1. 8. Проблема повышения эффективности методов сжатия звуковой информации
  • Постановка задачи исследования
    • 1. 9. Выводы по первой главе
  • Глава 2. Разработка и исследование усовершенствованного метода сжатия звуковых сигналов
    • 2. 1. Основные определения. Теоретический анализ восприятия звуковых сигналов слуховым аппаратом человека. Количественные критерии оценки восприятия
    • 2. 2. Разработка и исследование метода сжатия аудиоданных с использованием психоакустической модели слухового аппарата человека
    • 2. 3. Результаты и
  • выводы по второй главе
  • Глава 3. Разработка аппаратно-программного метода компрессии аудиоданных в мультимедийных системах в реальном масштабе времени
    • 3. 1. Разработка алгоритма компрессии звуковых данных в мультимедийных системах
    • 3. 2. Аппаратно-программная реализация метода компрессии звуковых данных, основанного на использовании разработанного алгоритма
    • 3. 3. Результаты и
  • выводы по третьей главе
  • Глава 4. Разработка аудиокодера, реализующего предложенный метод компрессии звуковых данных
    • 4. 1. Разработка аудиокодера. '
    • 4. 2. Тестирование аудиокодера, реализующего предложенный метод компрессии звуковых данных
    • 4. 3. Выводы по четвертой главе

Разработка и исследование усовершенствованного метода компрессии звуковых данных в мультимедийных системах (реферат, курсовая, диплом, контрольная)

Стремительное развитие вычислительной техники в последнее десятилетие, в частности, существенное повышение быстродействия процессоров и увеличение емкости памяти (оперативной и дисковой) персональных ЭВМ, обусловило появление в этой области нового научно-технического направления — мультимедийных компьютерных технологий [1].

Под термином «мультимедиа» («multimedia») понимают интеграцию различных форм представления информации. Сюда относятся текст, графика, звук и видеоизображения. Совместное использование перечисленных форм представления информации способствует более адекватному ее восприятию. Создание интерактивных обучающих систем, организация компьютерных видеоконференций в реальном масштабе времени, проведение мультимедийных презентаций и др. — все это в значительной мере повышает эффективность восприятия процессов, происходящих в различных сферах человеческой деятельности, и выводит их на качественно иной уровень. Преимущества такого подхода очевидны. При использовании интерактивной обучающей системы значительно повышается степень усвоения материала, сокращаются сроки обучения, уменьшается количество преподавателей, снижаются общие затраты, необходимые для организации учебного процесса и т. д. Компьютерные видеоконференции позволяют участникам находящимся на расстоянии сотен или тысяч километров друг от друга, совместно решать различные проблемы в реальном масштабе времени. При этом не нужно тратить значительные средства на командировочные расходы, не тратится время на переезды и т. д., одним словом, экономический выигрыш очевиден. Мультимедийные презентации стали неотъемлемой частью современного бизнеса. Демонстрация партнерам и клиентам своей новой продукции, проведение рекламной кампании — без этого сегодня трудно представить инфраструктуру коммерции.

Как отмечено выше, мультимедиа включает в себя текст, графику, звук и видеоизображения. Следует отметить, что деление технологии мультимедиа на четыре компонента является условным, поскольку все компоненты тесно связаны друг с другом. В настоящей работе рассматриваются вопросы и проблемы, связанные с обработкой и передачей звука (аудиоинформации) в мультимедийных системах [2].

Обработка и передача аудиоинформации являются весьма актуальными задачами современной вычислительной техники. Человеческое ухо — очень чувствительный орган, тонко реагирующий на малейшие искажения звукового сигнала в диапазоне частот от 20 Гц до 20 кГц. Основная проблема, рассматриваемая в настоящей диссертационной работе, связана с повышением эффективности метода обработки и передачи аудиоинформации в реальном масштабе времени с наименьшими возможными искажениями звукового сигнала, функционирующего в среде операционной системы UNIX (на примере операционной системы USIX).

По своей природе звук является аналоговым сигналом. Для обеспечения возможности работы со звуком на ЭВМ звуковой сигнал необходимо преобразовать в цифровую форму. Для передачи звука по коммуникационным линиям звуковой сигнал следует подвергнуть компрессии (сжатию), так как мультимедийные файлы, содержащие аудиоинформацию, обычно отличаются большими размерами (от сотен килобайт до нескольких мегабайт), и передача их в исходном виде без обработки влечет за собой значительные накладные расходы и временные задержки. Под компрессией понимается сокращение объема цифровых данных, необходимых для представления звукового сигнала с заданным качеством. Эти два основополагающих принципа положены в основу известных методов обработки и передачи аудиоинформации [3]. Сравнительный анализ этих методов [41, 44] позволил автору настоящей работы выявить основные тенденции развития принципов обработки и передачи аудиоинформации с учетом специфики технологий мультимедиа и разработать усовершенствованный алгоритм компрессии аудиоданных.

Основной тенденцией развития современных методов обработки и передачи звука является, в первую очередь, сокращение времени доставки передаваемых аудиоданных с сервера на клиентскую рабочую станцию. Это связано с бурным развитием коммуникационных и сетевых технологий, в частности, с развитием международной информационной сети 1п1егпе1, и передачей больших объемов звуковой информации. Для обеспечения возможности передачи в реальном масштабе времени постоянно растущего объема аудиоинформации при сохранении высокого уровня качества звукового сигнала возможны два пути (или их комбинация). Очевидное решение задачи сокращения времени доставки аудиоинформации пользователю связано с повышением скорости передачи данных. Однако вследствие ограниченной пропускной способности используемых в настоящее время коммуникационных каналов (особенно в нашей стране) повышение скорости передаваемого звукового потока может быть достигнуто лишь путем перехода на качественно новую телекоммуникационную инфраструктуру, что, в свою очередь, потребует значительных материальных и трудовых затрат. Другим возможным путем сокращения времени передачи аудиоинформации является ее предварительное сжатие, что позволяет при неизменном объеме звуковых данных сохранить скорость их передачи, а в ряде случаев существенно ее снизить и тем самым использовать существующую телекоммуникационную инфраструктуру.

Наряду с задачей сокращения скорости потока аудиоданных важное значение имеет и обеспечение высокого уровня качества передаваемого звукового сигнала. В данном случае приходится идти на определенный компромисс между скоростью передачи и качеством сигнала, поскольку уменьшение скорости передачи данных (увеличение коэффициента компрессии) неизбежно ведет к ухудшению качества.

Успешное решение этих задач стало возможным благодаря разработке методов обработки и передачи аудиоданных, учитывающих специфические требования мультимедийных систем. Этим объясняется актуальность данной работы.

Целью настоящей диссертационной работы является обеспечение возможности обработки и передачи аудиоинформации в мультимедийных системах в реальном масштабе времени с наименьшими возможными искажениями звукового сигнала при сохранении качества звука, близкого к качеству записи и воспроизведения звука на компакт-диске (CD-quality).

Для достижения поставленной цели определены следующие задачи диссертации: исследование известных методов сжатия аудиоинформации — определение специфических требований к методам сжатия звуковой информации в мультимедийных системах на основе психоакустической модели слухового аппарата человекаразработка усовершенствованного алгоритма компрессии аудиоданных в мультимедийных системах в реальном масштабе времениобоснование структуры аппаратных средств, необходимых для реализации разработанного алгоритмаразработка программного обеспечения, реализующего предложенный алгоритм компрессии аудиоданных в среде операционной системы UNIX (на примере операционной системы USIX) — экспериментальное исследование работоспособности разработанных аппаратно-программных средств реализующих предложенный метод компрессии аудиоданных.

В основе исследований, выполненных в диссертационной работе, лежит психоакустическая модель слухового аппарата человека [4]. Разработка и реализация предложенного алгоритма сжатия аудиоданных основаны на использовании математических методов цифровой обработки сигналов (быстрое преобразование Фурье), методов кодирования данных с преобразованием (преобразование Карунена-Лоэва), а также традиционных методов сжатия дискретной информации (метод кодирования Хаффмана).

Научная новизна настоящей диссертационной работы заключается в следующем :

1) разработан усовершенствованный алгоритм компрессии звуковых данных в мультимедийных системах в реальном масштабе времени, обеспечивающий увеличение коэффициента сжатия информации на 25 — 30% по сравнению с известными алгоритмами;

2) обоснована возможность применения эффективного перестановочного алгоритма Нуссбаумера-Квенделла, реализующего быстрое преобразование Фурье, для представления звуковых сигналов в частотной области;

3) обоснована целесообразность использования преобразования Карунена-Лоэва, позволяющего значительно уменьшить необходимое количество обрабатываемых отсчетов для сокращения размерности вектора цифровых отсчетов звукового сигнала ;

4) разработана модифицированная версия психоакустической модели слухового аппарата человека, предполагающая разбиение всего слышимого диапазона частот на 25 поддиапазонов, в каждом из которых осуществляется отдельная обработка звуковых сигналов, что уменьшает возникающие временные задержки и повышает точность обработки;

5) предложен алгоритм расчета характеристик маскирующих звуковых сигналов ;

6) разработан алгоритм расчета параметров звуковых сигналов в психоакустической модели ;

Практическая ценность рассматриваемой диссертационной работы заключается в реальной возможности эффективного использования предложенного метода сжатия аудиоинформации для обработки и передачи звуковых сигналов в мультимедийных системах включающих существующую телекоммуникационную инфраструктуру-каналы передачи данных, линии связи, телефонную сеть общего пользования, аналоговые модемы стандарта V.90 со скоростью передачи данных 56 кбит/с. При этом нет необходимости в использовании дорогостоящих высокоскоростных линий связи (например, цифровых линий ISDN), а также кабельных или радиомодемов. Кроме того, отсутствуют повышенные требования к аппаратной части клиентских рабочих станций.

Теоретические и экспериментальные результаты диссертационной работы получены на кафедре «Управляющие вычислительные машины» МГИРЭА (ТУ), а также в Институте электронных управляющих машин (ИНЭУМ) в ходе выполнения ОКР «Программное окружение операционной системы USIX» в рамках Федеральной целевой программы «Реструктуризация и конверсия оборонной промышленности (1996 — 2000 гг.)».

Комплекс программных средств, обеспечивающих реализацию предложенного метода компрессии аудиоданных, в виде пакета и необходимых библиотек включен в состав коммерческой версии операционной системы USIX и может быть портирован в среды других UNIX-подобных систем.

По теме диссертации опубликовано 6 печатных работ [40 -45]. Основные результаты исследований были доложены на Второй Международной конференции «Моделирование интеллектуальных процессов проектирования и производства», проходившей в период с 10 по 12 ноября 1998 г. в г. Минске (Беларусь), а также на XLVIII научно-технической конференции, проходившей в период с 10 по 17 мая 1999 г. в МГИРЭА (ТУ). Работа осуществлялась в ходе выполнения ОКР «Программное окружение операционной системы и БIX» в рамках Федеральной целевой программы «Реструктуризация и конверсия оборонной промышленности (1996 — 2000 гг.)».

В первой главе рассмотрены основные методы сжатия звуковой информации и проведен их сравнительный анализ. Особое внимание было уделено методам компрессии аудиоданных, основанных на психоакустических принципах восприятия звука слуховым аппаратом человека. Выделены основные проблемы, возникающие при разработке рассмотренных методов сжатия. Проанализированы способы возможного усовершенствования существующих методов компрессии аудиоданных с точки зрения их применения к задачам исследования данной диссертации.

Во второй главе проведен концептуальный анализ предложенного усовершенствованного метода компрессии звуковых данных. Предложена модифицированная психоакустическая модель функционирования слухового аппарата человека, предполагающая разбиение всего слышимого диапазона частот (20 Гц — 20 кГц) на 25 поддиапапзонов и обработку звуковых сигналов отдельно в каждом поддиапазоне, что повышает точность обработки и сокращает возникающие временные задержки. Показана целесообразность применения перестановочного алгоритма Нуссбаумера-Квенделла для реализации быстрого преобразования Фурье, а также обоснована возможность применения преобразования Карунена-Лоэва для более компактного представления вектора обрабатываемых звуковых отсчетов. Предложен алгоритм расчета характеристик маскирующих звуковых сигналов, являющийся основополагающим элементом психоакустической модели. Предложен алгоритм квантования коэффициентов, обеспечивающий возможность дополнительного сжатия исходного аудиопотока. Рассмотрены и принципиально обоснованы преимущества предложенного автором метода сжатия аудиоданных по сравнению с рассмотренными выше методами.

В третьей главе описана программно-аппаратная реализация предложенного метода компрессии звуковых данных. Сформулированы требования к аппаратной части — цифровому процессору сигналов (DSP). Определена последовательность действий на каждом этапе предложенного во второй главе алгоритма функционирования аудиокодера, реализующего рассмотренный метод сжатия аудиоданных. Разработано программное обеспечение, реализующее предложенный метод компрессии в среде операционной системы UNIX.

Четвертая глава диссертационной работы посвящена экспериментальному подтверждению теоретических выводов. Разработан аудикодер, реализующий предложенный метод компрессии аудиоданных, и проведено его тестирование. Описана программная среда — операционная система USIX —, в рамках которой осуществлена разработка ПО, реализующего предложенный метод сжатия.

В заключении сформулированы основные результаты работы.

4.3. Выводы по четвертой главе.

1) Разработан аудиокодер, реализующий предложенный усовершенствованный метод компрессии звуковых данных и подтверждающий полученные теоретические выводы.

2) Описана программная среда — операционная система Ш1Х в рамках которой осуществлена разработка программного обеспечения для реализации предложенного метода сжатия аудиоданных.

3) Проведено тестирование предложенного метода компрессии.

4) Экспериментально показана возможность сокращения скорости потоков звуковых данных при использовании предложенного метода компрессии аудиоданных на 25 -30% процентов по сравнению с известными методами.

5) Показана тем самым принципиальная возможность использования обычных телефонных линий общего пользования (ТфоП) и модемов стандарта У.90 (скорость передачи данных 56 кбит/с) для передачи звуковых данных в реальном масштабе времени в случае применения предложенного метода компрессии.

Заключение

.

В процессе исследования по теме диссертационной работы получены следующие научные и практические результаты.

1) На основе анализа доступных литературных источников выявлены необходимые и достаточные условия передачи аудиоинформации в мультимедийных системах, функционирующих в реальном масштабе времени.

2) Проведен сопоставительный анализ известных методов компрессии аудиоинформации, подтверждающий необходимость дальнейшего снижения скорости передачи звуковых данных при использовании современной телекоммуникационной инфраструктуры.

3) Предложен усовершенствованный метод компрессии аудиоданных, основанный на использовании модифицированной психоакустической модели слухового аппарата человека.

4) Разработан алгоритм реализации предложенного метода компрессии аудиоданных, использующий математический аппарат цифровой обработки сигналов (быстрое преобразование Фурье, модифицированное дискретное косинус-преобразование, преобразование Карунена-Лоэва и ДР-).

5) Определены требования к аппаратной части аудиокодера, реализующего предложенный метод компрессии аудиоданных.

6) Разработано программное обеспечение, обеспечивающее реализацию предложенного метода компрессии аудиоданных в среде операционной системы UNIX (USIX).

7) Разработан и испытан аудиокодер, подтверждающий возможность реализации предложенного метода компрессии аудиоданных.

8) Показана практическая возможность снижения скорости потока звуковых данных на 25 — 30% в результате применения предложенного метода компрессии аудиоданных и, тем самым, возможность использования в мультимедийных системах, работающих в реальном масштабе времени, существующей телекоммуникационной инфраструктуры.

Показать весь текст

Список литературы

  1. В.П. Популярная энциклопедия мультимедиа. М.: ABF, 1996. с. 416.
  2. Мультимедиа: Под редакцией Петренко А. И. К.: BHV, 1994.-272 с.
  3. СиманенковД. Компрессия звуковых данных. Компьютерра. 1998, N32(260).
  4. М.А. Электроакустика. Учебник для вузов. М.: «Связь», 1978. 272 с.
  5. М.П. Звуковоспроизводящие устройства. М.: «Высшая школа», 1989. 191 с.
  6. Т. Мультимедиа. Пер. с англ. Мн.: ООО «Попурри», 1997.-507 с.
  7. И.Н., Семендяев К. А. Справочник по математике для инженеров и учащихся втузов. М.: «Наука», 1986.-544 с.
  8. Ф.Е., Афонин В. А., Дмитриев В. И. Теоретические основы информационной техники : Учеб. пособие для вузов. М.: «Энергия», 1979. 512 с.
  9. В.А. Форматы цифровой звукозаписи. С.-П.: ЗАО «Элби», 1998.-264 с.
  10. Д. Из аналога в цифру и обратно : немного теории. Компьютерра. 1998, N 31 (259).
  11. В. Цифровые фильтры и их применение. М.: «Наука», 1983. 368 с.
  12. Н.Д., Нефедов В. И. Дискретные и цифровые сигналы и их обработка : Учеб. пособие. М.: МГИРЭА (ТУ), 1997. 48 с.
  13. Марпл C. J1. Цифровой спектральный анализ и его приложения. Пер. с англ. М.: «Мир», 1990. — 584 с.
  14. БлейхутР. Быстрые алгоритмы цифровой обработки сигналов. Пер. с англ. М.: «Мир», 1989. — 448 с.
  15. Yen Pan D. Digital Audio Compression. Digital Technical Journal. Vol. 5 No.2, Spring 1993.
  16. О.И. Модемы. Справочник пользователя. С.-П.: «Лань», 1997. — 368 с.
  17. ITU G711. Blue Book Fasc. III.4: published June 1990.
  18. ITU G726. 40, 32, 24, 16 kbit/s adaptive differential pulse code modulation (ADPCM).
  19. Harma, Laine U., Kaijalainen M. An Experimental Audio Codec Based on Warped Linear Prediction of Complex Valued Signals, Proc. of the ICASSP 1997, pp. 323−326.
  20. ITU G728. Published December 1992. Coding of speech at 16 kbit/s using low-delay codeexcited linear prediction.
  21. ITU G723. Published March 1995. Coding of speech using Multipulse Maximum Likelihood Quantization.
  22. Rabiner L., Schafer R. Digital Processing of Speech Signals. Englewood Cliffs, NJ: Prentice-Hall, 1978.
  23. Hellman R. Assymetry of Masking Between Noise and Tone. Percep. And Psychphys., pp. 241−246, vol. 11, 1972.
  24. Zwickler E., Fasti H. Psychoacoustics Facts and Models, SpringerVerlag, 1990.
  25. Zwickler E., Zwickler U. Audio Engineering and Psychoacoustics: Matching Signals to the Final Receiver, the Human Auditory System. J. Audio Eng. Soc., pp. 115−126, Mar. 1991.
  26. Jayant N., et al. «Signal Compression Based on Models of Human Perception.» Proc. IEEE, pp. 1385−1422, Oct. 1993.
  27. Scliroeder M., et al. «Optimizing Digital Speech Coders by Exploiting Masking Properties of the Human Ear.» J. Acoust. Soc. Am., pp. 16 471 652, Dec. 1979.
  28. D.D. «Critical Bandwidth and the Frequency Coordinates of the Basilar Membrane» J. Acous. Soc. Am., pp. 1344−1356, Oct. 1961.
  29. ISO/IEC International Standard IS 11 172−3 «Information Technology -Coding of Moving Pictures and Associated Audio for Digital Storage Media at up to about 1.5 Mbits/s Part 3 — Audio».
  30. K., Stoll G. «The ISO/MPEG Audio Codec: A Generic Standard for Coding of High Quality Digital Audio», 92nd AES-Convention, preprint 3336, Vienna 1992.
  31. Pan D. A Tutorial on MPEG/Audio Compression. IEEE Multimedia Journal, Summer 1995 issue.
  32. Rault J.B., et al., «MUSICAM (ISO/MPEG Audio) Very Low BitRate Coding at Reduced Sampling Frequency.» In Proc. 95th Conv. Aud. Eng. Soc., preprint #3741, Oct. 1993.
  33. ISO/IEC JTC1/SC29/WG11 MPEG, IS 13 818−3 «Information Technology Generic Coding of Moving Pictures and Associated Audio, Part 3: Audio» 1994. («MPEG-2»).
  34. Bosi M. et al, ISO/IEC MPEG-2 Advanced Audio Coding, Journal of the Audio Engineering Society, No. 10, Oct 1997, pp. 789−813.
  35. ISO/IEC JTC1/SC29/WGI1 MPEG94/443, «Requirements for Low Bitrate Audio Coding/MPEG-4 Audio.», 1994. («MPEG-4»).
  36. United States Advanced Television Systems Committee (ATSC), Audio Specialist Group (T3/S7) Doc. A/52, «Digital Audio Compression Standard (AC-3), «Nov. 1994.
  37. Todd C., et al., «AC-3. Flexible Perceptual Coding for Audio Transmission and Storage, «in Proc. 96th Conv. Aud. Eng. Soc., preprint #3796, Feb. 1996.
  38. Davis Mark F. «The AC-3 Multichannel Coder, «in Proc. 95th Conv. Aud. Eng. Soc., Oct. 1993.
  39. Г. А., Крашовац И. Ю. Некоторые тенденции развития аудио- и видеотехнологий мультимедиа. «Информационные технологии и вычислительные системы», N 4, 1997, с. 107 — 112.
  40. Г. А., Крашовац И. Ю. Стандарты мультмедиа в области аудиоинформации. «Вопросы радиоэлектроники», Серия «Электронная вычислительная техника», Выпуск 1, 1999, с. 32 -38.
  41. Прохоров H. JL, Крашовац И. Ю. Системное программное обеспечение ЭВМ. Операционная система UNIX: Методические указания по выполнению практических занятий. М.: МГИРЭА (ТУ), 1998.
  42. H.JI., Крашовац И. Ю. Системное программное обеспечение ЭВМ. Использование графического интерфейса X Window System в ОС UNIX: Методические указания по выполнению практических занятий. М.: МГИРЭА (ТУ), 1999.
  43. И.Ю. Некоторые методы компрессии звуковых сигналов в мультимедийных системах. // В сб. научн. тр.: Информационные технологии и системы. М.: БиоИнформСервис, 1999. — С. 97 — 107.
  44. И.Ю. О методах сжатия аудиосигналов с использованием психоакустических особенностей слухового аппарата человека. «Вопросы радиоэлектроники». Серия «Электронная вычислительная техника» (в печати).
  45. В.И., Санников В. Г., Свириденко В. А. Сжатие данных в системах сбора и передачи информации. Под ред. В. А. Свириденко. М.: «Радио и связь», 1985. — 184 с.
  46. ADSP-21065L User’s Guide. Analog Devices, Inc.
Заполнить форму текущей работой