Методы сжатия аудиоданных,
в частности речи, с потерями основывается на двух основных факторах:
-несовершенстве человеческого слуха при восприятии звуковой информации (психоакустическая избыточность);
- высокая степень избыточности речевого сигнала, что, с одной стороны, обеспечивает его высокую помехоустойчивость, а с другой- дает возможность реализовать эффективные алгоритмы сжатия.
Психоакустическая избыточность (эффект слухового маскирования) заключается в неспособность человека в определенных случаях различать тихие звуки в присутствии более громких. Эффекты слухового маскирования зависят от спектральных и временных характеристик маскируемого и маскирующего сигналов и могут быть разделены на две группы:
-частотное (одновременное) маскирование -временное (неодновременное) маскирование.
Эффект маскирования в частотной области связан с тем, что в присутствии больших звуковых амплитуд человеческое ухо нечувствительно к малым амплитудам близких частот. Маскирование во временной области характеризует динамические свойства слуха, показывая изменение во времени относительного порога слышимости (порог слышимости одного сигнала в присутствии другого), когда маскирующий и маскируемый сигналы звучат не одновременно. При этом следует различать явления послемаскировки (изменение порога слышимости после сигнала высокого уровня) и предмаскировки (изменение порога слышимости перед приходом сигнала максимального уровня). Более слабый сигнал становится неслышимым за 5 - 20 мс до включения сигнала маскирования и становится слышимым через 50 - 200 мс после его включения.
Избыточность речевого сигнала делят на избыточность во временной области и в частотной. Избыточность во временной области возникает по причине корреляции между соседними отсчетами речевого сигнала (кратковременная корреляция), корреляцией между периодами основного тона (долговременная корреляция), наличия пауз в речевом сигнале, по причине неравномерности распределения амплитуд речевого сигнала.
Избыточность в частотной области связана с неравномерностью долговременного и кратковременного спектра мощности.Исторически выделяют два направления сжатия речевого сигнала: кодирование формы сигнала и кодирование источника сигнала. Первый метод основан на использовании статистических характеристик сигнала и практически не зависит от механизма формирования сигнала. Кодеры этого типа с самого начала обеспечивали высокое качество передачи речи (хорошую разборчивость и натуральность речи), но отличались меньшей по сравнению со вторым методом экономичностью. В методе кодирования формы сигнала используются три основных способа кодирования: импульсно-кодовая модуляция (ИКМ), дифференциальная ИКМ - ДИКМ и дельта-модуляция - ДМ. ИКМ соответствует цифровой сигнал непосредственно с выхода АЦП, в нем сохраняется вся избыточность аналогового речевого сигнала. При ДИКМ эта избыточность несколько уменьшается за счет того, что квантованию с последующим кодированием и передачей по линии связи подвергается разность между исходным речевым сигналом и его предсказанным значением, а при приеме разностный сигнал складывается с предсказанным значением, полученным по тому же алгоритму предсказания. Шкала квантования может быть равномерной, неравномерной или адаптивно изменяемой; предсказание сигнала может быть не зависящим от формы последнего или же зависеть от формы сигнала, т.е. быть адаптивным. Если при кодировании сигнала используются элементы адаптации, то соответствующую разновидность ДИКМ называют адаптивной ДИКМ - АДИКМ. ДМ - это ДИКМ с однобитовым квантованием, она также может быть адаптивной (АДМ). АДИКМ находит применение, например, в беспроводном телефоне с коэффициентом сжатия сигнала около 2.
Второй метод- кодирование источника сигнала, или кодирование параметров сигнала. Этот метод первоначально основывался на данных о механизмах речеобразования, т.е. использовал своего рода модель голосового тракта и приводил к системам типа анализ-синтез, получившим название вокодерных систем или вокодеров.
Вокодерные методы на основе линейного предсказания применяются, например, сотовой связи.Соответственно, все существующие сегодня типы речевых кодеков по принципу действия можно разделить на три группы:
-кодеки с импульсно-кодовой модуляцией (ИКМ) и адаптивной
дифференциальной импульсно-кодовой модуляцией (АДИКМ), появившиеся в конце 50-х годов и использующиеся сегодня в системах традиционной телефонии; -кодеки с вокодерным преобразованием речевого сигнала возникли в системах мобильной связи для снижения требований к пропускной способности радиотракта. Эта группа кодеков использует гармонический синтез сигнала на основании информации о его вокальных составляющих- фонемах; -комбинированные (гибридные) кодеки сочетают в себе технологию вокодерного преобразования/синтеза речи, но оперируют уже с цифровым сигналом посредством специализированных DSP. Кодеки этого типа содержат в себе ИКМ или АДИКМ кодек и реализованный цифровым способом вокодер.
Большинство речевых кодеков описано в стандарте H.323 раздела «G». Так, например, кодек G.723 осуществляет преобразование аналогового сигнала в поток данных со скоростью 64 кбит/с (ИКМ), а затем при помощи многополосного цифрового фильтра/вокодера выделяет частотные фонемы, анализирует их и передает по IP-каналу информацию только о текущем состоянии фонем в речевом сигнале. Данный алгоритм преобразования позволяет снизить скорость кодированной информации до 5,3-6,3 кбит/с без видимого ухудшения качества речи.