- 相關推薦
音頻壓縮的成功者-感知編碼
音頻壓縮的成功者——感知編碼
2004年中南地區省級電視臺技術年會論文二等獎近年來,隨著現代通信的發展,數字化日益滲透人們的日常生活,人們對各種多媒體業務的需求日益增長,我們正享受著數字化帶來的方便和快捷,衛星電視、數字電視、各種數碼音樂產品正改變著我們的生活。于是便要求得到更多更好的音頻產品和服務。數字聲音作為一種存儲、處理和傳輸高保真聲音的方法,在消費電子、專業聲音等眾多領域已得到廣泛應用。但是如果沒有通用有效的高質量音頻編解碼方案,數字存儲和傳輸技術的進一步發展將會受到嚴重的束縛。在音頻數字壓縮技術中,當前比較成功的編碼方式被稱為“感知型編碼( Perceptual Coding )”,現在比較常用的 MP3 、 MD 等都是感知編碼原理。
一般來說,數據壓縮有兩種方法。一種方法是利用信號的統計性質,完全不丟失信息的高效率編碼法,稱為平均信息量編碼或熵編碼。第二種方法是利用接收信號的人的感覺特性,省略不必要的信息,壓縮信息量,這種方法稱為感覺編碼。
因為熵編碼可通過解碼完全再現編碼前的數據,故應用范圍廣泛 ,例如可用于磁盤壓縮、文件壓縮等,在保存信息方面,完全不用擔心劣化。不過遺憾的是,僅依靠熵編碼不能將音頻信號進行大幅度的數據壓縮。這是因為在音頻信號中會有白噪聲信號,這種完全隨機的信號,根據信息論是決不能用熵編碼進行壓縮的。因此在音頻壓縮中,必須同時采用感知編碼 。
感知編碼是利用人耳聽覺的心理聲學特性(頻譜掩蔽特性和時間掩蔽特性)、人耳對信號幅度、頻率、時間的有限分辨能力,凡是人耳感覺不到的成分不編碼,不傳送,即凡是對人耳辨別聲音信號的強度、音調、方位有貢獻的部分(稱為不相關部分或無關部分)都不編碼和傳送。對感覺到的部分進行編碼時,允許有較大的量化失真、并使其處于聽閾以下,人耳仍然感覺不到。簡單的說感知編碼是建立在人類聽覺系統的心理聲學原理為基礎,只記錄那些能被人的聽覺所感知的聲音信號,從而達到減少數據量而又不降低音質的目的。
目前音頻壓縮編碼已成為標準的是 MPEG-1 ( ISO/IEC11172-3 )、 MPEG-2 ( ISO/IEC13818-3 )和美國大聯盟的 AC-3 。他們都是感知編碼。
一、為什么壓縮
了解數字音頻首先要提到 脈沖編碼調制 PCM ( Pulse Code Modulation ),它 是概念上最簡單、理論上最完善的編碼系統,是最早研制成功、使用最為廣泛的編碼系統,但也是數據量最大的編碼系統。 PCM 指模擬音頻信號只經過采樣、量化、編碼,模數轉換成 PCM 信號,得到標準的數字音頻碼流,而未經過任何編碼和壓縮處理。
根據奈奎斯特采樣定律,通常其采樣頻率至少應當是信號中的最高頻率分量的兩倍。對于高質量的音頻信號,其頻率范圍是從 20Hz ~ 20kHz 。所以其采樣頻率必須在 40kHz 以上。在 CD 中采用了 44.1kHz 的采樣頻率。普通 CD 線性 PCM 的取樣頻率為 44.1kHz ,量化精度為 16bit ,動態范圍為 98db 。(在對模擬信號采樣以后,還必須對其幅度上加以分層。在 CD 中,其分層以后的幅度信號用 16 bit 的二進制信號來表示,也就是把模擬的音頻信號在幅度上分為 65536 ( 2 16 )層。這樣,它的動態范圍就可以達到 96 分貝( 6 分貝 / 比特)。)
PCM 的編碼原理比較直觀和簡單,它的原理框圖如圖所示。
在這個編碼框圖中,它的輸入是模擬聲音信號,它的輸出是 PCM 樣本。圖中的“防失真濾波器”是一個低通濾波器,用來濾除聲音頻帶以外的信號;“波形編碼器”可暫時理解為“采樣器”,“量化器”可理解為“量化階大小 (step-size) ”生成器或者稱為“量化間隔”生成器。
那么這種未經壓縮的 PCM 信號的數據量具體有多大呢?以 CD 音質的信號為例,它的單通道的采樣率是 44.1k Hz ,每個樣值是 16bit 的量化,而立體聲 CD 音質信號,有兩個通道,它每秒的碼流是 44.1K × 16 × 2 ≈ 1.4Mbit/s 。(數字信號傳輸率 = 取樣頻率 × 量化比特 × 通道數)一張 CD 唱片的容量約為 680MB ,可以容納約 1 小時的雙聲道 PCM 數字音頻節目,由于這種編碼方式所產生的數據量太大,存儲和傳輸都既不方便也不經濟,有時甚至是行不通的。對于電視廣播來說,數據傳輸速率越高,每套節目所需的頻寬就越大,在頻帶資源日趨緊張的今天,過寬的頻帶是不能允許的,同時對于有形載體(激光碟、磁帶等),每種載體的記錄密度都是有限的(受當時技術發展程度的制約),增大數據量就意味著縮短節目長度。因此需要開發一種新的編碼方式,它應該使用較少的數據量,而又不會導致音質的主觀聽感有明顯的下降。
二、 感知編碼原理
1 、理論基礎——聞域和臨界頻段
音頻壓縮理論是建立在心理聲學模型基礎上,從研究人耳的聽感系統開始的。
人耳實際上可看成一個多頻段的聽感分析器,在接收端的最后,它對瞬間的頻譜功率進行了重新分配,這就為音頻的數據壓縮提供了依據。
眾所周知,聲源振動的能量通過聲波傳入人耳,使耳膜發生振動,人們就產生了聲音的感覺。但是人耳能聽到的振動頻率約在 20 Hz 到 20KHz 之間,低于 20 Hz 或高于 20K Hz 的振動,不能引起人類聽覺器官的感覺。心理聲學模型中一個基本的概念就是聽覺系統中存在一個聽覺閾值電平,低于這個電平的聲音信號就聽不到,因此就可以把這部分信號去掉。聽覺閾值的大小隨聲音頻率的改變而改變,各個人的聽覺閾值也不同。大多數人的聽覺系統對 2kHz ~ 5kHz 之間的聲音最敏感。一個人是否能聽到聲音取決于聲音的頻率,以及聲音的幅度是否高于這種頻率下的聽覺閾值。 這就是說在聽覺閾值以外的電平可以去掉,相當于壓縮了數據。另外, 聽覺閾值電平是自適應的,即聽覺閾值電平會隨聽到的不同頻率的聲音而發生變化。也許你有這樣的體驗,在一安靜房間里的普通談話可以聽得很清楚,但在播放搖滾樂的環境下同樣的普通談話就聽不清楚了。聲音壓縮算法也同樣可以確立這種特性的模型來取消更多的冗余數據。
【音頻壓縮的成功者-感知編碼】相關文章:
視音頻素材的編碼轉換03-19
視頻壓縮編碼的差錯復原技術03-21
用于壓縮感知的無線傳感網測量矩陣設計方法01-06
多相編碼脈沖壓縮信號及其旁瓣抑制性能研究03-07
Tunstall編碼與自適應編碼算法03-07
淺析音頻失真11-27
工程音頻電纜論文03-18
Video Object編碼技術01-07
藍牙技術在音頻網關中的應用01-07