小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

音頻基礎(chǔ)知識-CSDN博客

 SocFans 2024-12-17

前言

本節(jié)對音頻相關(guān)知識進(jìn)行了詳細(xì)的介紹及講解。


一、音頻基本概念

1、音頻的基本概念

①、聲音的三要素

聲音的三要素:頻率、振幅、波形

  • 頻率:聲波的頻率,即聲音的音調(diào),人類聽覺的頻率(音調(diào)) 范圍為 20Hz—20KHz
  • 振幅:即聲波的響度,通俗的講就是聲音的高低,一般男生的聲音振幅(響度) 大于女生。
  • 波形:波形決定了其所代表聲音的音色。音色不同是因為它們的介質(zhì)所產(chǎn)生的波形不同

②、音量與音調(diào)

在這里插入圖片描述
聲音的本質(zhì)(音調(diào)、音量、音色

  • 音調(diào):頻率
  • 音量:振幅
  • 音色:與材質(zhì)有關(guān),諧波(不規(guī)則的正弦波)

③、幾個基本概念

  • 比特率:表示經(jīng)過編碼(壓縮)后的音頻數(shù)據(jù)每秒鐘需要用多少個比特來表示,單位常為 kbps。
  • 響度和強(qiáng)度:聲音的主觀屬性響度表示的是一個聲音聽來有多響的程度。響度主要隨聲音的強(qiáng)度而變化,但也受頻率的影響??偟恼f,中頻純音聽來比低頻和高頻純音響一些。
  • 采樣和采樣率:采樣是把連續(xù)的時間信號,變成離散的數(shù)字信號。采樣率是指每秒鐘采集多少個樣本。

④、奈奎斯特采樣定律

Nyquist 采樣率大于或等于連續(xù)信號最高頻率分量的 2 倍時,采樣信號可以用來完美重構(gòu)原始連續(xù)信號。

2、數(shù)字音頻

①、采樣

所謂的采樣就是只在時間軸上對信號進(jìn)行數(shù)字化。根據(jù)奈奎斯特定律(也稱作采樣定律) ,按照比聲音最高頻率的 2 倍以上進(jìn)行采樣。

人類聽覺的頻率(音調(diào)) 范圍為 20Hz–20KHz。所以至少要大于 40KHz。

采樣頻率一般為 44.1kHz,這樣可保證聲音達(dá)到 20kHz 也能被數(shù)字化。

44.1kHz 就是代表 1 秒會采樣 44100 次。

②、量化

具體每個采樣又該如何表示呢?這就涉及到量化。量化是指在幅度軸上對信號進(jìn)行數(shù)字化。如果用 16 比特位的二進(jìn)制信號來表示一個采樣,那么一個采樣所表示的范圍即為 [-32768, 32767] 。

下圖為音頻量化過程:
在這里插入圖片描述

③、編碼

每一個量化都是一個采樣,將這么多采樣進(jìn)行存儲就叫做編碼。

所謂編碼,就是按照一定的格式記錄采樣和量化后的數(shù)字?jǐn)?shù)據(jù),比如順序存儲或者壓縮存儲,等等。

通常所說的音頻裸數(shù)據(jù)格式就是脈沖編碼調(diào)制(PCM)數(shù)據(jù)。

描述一段 PCM 數(shù)據(jù)通常需要以下幾個概念:量化格式(位深, 通常 16bit) 、采樣率、聲道數(shù)

對于聲音格式,還有一個概念用來描述它的大小,即比特率,即 1 秒內(nèi)的比特數(shù)目,用來衡量音頻數(shù)據(jù)單位時間內(nèi)的容量大小。

④、其他相關(guān)概念

<1>、采樣位數(shù)

采樣位數(shù)也叫采樣大小或者量化位數(shù)。量化深度表示每個采樣點(diǎn)用多少比特表示,音頻的量化深度一般為 8、16、32 位等。

例如:量化深度為 8bit 時,每個采樣點(diǎn)可以表示 256 個不同的量化值,而量化深度為 16bit 時,每個采樣點(diǎn)可以表示 65536 個不同的量化值。

量化深度的大小影響到聲音的質(zhì)量,顯然,位數(shù)越多,量化后的波形越接近原始波形,聲音的質(zhì)量越高,而需要的存儲空間也越多;位數(shù)越少,聲音的質(zhì)量越低,需要的存儲空間越少。

CD 音質(zhì)采用的是 16 bits。

<2>、通道數(shù)

即聲音的通道數(shù)目, 常見的有單聲道雙聲道或者立體聲道。

  • 單聲道的聲音只能使用一個揚(yáng)聲器發(fā)聲,或者也可以處理成兩個揚(yáng)聲器輸出同一個聲道的聲音,當(dāng)通過兩個揚(yáng)聲器回放單聲道信息的時候,我們可以明顯感覺到聲音是從兩個音箱中間傳遞到我們耳朵里的,無法判斷聲源的具體位置。
  • 雙聲道就是有兩個聲音通道,其原理是人們聽到聲音時可以根據(jù)左耳和右耳對聲音相位差來判斷聲源的具體位置。聲音在錄制過程中被分配到兩個獨(dú)立的聲道,從而達(dá)到了很好的聲音定位效果。

記錄聲音時,如果每次生成一個聲波數(shù)據(jù),稱為單聲道;每次生成兩個聲波數(shù)據(jù),稱為雙聲道(立體聲)。立體聲(雙聲道)存儲大小是單聲道文件的兩倍。

<3>、音頻幀

音頻跟視頻不太一樣,視頻的每一幀就是一副圖像,但是因為音頻是流式的,本身是沒有一幀的概念的。

比如對于 PCM 流來說,采樣率為 44100Hz,采樣位數(shù)為 16,通道數(shù)為 2,那么一秒的音頻固定大小的:44100162 / 8 字節(jié)。

但是人們可以規(guī)定一幀的概念,比如 amr 幀比較簡單,它規(guī)定每 20ms 的音頻是一幀。

<4>、比特率(碼率)

指音頻每秒鐘播放的數(shù)據(jù)量,單位為 bit,例如對于 PCM 流,采樣率為 44100Hz,采樣大小為 16,聲道數(shù)為 2,那么碼率為:44100* 16 * 2 = 1411200 bps。

<5>、音頻文件大小的計算:

文件大小 = 采樣率 * 錄音時間 * 采樣位數(shù) / 8 * 通道數(shù)。

<6>、PCM 流

PCM 流就是原始收錄聲音時,數(shù)據(jù)會保存到一串 buffer 中,這串 buffer,就采用了 PCM 格式存儲的。

通常把音頻采樣過程也叫做脈沖編碼調(diào)制編碼,即 PCM(Pulse Code Modulation) 編碼,采樣值也叫 PCM 值

編碼過程:模擬信號 -> 抽樣 -> 量化 -> 編碼 -> 數(shù)字信號

3、音頻處理基礎(chǔ)

①、噪聲抑制(Noise Suppression)

手機(jī)等設(shè)備采集的原始聲音往往包含了背景噪聲,影響聽眾的主觀體驗,降低音頻壓縮效率。以 Google 著名的開源框架 Webrtc 為例,我們對其中的噪聲抑制算法進(jìn)行嚴(yán)謹(jǐn)?shù)臏y試,發(fā)現(xiàn)該算法可以對白噪聲和有色噪聲進(jìn)行良好的抑制。滿足視頻或者語音通話的要求。其他常見的噪聲抑制算法如開源項目 Speex 包含的噪聲抑制算法,也有較好的效果,該算法適用范圍較 Webrtc 的噪聲抑制算法更加廣泛,可以在任意采樣率下使用。

②、回聲消除(Acoustic Echo Canceller)

在視頻或者音頻通話過程中,本地的聲音傳輸?shù)綄Χ瞬シ胖?,聲音會被對端的麥克風(fēng)采集,混合著對端人聲一起傳輸?shù)奖镜夭シ?,這樣本地播放的聲音包含了本地原來采集的聲音,造成主觀感覺聽到了自己的回聲。

③、自動增益控制(Auto Gain Control)

手機(jī)等設(shè)備采集的音頻數(shù)據(jù)往往有時候響度偏高,有時候響度偏低,造成聲音忽大忽小,影響聽眾的主觀感受。
自動增益控制算法根據(jù)預(yù)先配置的參數(shù)對輸入聲音進(jìn)行正向/負(fù)向調(diào)節(jié),使得輸出的聲音適宜人耳的主觀感受。

④、靜音檢測(Voice Activity Detection)

靜音檢測的基本原理:計算音頻的功率譜密度,如果功率譜密度小于閾值則認(rèn)為是靜音,否則認(rèn)為是聲音。靜音檢測廣泛應(yīng)用于音頻編碼、AGC、AECM 等。

⑤、舒適噪聲產(chǎn)生(Comfortable Noise Generation)

舒適噪聲產(chǎn)生的基本原理:根據(jù)噪聲的功率譜密度,人為構(gòu)造噪聲。

廣泛適用于音頻編解碼器。

它的應(yīng)用場景:完全靜音時,為了創(chuàng)造舒適的通話體驗,在音頻后處理階段添加隨機(jī)白噪聲。

4、音頻使用場景

在現(xiàn)實生活中,音頻(audio)主要用在兩大場景中:語音(voice)和音樂(music)。

音頻開發(fā)的主要應(yīng)用:

  • 音頻播放器
  • 錄音機(jī)
  • 語音電話
  • 音視頻監(jiān)控應(yīng)用
  • 音視頻直播應(yīng)用
  • 音頻編輯/處理軟件(ktv 音效、 變聲, 鈴聲轉(zhuǎn)換)
  • 藍(lán)牙耳機(jī)/音箱

音頻開發(fā)的具體內(nèi)容:

  • 音頻采集/播放;
  • 音頻算法處理(去噪、VAD 檢測、回聲消除、音效處理、功放/增強(qiáng)、混音/分離, 等等);
  • 音頻的編解碼和格式轉(zhuǎn)換;
  • 音頻傳輸協(xié)議的開發(fā)(SIP, A2DP、 AVRCP, 等等);

5、常見音頻格式

  • WAV :壓縮率低
  • MIDI(Musical Instrument Digital Interface):又稱作樂器數(shù)字接口, 是數(shù)字音樂/電子合成樂器的統(tǒng)一國際標(biāo)準(zhǔn)
  • MP3(MPEG-1 Audio Layer 3):MP3 能夠以高音質(zhì)、低采樣率對數(shù)字音頻文件進(jìn)行壓縮。應(yīng)用最普遍
  • MP3Pro:MP3Pro 可以在基本不改變文件大小的情況下改善原先的 MP3 音樂音質(zhì)。它能夠在用較低的比特率壓縮音頻文件的情況下,最大程度地保持壓縮前的音質(zhì)。
  • WMA (Windows Media Audio):WMA 格式是以減少數(shù)據(jù)流量但保持音質(zhì)的方法來達(dá)到更高的壓縮率目的, 其壓縮率一般可以達(dá)到 1:18
  • RealAudio:最大的特點(diǎn)就是可以實時傳輸音頻信息,尤其是在網(wǎng)速較慢的情況下,仍然可以較為流暢地傳送數(shù)據(jù),因此 RealAudio 主要適用于網(wǎng)絡(luò)上的在線播放
  • Audible:擁有四種不同的格式: Audible1、2、3、4。格式 1、2 和 3采用不同級別的語音壓縮,而格式 4 采用更低的采樣率和 MP3 相同的解碼方式,所得到語音吐辭更清楚,而且可以更有效地從網(wǎng)上進(jìn)行下載
  • AAC:高級音頻編碼的縮寫,AAC 的音頻算法在壓縮能力上遠(yuǎn)遠(yuǎn)超過了以前的一些壓縮算法(比如 MP3 等)。它還同時支持多達(dá) 48 個音軌、15 個低頻音軌、更多種采樣率和比特率、多種語言的兼容能力、更高的解碼效率。 總之,AAC 可以在比 MP3 文件縮小 30% 的前提下提供更好的音質(zhì)。
  • Ogg Vorbis:它是完全免費(fèi) 、開放和沒有專利限制的,同樣位速率(Bit Rate)編碼的 OGG 與 MP3 相比聽起來更好一些
  • APE:是一種無損壓縮音頻格式,在音質(zhì)不降低的前提下,大小壓縮到傳統(tǒng)無損格式WAV 文件的一半
  • FLAC(Free Lossless Audio Codec):是一套著名的自由音頻無損壓縮編碼,其特點(diǎn)是無損壓縮。

6、混音技術(shù)

混音, 顧名思義,就是把兩路或者多路音頻流混合在一起,形成一路音頻流。
混流,則是指音視頻流的混合,也就是視頻畫面和聲音的對齊,也稱混流。

①、混音條件

兩路音視頻流,必須符合以下條件才能混合:

  • 格式相同, 要解壓成 PCM 格式。
  • 采樣率相同,要轉(zhuǎn)換成相同的采樣率。主流采樣率包括:16kHz、32kHz、44.1kHz 和 48kHz。
  • 幀長相同,幀長由編碼格式?jīng)Q定,PCM 沒有幀長的概念,開發(fā)者自行決定幀長。為了和主流音頻編碼格式的幀長保持一致,推薦采用 20ms 為幀長。
  • 位深(Bit-Depth)或采樣格式 (Sample Format) 相同,承載每個采樣點(diǎn)數(shù)據(jù)的 bit 數(shù)目要相同。
  • 聲道數(shù)相同,必須同樣是單聲道或者雙聲道 (立體聲)。 這樣,把格式、 采樣率、 幀長、位深和聲道數(shù)對齊了以后,兩個音頻流就可以混合了。

②、回聲消除、噪音抑制和靜音檢測等處理

在混音之前,還需要做回聲消除、噪音抑制和靜音檢測等處理。在編碼之前,采集、語音前處理、混音之前的處理、混音和混音之后的處理應(yīng)該按順序進(jìn)行。

③、音頻重采樣

重采樣即是將音頻進(jìn)行重新采樣得到新的采樣率的音頻。

重采樣的原因
音頻系統(tǒng)中可能存在多個音軌,而每個音軌的原始采樣率可能是不一致的。
比如在播放音樂的過程中,來了一個提示音,就需要把音樂和提示音都混合到 codec 輸出,音樂的原始采樣率和提示音的原始采樣率可能是不一致的。
問題來了,如果 codec 的采樣率設(shè)置為音樂的原始采樣率的話,那么提示音就會失真。
因此最簡單見效的解決方法是:codec 的采樣率固定一個值(44.1KHz/48KHz) ,所有音軌都重采樣到這個采樣率,然后才送到 codec,保證所有音軌聽起來都不失真。

④、回聲消除

回聲消除就是在 Mic 采集到聲音之后,將本地音箱播放出來的聲音從 Mic 采集的聲音數(shù)據(jù)中消除掉,使得 Mic 錄制的聲音只有本地用戶說話的聲音。

傳統(tǒng)的回聲消除都是采用硬件方式,在硬件電路上集成 DSP 處理芯片,如我們常用的固定電話、手機(jī)等都有專門的回音消除處理電路,而采用軟件方式實現(xiàn)回聲消除一直存在技術(shù)難點(diǎn),包括國內(nèi)應(yīng)用最廣泛的 QQ 超級語音,便是采用國外的 GIPS 技術(shù),由此可見一般。

回聲消除已經(jīng)成為即時通訊中提供全雙工語音的標(biāo)準(zhǔn)方法

回聲消除的基本原理是以揚(yáng)聲器信號與由它產(chǎn)生的多路徑回聲的相關(guān)性為基礎(chǔ),建立遠(yuǎn)端信號的語音模型,利用它對回聲進(jìn)行估計,并不斷修改濾波器的系數(shù),使得估計值更加逼近真實的回聲。然后,將回聲估計值從話筒的輸入信號中減去,從而達(dá)到消除回聲的目的。

二、音頻編碼原理

1、音頻編碼

①、壓縮編碼

壓縮編碼,其原理是壓縮掉冗余的信號,冗余信號是指不能被人耳感知到的信號,包括人耳聽覺范圍之外的音頻信號以及被掩蔽掉的音頻信號。

模擬音頻信號轉(zhuǎn)換為數(shù)字信號需要經(jīng)過采樣量化,量化的過程被稱之為編碼,根據(jù)不同的量化策略,產(chǎn)生了許多不同的編碼方式,常見的編碼方式有:PCMADPCM,這些數(shù)據(jù)代表著無損的原始數(shù)字音頻信號,添加一些文件頭信息,就可以存儲為 WAV 文件了,它是一種由微軟和 IBM 聯(lián)合開發(fā)的用于音頻數(shù)字存儲的標(biāo)準(zhǔn), 可以很容易地被解析和播放。

②、音頻編解碼常用的三種實現(xiàn)方案

  • 采用專用的音頻芯片對語音信號進(jìn)行采集和處理,音頻編解碼算法集成在硬件內(nèi)部,如 MP3 編解碼芯片、語音合成分析芯片等。 使用這種方案的優(yōu)點(diǎn)就是處理速度塊,設(shè)計周期短;缺點(diǎn)是局限性比較大,不靈活,難以進(jìn)行系統(tǒng)升級。
  • 是利用 A/D 采集卡加上計算機(jī)組成硬件平臺,音頻編解碼算法由計算機(jī)上的軟件來實現(xiàn)。使用這種方案的優(yōu)點(diǎn)是價格便宜, 開發(fā)靈活并且利于系統(tǒng)的升級;缺點(diǎn)是處理速度較慢,開發(fā)難度較大。
  • 使用高精度、高速度的 A/D 采集芯片來完成語音信號的采集,使用可編程的數(shù)據(jù)處理能力強(qiáng)的芯片來實現(xiàn)語音信號處理的算法,然后用 ARM 進(jìn)行控制。采用這種方案的優(yōu)點(diǎn)是系統(tǒng)升級能力強(qiáng),可以兼容多種音頻壓縮格式甚至未來的音頻壓縮格式,系統(tǒng)成本較低;缺點(diǎn)是開發(fā)難度較大,設(shè)計者需要移植音頻的解碼算法到相應(yīng)的 ARM 芯片中去

③、音頻信號壓縮編碼標(biāo)準(zhǔn)

  • ITU/CCITT 的 G 系列:G.711 、G.721 、G.722 、G.723 、G.728 、G.729;
  • MPEG 系列的:MPEG-l ,MPEG-2 ,MPEG-4 ,MPEG-7 中的音頻編碼;
  • DOLBY( 杜比 ) 實驗室的 AC 系列: AC-1 , AC-2 , AC-3 等。

④、音頻編碼過程

<1>、音頻信號數(shù)字化

連續(xù)的模擬信號轉(zhuǎn)換成離散的數(shù)字信號,完成采樣、量化和編碼三個步驟。又稱為脈沖編碼調(diào)制(Pulse Code Modulation) ,通常由 A/D 轉(zhuǎn)換器來實現(xiàn)。
在這里插入圖片描述
Nyquist 采樣定律:采樣率大于或等于連續(xù)信號最高頻率分量的 2 倍時,采樣信號可以用來完美重構(gòu)原始連續(xù)信號。
三要素:采樣頻率、量化位數(shù)、聲道數(shù)

<2>、音頻編碼三類方法
  • 波形編碼是盡量保持輸入波形不變,即重建的語音信號基本上與原始語音信號波形相同,壓縮比較低;
  • 參數(shù)編碼是要求重建的信號聽起來與輸入語音一樣,但其波形可以不同,它是以語音信號所產(chǎn)生的數(shù)學(xué)模型為基礎(chǔ)的一種編碼方法,壓縮比較高;
  • 混合編碼是綜合了波形編碼的高質(zhì)量潛力和參數(shù)編碼的高壓縮效率的混合編碼的方法,這類方法也是目前低碼率編碼的方向。

⑤、音頻壓縮

<1>、音頻信號能壓縮的基本依據(jù)
  • 聲音信號中存在大量的冗余度;
  • 人的聽覺具有強(qiáng)音能抑制同時存在的弱音現(xiàn)象。
<2>、音頻信號壓縮編碼的分類
  • 無損壓縮(熵編碼):霍夫曼編碼、算術(shù)編碼、行程編碼
  • 有損壓縮
    • 波形編碼–PCM、DPCM、ADPCM 、子帶編碼、矢量量化
    • 參數(shù)編碼–LPC
    • 混合編碼–MPLPC、CELP

2、音頻編碼的基本原理講解

①、概述

語音編碼致力于:降低傳輸所需要的信道帶寬, 同時保持輸入語音的高質(zhì)量。
語音編碼的目標(biāo)在于:設(shè)計低復(fù)雜度的編碼器以盡可能低的比特率實現(xiàn)高品質(zhì)數(shù)據(jù)傳輸。

②、靜音閾值曲線

指在安靜環(huán)境下,人耳在各個頻率能聽到聲音的閾值。
在這里插入圖片描述

③、臨界頻帶

由于人耳對不同頻率的解析度不同,MPEG1/Audio 將 22khz 內(nèi)可感知的頻率范圍,依不同編碼層,不同取樣頻率,劃分成 23~26 個臨界頻帶。

下圖列出理想臨界頻帶的中心頻率與頻寬。圖中可看到,人耳對低頻的解析度較好。
在這里插入圖片描述

④、頻域上的掩蔽效應(yīng)

幅值較大的信號會掩蔽頻率相近的幅值較小的信號,如下圖:
在這里插入圖片描述

⑤、時域上的遮蔽效應(yīng)

在一個很短的時間內(nèi),若出現(xiàn)了 2 個聲音,SPL(sound pressure level) 較大的聲音會掩蔽 SPL 較小的聲音。

時域掩蔽效應(yīng)分前向掩蔽(pre-masking)后向掩蔽(post-masking),其中 post-masking的時間會比較長,約是 pre-masking 的 10 倍。

時域遮蔽效應(yīng)有助于消除前回音。
在這里插入圖片描述

3、音頻編碼基本手段

①、編碼基本手段之一 —— 量化和量化器

<1>、基本概念
  • 量化和量化器:量化是把離散時間上的連續(xù)信號,轉(zhuǎn)化成離散時間上的離散信號。
  • 常見的量化器有:均勻量化器,對數(shù)量化器,非均勻量化器。
  • 量化過程追求的目標(biāo)是:最小化量化誤差,并盡量減低量化器的復(fù)雜度(這 2 者本身就是一個矛盾)
<2>、常見的量化器的優(yōu)缺點(diǎn)
  • 均勻量化器:最簡單,性能最差,僅適應(yīng)于電話語音。
  • 對數(shù)量化器:比均勻量化器復(fù)雜,也容易實現(xiàn),性能比均勻量化器好。
  • 非均勻(Non-uniform)量化器:根據(jù)信號的分布情況,來設(shè)計量化器。信號密集的地方進(jìn)行細(xì)致的量化,稀疏的地方進(jìn)行粗略量化。

②、編碼基本手段之二 —— 語音編碼器

<1>、基本概念

語音編碼器分為三種類形:(a)波形編碼器 、(b)聲碼器 、(c)混合編碼器 。

  • 波形編碼器以構(gòu)造出背景噪單在內(nèi)的模擬波形為目標(biāo)。作用于所有輸入信號,因此會產(chǎn)生高質(zhì)量的樣值并且耗費(fèi)較高的比特率。
  • 聲碼器 (vocoder) 不會再生原始波形。這組編碼器會提取一組參數(shù) ,這組參數(shù)被送到接收端,用來導(dǎo)出語音產(chǎn)生模形。聲碼器語音質(zhì)量不夠好。
  • 混合編碼器, 它融入了波形編碼器和聲碼器的長處。
<2>、波形編碼器

波形編碼器的設(shè)計常獨(dú)立于信號,所以適應(yīng)于各種信號的編碼而不限于語音。

1)、時域編碼
  • PCM:pulse code modulation,是最簡單的編碼方式。僅僅是對信號的離散和量化,常采用對數(shù)量化。
  • DPCM:differential pulse code modulation,差分脈沖編碼,只對樣本之間的差異進(jìn)行編碼。前一個或多個樣本用來預(yù)測當(dāng)前樣本值。 用來做預(yù)測的樣本越多,預(yù)測值越精確。 真實值和預(yù)測值之間的差值叫殘差,是編碼的對象。
    在這里插入圖片描述
  • ADPCM:adaptive differential pulse code modulation,自適應(yīng)差分脈沖編碼。即在 DPCM 的基礎(chǔ)上,根據(jù)信號的變化,適當(dāng)調(diào)整量化器和預(yù)測器,使預(yù)測值更接近真實信號,殘差更小,壓縮效率更高。
2)、頻域編碼

頻域編碼是把信號分解成一系列不同頻率的元素,并進(jìn)行獨(dú)立編碼。

  1. sub-band coding:子帶編碼是最簡單的頻域編碼技術(shù)。
    是將原始信號由時間域轉(zhuǎn)變?yōu)轭l率域, 然后將其分割為若干個子頻帶, 并對其分別進(jìn)行數(shù)字編碼的技術(shù)。
    它是利用帶通濾波器(BPF)組把原始信號分割為若干(例如 m 個)子頻帶(簡稱子帶)。 將各子帶通過等效于單邊帶調(diào)幅的調(diào)制特性, 將各子帶搬移到零頻率附近, 分別經(jīng)過 BPF(共 m個)之后,再以規(guī)定的速率(奈奎斯特速率)對各子帶輸出信號進(jìn)行取樣,并對取樣數(shù)值進(jìn)行通常的數(shù)字編碼,其設(shè)置 m 路數(shù)字編碼器。
    將各路數(shù)字編碼信號送到多路復(fù)用器,最后輸出子帶編碼數(shù)據(jù)流。對不同的子帶可以根據(jù)人耳感知模型,采用不同量化方式以及對子帶分配不同的比特數(shù)。

  2. transform coding:DCT 編碼。
    離散余弦代碼轉(zhuǎn)換

3)、聲碼器
  • channel vocoder:利用人耳對相位的不敏感。
  • homomorphic vocoder:能有效地處理合成信號。
  • formant vocoder:以用語音信號的絕大部分信息都位于共振峰的位置與帶寬上。
  • linear predictive vocoder:最常用的聲碼器。
4)、混合編碼器

波形編碼器試圖保留被編碼信號的波形,能以中等比特率(32kbps) 提供高品質(zhì)語音,但無法應(yīng)用在低比特率場合。聲碼器試圖產(chǎn)生在聽覺上與被編碼信號相似的信號,能以低比特率提供可以理解的語音,但是所形成的語音聽起來不自然。

混合編碼器結(jié)合了 2 者的優(yōu)點(diǎn):

  • RELP:在線性預(yù)測的基礎(chǔ)上,對殘差進(jìn)行編碼
    • 機(jī)制為:只傳輸小部分殘差,在接受端重構(gòu)全部殘差(把基帶的殘差進(jìn)行拷貝)。
  • MPC:multi-pulse coding,對殘差去除相關(guān)性
    • 用于彌補(bǔ)聲碼器將聲音簡單分為 voiced 和 unvoiced,而沒有中間狀態(tài)的缺陷。
  • CELP: codebook excited linear prediction
    • 用聲道預(yù)測其和基音預(yù)測器的級聯(lián),更好逼近原始信號。
  • MBE: multiband excitation
    • 多帶激勵,目的是避免 CELP 的大量運(yùn)算,獲得比聲碼器更高的質(zhì)量。

4、音頻壓縮格式

①、WAV 編碼

WAV 編碼是在 PCM 數(shù)據(jù)格式的前面加上 44 字節(jié),分別用來描述 PCM 的采樣率、聲道數(shù)、數(shù)據(jù)格式等信息。

特點(diǎn):音質(zhì)非常好、大量軟件都支持。

使用場景:多媒體開發(fā)的中間文件、保存音樂和音效素材等。
在這里插入圖片描述

②、mp3 編碼

MP3 具有不錯的壓縮比,使用 LAME 編碼的中高碼率的 MP3 文件,聽感上非常接近源 WAV 文件。

特點(diǎn):音質(zhì)在 128Kbps 以上表現(xiàn)還不錯,壓縮比比較高,兼容性好。

使用場景:高比特率下對兼容性有要求的音樂欣賞

③、AAC 編碼

AAC 是新一代的音頻有損壓縮技術(shù),它通過一些附加編碼技術(shù)( 如 PS、 SBR 等),衍生出 LC-AAC、HE-AAC、HE-AAC V2 三中主要編碼格式。

特點(diǎn):在小于 128kbps 碼率下表現(xiàn)優(yōu)異,且多用于視頻中的音頻編碼。

適用場景:128Kbps 碼率下的音頻編碼, 多用于視頻中的音頻軌的編碼。

④、Ogg 編碼

Ogg 編碼音質(zhì)好、完全免費(fèi)??梢杂酶〉拇a率達(dá)到更好的音質(zhì),128Kbps 的 Ogg 比 192Kbps 甚至更高的 MP3 還要出色。 但是目前媒體軟件支持上還是不夠友好。

特點(diǎn):高中低碼率下都有良好的表現(xiàn),兼容性不夠好,流媒體特性不支持。

使用場景:語音聊天的音頻消息場景。

⑤、FLAC 編碼

FLAC 中文可解釋為無損音頻壓縮編碼。

FLAC 是一套著名的自由音頻壓縮編碼,其特點(diǎn)是無損壓縮。不同于其他有損壓縮編碼如 MP3 及 AAC,它不會破壞任何原有的音頻信息,所以可以還原音樂光盤音質(zhì)。

2012 年以來它已被很多軟件及硬件音頻產(chǎn)品( 如 CD 等) 所支持。

特點(diǎn): 無損壓縮、壓縮率高于普通文件夾壓縮格式( ZIP、 rar 等)。使用場景:高品質(zhì)音樂等。

三、音頻深度學(xué)習(xí)

1、深度學(xué)習(xí)在音頻信號處理中的進(jìn)展

主要從語音(Speech) 、音樂(Music) 和環(huán)境聲(Environmental Sounds) 三個領(lǐng)域出發(fā),分析它們之間的相似點(diǎn)和不同點(diǎn),以及一些跨領(lǐng)域的通用方法描述。

2、應(yīng)用

①、語音識別

語音識別指的是將語音信號轉(zhuǎn)化為文字序列,它是所有基于語音交互的基礎(chǔ)。對于語音識別而言,高斯混合模型(GMM)和馬爾科夫模型(HMM)曾占據(jù)了幾十年的發(fā)展歷史。

②、音樂信息檢索

和語音不同, 音樂通常包含很廣泛的聲源信息, 并且在不同音樂源之間存在這復(fù)雜的依賴關(guān)系。

③、環(huán)境聲識別

有關(guān)環(huán)境聲的任務(wù)主要有三類:聲音場景識別、聲音事件檢測和標(biāo)注。

④、定位和跟蹤

利用多通道信號可以對聲源位置進(jìn)行跟蹤和定位。跟蹤和定位的主要設(shè)備條件是麥克風(fēng)陣列,通常包含線性陣列、環(huán)形陣列和球形陣列等。

⑤、聲源分離

指的是在多聲源混合的信號中提取單一的目標(biāo)聲源。主要應(yīng)用在一些魯棒聲音識別的預(yù)處理以及音樂編輯和重譜。

⑥、聲音增強(qiáng)

通常為語音增強(qiáng), 指的是通過減小噪聲來提高語音質(zhì)量。 主要技術(shù)是去噪自編碼器、CNN、RNN、GAN(SEGAN) 等。

⑦、生成模型

根據(jù)數(shù)據(jù)集中的聲音屬性特征來生成新的數(shù)據(jù),要求這些數(shù)據(jù)不能和原始數(shù)據(jù)集一樣、要具有多樣性并且訓(xùn)練和生成時間要很小,理想情況下是實時的。

3、十大音頻處理任務(wù)

①、音頻分類

音頻分類是語音處理領(lǐng)域的一個基本問題,從本質(zhì)上說,它就是從音頻中提取特征,然后判斷具體屬于哪一類。

②、音頻指紋識別

音頻指紋識別的目的是從音頻中提取一段特定的數(shù)字摘要,用于快速識別該段音頻是否來自音頻樣本,或從音頻庫中搜索出帶有相同數(shù)字摘要的音頻。

③、自動音樂標(biāo)注

音樂標(biāo)注是音頻分類的升級版。它包含多個類別,一個音頻可以同時屬于不同類,也就是有多個標(biāo)簽。自動音樂標(biāo)注的潛在應(yīng)用是為音頻創(chuàng)建元數(shù)據(jù),以便日后的搜索,在這上面,深度學(xué)習(xí)在一定程度上有用武之地。

④、音頻分割

根據(jù)定義的一組特征將音頻樣本分割成段。

⑤、音源分離

音源分離就是從一堆混合的音頻信號中分離出來自不同音源的信號,它最常見的應(yīng)用之一就是識別同時翻譯音頻中的歌詞(如卡拉 OK) 。

⑥、節(jié)拍跟蹤

節(jié)拍跟蹤的目標(biāo)就是跟蹤音頻文件中每個節(jié)拍的位置。

⑦、音樂推薦

⑧、音樂信息檢索

這是音頻處理中最困難的任務(wù)之一, 它實質(zhì)上是要建立一個基于音頻數(shù)據(jù)的搜索引擎。

⑨、音樂轉(zhuǎn)錄(Music Transcription)

音樂轉(zhuǎn)錄是另一個非常有挑戰(zhàn)性的音頻處理任務(wù)。 它包括注釋音頻和創(chuàng)建一個“表”, 以便于之后用它生成音樂

⑩、音符起始點(diǎn)檢測

音符起始點(diǎn)檢測是分析音頻/建立音樂序列的第一步,對于以上提到的大多數(shù)任務(wù)而言,執(zhí)行音符起始點(diǎn)檢測是必要的(簡單任務(wù)不需要)


我的qq:2442391036,歡迎交流!

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多