音頻基礎(chǔ)知識-CSDN博客

SocFans 2024-12-17

展開全文

前言

本節(jié)對音頻相關(guān)知識進(jìn)行了詳細(xì)的介紹及講解。

一、音頻基本概念

1、音頻的基本概念

①、聲音的三要素

聲音的三要素：頻率、振幅、波形

頻率：聲波的頻率，即聲音的音調(diào)，人類聽覺的頻率（音調(diào)）范圍為 20Hz—20KHz
振幅：即聲波的響度，通俗的講就是聲音的高低，一般男生的聲音振幅（響度）大于女生。
波形：波形決定了其所代表聲音的音色。音色不同是因為它們的介質(zhì)所產(chǎn)生的波形不同

②、音量與音調(diào)

在這里插入圖片描述
聲音的本質(zhì)（音調(diào)、音量、音色）

音調(diào)：頻率
音量：振幅
音色：與材質(zhì)有關(guān)，諧波（不規(guī)則的正弦波）

③、幾個基本概念

比特率：表示經(jīng)過編碼（壓縮）后的音頻數(shù)據(jù)每秒鐘需要用多少個比特來表示，單位常為 kbps。
響度和強(qiáng)度：聲音的主觀屬性響度表示的是一個聲音聽來有多響的程度。響度主要隨聲音的強(qiáng)度而變化，但也受頻率的影響?？偟恼f，中頻純音聽來比低頻和高頻純音響一些。
采樣和采樣率：采樣是把連續(xù)的時間信號，變成離散的數(shù)字信號。采樣率是指每秒鐘采集多少個樣本。

④、奈奎斯特采樣定律

Nyquist 采樣率大于或等于連續(xù)信號最高頻率分量的 2 倍時，采樣信號可以用來完美重構(gòu)原始連續(xù)信號。

2、數(shù)字音頻

①、采樣

所謂的采樣就是只在時間軸上對信號進(jìn)行數(shù)字化。根據(jù)奈奎斯特定律（也稱作采樣定律），按照比聲音最高頻率的 2 倍以上進(jìn)行采樣。

人類聽覺的頻率（音調(diào)）范圍為 20Hz–20KHz。所以至少要大于 40KHz。

采樣頻率一般為 44.1kHz，這樣可保證聲音達(dá)到 20kHz 也能被數(shù)字化。

44.1kHz 就是代表 1 秒會采樣 44100 次。

②、量化

具體每個采樣又該如何表示呢？這就涉及到量化。量化是指在幅度軸上對信號進(jìn)行數(shù)字化。如果用 16 比特位的二進(jìn)制信號來表示一個采樣，那么一個采樣所表示的范圍即為 [-32768， 32767] 。

下圖為音頻量化過程：
在這里插入圖片描述

③、編碼

每一個量化都是一個采樣，將這么多采樣進(jìn)行存儲就叫做編碼。

所謂編碼，就是按照一定的格式記錄采樣和量化后的數(shù)字?jǐn)?shù)據(jù)，比如順序存儲或者壓縮存儲，等等。

通常所說的音頻裸數(shù)據(jù)格式就是脈沖編碼調(diào)制（PCM）數(shù)據(jù)。

描述一段 PCM 數(shù)據(jù)通常需要以下幾個概念：量化格式（位深，通常 16bit）、采樣率、聲道數(shù)

對于聲音格式，還有一個概念用來描述它的大小，即比特率，即 1 秒內(nèi)的比特數(shù)目，用來衡量音頻數(shù)據(jù)單位時間內(nèi)的容量大小。

④、其他相關(guān)概念

<1>、采樣位數(shù)

采樣位數(shù)也叫采樣大小或者量化位數(shù)。量化深度表示每個采樣點(diǎn)用多少比特表示，音頻的量化深度一般為 8、16、32 位等。

例如：量化深度為 8bit 時，每個采樣點(diǎn)可以表示 256 個不同的量化值，而量化深度為 16bit 時，每個采樣點(diǎn)可以表示 65536 個不同的量化值。

量化深度的大小影響到聲音的質(zhì)量，顯然，位數(shù)越多，量化后的波形越接近原始波形，聲音的質(zhì)量越高，而需要的存儲空間也越多；位數(shù)越少，聲音的質(zhì)量越低，需要的存儲空間越少。

CD 音質(zhì)采用的是 16 bits。

<2>、通道數(shù)

即聲音的通道數(shù)目，常見的有單聲道和雙聲道或者立體聲道。

單聲道的聲音只能使用一個揚(yáng)聲器發(fā)聲，或者也可以處理成兩個揚(yáng)聲器輸出同一個聲道的聲音，當(dāng)通過兩個揚(yáng)聲器回放單聲道信息的時候，我們可以明顯感覺到聲音是從兩個音箱中間傳遞到我們耳朵里的，無法判斷聲源的具體位置。
雙聲道就是有兩個聲音通道，其原理是人們聽到聲音時可以根據(jù)左耳和右耳對聲音相位差來判斷聲源的具體位置。聲音在錄制過程中被分配到兩個獨(dú)立的聲道，從而達(dá)到了很好的聲音定位效果。

記錄聲音時，如果每次生成一個聲波數(shù)據(jù)，稱為單聲道；每次生成兩個聲波數(shù)據(jù)，稱為雙聲道（立體聲）。立體聲（雙聲道）存儲大小是單聲道文件的兩倍。

<3>、音頻幀

音頻跟視頻不太一樣，視頻的每一幀就是一副圖像，但是因為音頻是流式的，本身是沒有一幀的概念的。

比如對于 PCM 流來說，采樣率為 44100Hz，采樣位數(shù)為 16，通道數(shù)為 2，那么一秒的音頻固定大小的：44100162 / 8 字節(jié)。

但是人們可以規(guī)定一幀的概念，比如 amr 幀比較簡單，它規(guī)定每 20ms 的音頻是一幀。

<4>、比特率（碼率）

指音頻每秒鐘播放的數(shù)據(jù)量，單位為 bit，例如對于 PCM 流，采樣率為 44100Hz，采樣大小為 16，聲道數(shù)為 2，那么碼率為：44100* 16 * 2 = 1411200 bps。

<5>、音頻文件大小的計算：

文件大小 = 采樣率 * 錄音時間 * 采樣位數(shù) / 8 * 通道數(shù)。

<6>、PCM 流

PCM 流就是原始收錄聲音時，數(shù)據(jù)會保存到一串 buffer 中，這串 buffer，就采用了 PCM 格式存儲的。

通常把音頻采樣過程也叫做脈沖編碼調(diào)制編碼，即 PCM（Pulse Code Modulation）編碼，采樣值也叫 PCM 值

編碼過程：模擬信號 -> 抽樣 -> 量化 -> 編碼 -> 數(shù)字信號

3、音頻處理基礎(chǔ)

①、噪聲抑制（Noise Suppression）

手機(jī)等設(shè)備采集的原始聲音往往包含了背景噪聲，影響聽眾的主觀體驗，降低音頻壓縮效率。以 Google 著名的開源框架 Webrtc 為例，我們對其中的噪聲抑制算法進(jìn)行嚴(yán)謹(jǐn)?shù)臏y試，發(fā)現(xiàn)該算法可以對白噪聲和有色噪聲進(jìn)行良好的抑制。滿足視頻或者語音通話的要求。其他常見的噪聲抑制算法如開源項目 Speex 包含的噪聲抑制算法，也有較好的效果，該算法適用范圍較 Webrtc 的噪聲抑制算法更加廣泛，可以在任意采樣率下使用。

②、回聲消除（Acoustic Echo Canceller）

在視頻或者音頻通話過程中，本地的聲音傳輸?shù)綄Χ瞬シ胖?，聲音會被對端的麥克風(fēng)采集，混合著對端人聲一起傳輸?shù)奖镜夭シ?，這樣本地播放的聲音包含了本地原來采集的聲音，造成主觀感覺聽到了自己的回聲。

③、自動增益控制（Auto Gain Control）

手機(jī)等設(shè)備采集的音頻數(shù)據(jù)往往有時候響度偏高，有時候響度偏低，造成聲音忽大忽小，影響聽眾的主觀感受。
自動增益控制算法根據(jù)預(yù)先配置的參數(shù)對輸入聲音進(jìn)行正向/負(fù)向調(diào)節(jié)，使得輸出的聲音適宜人耳的主觀感受。

④、靜音檢測（Voice Activity Detection）

靜音檢測的基本原理：計算音頻的功率譜密度，如果功率譜密度小于閾值則認(rèn)為是靜音，否則認(rèn)為是聲音。靜音檢測廣泛應(yīng)用于音頻編碼、AGC、AECM 等。

⑤、舒適噪聲產(chǎn)生（Comfortable Noise Generation）

舒適噪聲產(chǎn)生的基本原理：根據(jù)噪聲的功率譜密度，人為構(gòu)造噪聲。

廣泛適用于音頻編解碼器。

它的應(yīng)用場景：完全靜音時，為了創(chuàng)造舒適的通話體驗，在音頻后處理階段添加隨機(jī)白噪聲。

4、音頻使用場景

在現(xiàn)實生活中，音頻（audio）主要用在兩大場景中：語音（voice）和音樂（music）。

音頻開發(fā)的主要應(yīng)用：

音頻播放器
錄音機(jī)
語音電話
音視頻監(jiān)控應(yīng)用
音視頻直播應(yīng)用
音頻編輯/處理軟件(ktv 音效、變聲, 鈴聲轉(zhuǎn)換)
藍(lán)牙耳機(jī)/音箱

音頻開發(fā)的具體內(nèi)容：

音頻采集/播放；
音頻算法處理（去噪、VAD 檢測、回聲消除、音效處理、功放/增強(qiáng)、混音/分離，等等）；
音頻的編解碼和格式轉(zhuǎn)換；
音頻傳輸協(xié)議的開發(fā)（SIP， A2DP、 AVRCP，等等）；

5、常見音頻格式

WAV ：壓縮率低
MIDI（Musical Instrument Digital Interface）：又稱作樂器數(shù)字接口，是數(shù)字音樂/電子合成樂器的統(tǒng)一國際標(biāo)準(zhǔn)
MP3（MPEG-1 Audio Layer 3）：MP3 能夠以高音質(zhì)、低采樣率對數(shù)字音頻文件進(jìn)行壓縮。應(yīng)用最普遍
MP3Pro：MP3Pro 可以在基本不改變文件大小的情況下改善原先的 MP3 音樂音質(zhì)。它能夠在用較低的比特率壓縮音頻文件的情況下，最大程度地保持壓縮前的音質(zhì)。
WMA (Windows Media Audio)：WMA 格式是以減少數(shù)據(jù)流量但保持音質(zhì)的方法來達(dá)到更高的壓縮率目的，其壓縮率一般可以達(dá)到 1:18
RealAudio：最大的特點(diǎn)就是可以實時傳輸音頻信息，尤其是在網(wǎng)速較慢的情況下，仍然可以較為流暢地傳送數(shù)據(jù)，因此 RealAudio 主要適用于網(wǎng)絡(luò)上的在線播放
Audible：擁有四種不同的格式： Audible1、2、3、4。格式 1、2 和 3采用不同級別的語音壓縮，而格式 4 采用更低的采樣率和 MP3 相同的解碼方式，所得到語音吐辭更清楚，而且可以更有效地從網(wǎng)上進(jìn)行下載
AAC：高級音頻編碼的縮寫，AAC 的音頻算法在壓縮能力上遠(yuǎn)遠(yuǎn)超過了以前的一些壓縮算法（比如 MP3 等）。它還同時支持多達(dá) 48 個音軌、15 個低頻音軌、更多種采樣率和比特率、多種語言的兼容能力、更高的解碼效率。總之，AAC 可以在比 MP3 文件縮小 30% 的前提下提供更好的音質(zhì)。
Ogg Vorbis：它是完全免費(fèi) 、開放和沒有專利限制的，同樣位速率(Bit Rate)編碼的 OGG 與 MP3 相比聽起來更好一些
APE：是一種無損壓縮音頻格式，在音質(zhì)不降低的前提下，大小壓縮到傳統(tǒng)無損格式WAV 文件的一半
FLAC（Free Lossless Audio Codec）：是一套著名的自由音頻無損壓縮編碼，其特點(diǎn)是無損壓縮。

6、混音技術(shù)

混音，顧名思義，就是把兩路或者多路音頻流混合在一起，形成一路音頻流。
混流，則是指音視頻流的混合，也就是視頻畫面和聲音的對齊，也稱混流。

①、混音條件

兩路音視頻流，必須符合以下條件才能混合：

格式相同，要解壓成 PCM 格式。
采樣率相同，要轉(zhuǎn)換成相同的采樣率。主流采樣率包括：16kHz、32kHz、44.1kHz 和 48kHz。
幀長相同，幀長由編碼格式?jīng)Q定，PCM 沒有幀長的概念，開發(fā)者自行決定幀長。為了和主流音頻編碼格式的幀長保持一致，推薦采用 20ms 為幀長。
位深（Bit-Depth）或采樣格式 (Sample Format) 相同，承載每個采樣點(diǎn)數(shù)據(jù)的 bit 數(shù)目要相同。
聲道數(shù)相同，必須同樣是單聲道或者雙聲道 (立體聲)。這樣，把格式、采樣率、幀長、位深和聲道數(shù)對齊了以后，兩個音頻流就可以混合了。

②、回聲消除、噪音抑制和靜音檢測等處理

在混音之前，還需要做回聲消除、噪音抑制和靜音檢測等處理。在編碼之前，采集、語音前處理、混音之前的處理、混音和混音之后的處理應(yīng)該按順序進(jìn)行。

③、音頻重采樣

重采樣即是將音頻進(jìn)行重新采樣得到新的采樣率的音頻。

重采樣的原因
音頻系統(tǒng)中可能存在多個音軌，而每個音軌的原始采樣率可能是不一致的。
比如在播放音樂的過程中，來了一個提示音，就需要把音樂和提示音都混合到 codec 輸出，音樂的原始采樣率和提示音的原始采樣率可能是不一致的。
問題來了，如果 codec 的采樣率設(shè)置為音樂的原始采樣率的話，那么提示音就會失真。
因此最簡單見效的解決方法是：codec 的采樣率固定一個值（44.1KHz/48KHz），所有音軌都重采樣到這個采樣率，然后才送到 codec，保證所有音軌聽起來都不失真。

④、回聲消除

回聲消除就是在 Mic 采集到聲音之后，將本地音箱播放出來的聲音從 Mic 采集的聲音數(shù)據(jù)中消除掉，使得 Mic 錄制的聲音只有本地用戶說話的聲音。

傳統(tǒng)的回聲消除都是采用硬件方式，在硬件電路上集成 DSP 處理芯片，如我們常用的固定電話、手機(jī)等都有專門的回音消除處理電路，而采用軟件方式實現(xiàn)回聲消除一直存在技術(shù)難點(diǎn)，包括國內(nèi)應(yīng)用最廣泛的 QQ 超級語音，便是采用國外的 GIPS 技術(shù)，由此可見一般。

回聲消除已經(jīng)成為即時通訊中提供全雙工語音的標(biāo)準(zhǔn)方法

回聲消除的基本原理是以揚(yáng)聲器信號與由它產(chǎn)生的多路徑回聲的相關(guān)性為基礎(chǔ)，建立遠(yuǎn)端信號的語音模型，利用它對回聲進(jìn)行估計，并不斷修改濾波器的系數(shù)，使得估計值更加逼近真實的回聲。然后，將回聲估計值從話筒的輸入信號中減去，從而達(dá)到消除回聲的目的。

二、音頻編碼原理

1、音頻編碼

①、壓縮編碼

即壓縮編碼，其原理是壓縮掉冗余的信號，冗余信號是指不能被人耳感知到的信號，包括人耳聽覺范圍之外的音頻信號以及被掩蔽掉的音頻信號。

模擬音頻信號轉(zhuǎn)換為數(shù)字信號需要經(jīng)過采樣和量化，量化的過程被稱之為編碼，根據(jù)不同的量化策略，產(chǎn)生了許多不同的編碼方式，常見的編碼方式有：PCM 和 ADPCM，這些數(shù)據(jù)代表著無損的原始數(shù)字音頻信號，添加一些文件頭信息，就可以存儲為 WAV 文件了，它是一種由微軟和 IBM 聯(lián)合開發(fā)的用于音頻數(shù)字存儲的標(biāo)準(zhǔn)，可以很容易地被解析和播放。

②、音頻編解碼常用的三種實現(xiàn)方案

采用專用的音頻芯片對語音信號進(jìn)行采集和處理，音頻編解碼算法集成在硬件內(nèi)部，如 MP3 編解碼芯片、語音合成分析芯片等。使用這種方案的優(yōu)點(diǎn)就是處理速度塊，設(shè)計周期短；缺點(diǎn)是局限性比較大，不靈活，難以進(jìn)行系統(tǒng)升級。
是利用 A/D 采集卡加上計算機(jī)組成硬件平臺，音頻編解碼算法由計算機(jī)上的軟件來實現(xiàn)。使用這種方案的優(yōu)點(diǎn)是價格便宜，開發(fā)靈活并且利于系統(tǒng)的升級；缺點(diǎn)是處理速度較慢，開發(fā)難度較大。
使用高精度、高速度的 A/D 采集芯片來完成語音信號的采集，使用可編程的數(shù)據(jù)處理能力強(qiáng)的芯片來實現(xiàn)語音信號處理的算法，然后用 ARM 進(jìn)行控制。采用這種方案的優(yōu)點(diǎn)是系統(tǒng)升級能力強(qiáng)，可以兼容多種音頻壓縮格式甚至未來的音頻壓縮格式，系統(tǒng)成本較低；缺點(diǎn)是開發(fā)難度較大，設(shè)計者需要移植音頻的解碼算法到相應(yīng)的 ARM 芯片中去

③、音頻信號壓縮編碼標(biāo)準(zhǔn)

ITU/CCITT 的 G 系列：G.711 、G.721 、G.722 、G.723 、G.728 、G.729；
MPEG 系列的：MPEG-l ，MPEG-2 ，MPEG-4 ，MPEG-7 中的音頻編碼；
DOLBY( 杜比 ) 實驗室的 AC 系列： AC-1 ， AC-2 ， AC-3 等。

④、音頻編碼過程

<1>、音頻信號數(shù)字化

將連續(xù)的模擬信號轉(zhuǎn)換成離散的數(shù)字信號，完成采樣、量化和編碼三個步驟。又稱為脈沖編碼調(diào)制(Pulse Code Modulation) ，通常由 A/D 轉(zhuǎn)換器來實現(xiàn)。
在這里插入圖片描述
Nyquist 采樣定律：采樣率大于或等于連續(xù)信號最高頻率分量的 2 倍時，采樣信號可以用來完美重構(gòu)原始連續(xù)信號。
三要素：采樣頻率、量化位數(shù)、聲道數(shù)

<2>、音頻編碼三類方法

波形編碼是盡量保持輸入波形不變，即重建的語音信號基本上與原始語音信號波形相同，壓縮比較低；
參數(shù)編碼是要求重建的信號聽起來與輸入語音一樣，但其波形可以不同，它是以語音信號所產(chǎn)生的數(shù)學(xué)模型為基礎(chǔ)的一種編碼方法，壓縮比較高；
混合編碼是綜合了波形編碼的高質(zhì)量潛力和參數(shù)編碼的高壓縮效率的混合編碼的方法，這類方法也是目前低碼率編碼的方向。

⑤、音頻壓縮

<1>、音頻信號能壓縮的基本依據(jù)

聲音信號中存在大量的冗余度；
人的聽覺具有強(qiáng)音能抑制同時存在的弱音現(xiàn)象。

<2>、音頻信號壓縮編碼的分類

無損壓縮(熵編碼)：霍夫曼編碼、算術(shù)編碼、行程編碼
有損壓縮
- 波形編碼–PCM、DPCM、ADPCM 、子帶編碼、矢量量化
- 參數(shù)編碼–LPC
- 混合編碼–MPLPC、CELP

2、音頻編碼的基本原理講解

①、概述

語音編碼致力于：降低傳輸所需要的信道帶寬，同時保持輸入語音的高質(zhì)量。
語音編碼的目標(biāo)在于：設(shè)計低復(fù)雜度的編碼器以盡可能低的比特率實現(xiàn)高品質(zhì)數(shù)據(jù)傳輸。

②、靜音閾值曲線

指在安靜環(huán)境下，人耳在各個頻率能聽到聲音的閾值。
在這里插入圖片描述

③、臨界頻帶

由于人耳對不同頻率的解析度不同，MPEG1/Audio 將 22khz 內(nèi)可感知的頻率范圍，依不同編碼層，不同取樣頻率，劃分成 23~26 個臨界頻帶。

下圖列出理想臨界頻帶的中心頻率與頻寬。圖中可看到，人耳對低頻的解析度較好。
在這里插入圖片描述

④、頻域上的掩蔽效應(yīng)

幅值較大的信號會掩蔽頻率相近的幅值較小的信號，如下圖：
在這里插入圖片描述

⑤、時域上的遮蔽效應(yīng)

在一個很短的時間內(nèi)，若出現(xiàn)了 2 個聲音，SPL（sound pressure level）較大的聲音會掩蔽 SPL 較小的聲音。

時域掩蔽效應(yīng)分前向掩蔽（pre-masking）和后向掩蔽（post-masking），其中 post-masking的時間會比較長，約是 pre-masking 的 10 倍。

時域遮蔽效應(yīng)有助于消除前回音。
在這里插入圖片描述

3、音頻編碼基本手段

①、編碼基本手段之一 —— 量化和量化器

<1>、基本概念

量化和量化器：量化是把離散時間上的連續(xù)信號，轉(zhuǎn)化成離散時間上的離散信號。
常見的量化器有：均勻量化器，對數(shù)量化器，非均勻量化器。
量化過程追求的目標(biāo)是：最小化量化誤差，并盡量減低量化器的復(fù)雜度（這 2 者本身就是一個矛盾）

<2>、常見的量化器的優(yōu)缺點(diǎn)

均勻量化器：最簡單，性能最差，僅適應(yīng)于電話語音。
對數(shù)量化器：比均勻量化器復(fù)雜，也容易實現(xiàn)，性能比均勻量化器好。
非均勻(Non-uniform)量化器：根據(jù)信號的分布情況，來設(shè)計量化器。信號密集的地方進(jìn)行細(xì)致的量化，稀疏的地方進(jìn)行粗略量化。

②、編碼基本手段之二 —— 語音編碼器

<1>、基本概念

語音編碼器分為三種類形：（a）波形編碼器、（b）聲碼器、（c）混合編碼器。

波形編碼器以構(gòu)造出背景噪單在內(nèi)的模擬波形為目標(biāo)。作用于所有輸入信號，因此會產(chǎn)生高質(zhì)量的樣值并且耗費(fèi)較高的比特率。
聲碼器（vocoder）不會再生原始波形。這組編碼器會提取一組參數(shù) ，這組參數(shù)被送到接收端，用來導(dǎo)出語音產(chǎn)生模形。聲碼器語音質(zhì)量不夠好。
混合編碼器，它融入了波形編碼器和聲碼器的長處。

<2>、波形編碼器

波形編碼器的設(shè)計常獨(dú)立于信號，所以適應(yīng)于各種信號的編碼而不限于語音。

1)、時域編碼

PCM：pulse code modulation，是最簡單的編碼方式。僅僅是對信號的離散和量化，常采用對數(shù)量化。
DPCM：differential pulse code modulation，差分脈沖編碼，只對樣本之間的差異進(jìn)行編碼。前一個或多個樣本用來預(yù)測當(dāng)前樣本值。用來做預(yù)測的樣本越多，預(yù)測值越精確。真實值和預(yù)測值之間的差值叫殘差，是編碼的對象。
ADPCM：adaptive differential pulse code modulation，自適應(yīng)差分脈沖編碼。即在 DPCM 的基礎(chǔ)上，根據(jù)信號的變化，適當(dāng)調(diào)整量化器和預(yù)測器，使預(yù)測值更接近真實信號，殘差更小，壓縮效率更高。

2)、頻域編碼

頻域編碼是把信號分解成一系列不同頻率的元素，并進(jìn)行獨(dú)立編碼。

sub-band coding：子帶編碼是最簡單的頻域編碼技術(shù)。
是將原始信號由時間域轉(zhuǎn)變?yōu)轭l率域，然后將其分割為若干個子頻帶，并對其分別進(jìn)行數(shù)字編碼的技術(shù)。
它是利用帶通濾波器(BPF)組把原始信號分割為若干(例如 m 個)子頻帶(簡稱子帶)。將各子帶通過等效于單邊帶調(diào)幅的調(diào)制特性，將各子帶搬移到零頻率附近，分別經(jīng)過 BPF(共 m個)之后，再以規(guī)定的速率(奈奎斯特速率)對各子帶輸出信號進(jìn)行取樣，并對取樣數(shù)值進(jìn)行通常的數(shù)字編碼，其設(shè)置 m 路數(shù)字編碼器。
將各路數(shù)字編碼信號送到多路復(fù)用器，最后輸出子帶編碼數(shù)據(jù)流。對不同的子帶可以根據(jù)人耳感知模型，采用不同量化方式以及對子帶分配不同的比特數(shù)。
transform coding：DCT 編碼。
離散余弦代碼轉(zhuǎn)換

3)、聲碼器

channel vocoder：利用人耳對相位的不敏感。
homomorphic vocoder：能有效地處理合成信號。
formant vocoder：以用語音信號的絕大部分信息都位于共振峰的位置與帶寬上。
linear predictive vocoder：最常用的聲碼器。

4)、混合編碼器

波形編碼器試圖保留被編碼信號的波形，能以中等比特率（32kbps）提供高品質(zhì)語音，但無法應(yīng)用在低比特率場合。聲碼器試圖產(chǎn)生在聽覺上與被編碼信號相似的信號，能以低比特率提供可以理解的語音，但是所形成的語音聽起來不自然。

混合編碼器結(jié)合了 2 者的優(yōu)點(diǎn)：

RELP：在線性預(yù)測的基礎(chǔ)上，對殘差進(jìn)行編碼
- 機(jī)制為：只傳輸小部分殘差，在接受端重構(gòu)全部殘差（把基帶的殘差進(jìn)行拷貝）。
MPC：multi-pulse coding，對殘差去除相關(guān)性
- 用于彌補(bǔ)聲碼器將聲音簡單分為 voiced 和 unvoiced，而沒有中間狀態(tài)的缺陷。
CELP: codebook excited linear prediction
- 用聲道預(yù)測其和基音預(yù)測器的級聯(lián)，更好逼近原始信號。
MBE: multiband excitation
- 多帶激勵，目的是避免 CELP 的大量運(yùn)算，獲得比聲碼器更高的質(zhì)量。

4、音頻壓縮格式

①、WAV 編碼

WAV 編碼是在 PCM 數(shù)據(jù)格式的前面加上 44 字節(jié)，分別用來描述 PCM 的采樣率、聲道數(shù)、數(shù)據(jù)格式等信息。

特點(diǎn)：音質(zhì)非常好、大量軟件都支持。

使用場景：多媒體開發(fā)的中間文件、保存音樂和音效素材等。
在這里插入圖片描述

②、mp3 編碼

MP3 具有不錯的壓縮比，使用 LAME 編碼的中高碼率的 MP3 文件，聽感上非常接近源 WAV 文件。

特點(diǎn)：音質(zhì)在 128Kbps 以上表現(xiàn)還不錯，壓縮比比較高，兼容性好。

使用場景：高比特率下對兼容性有要求的音樂欣賞

③、AAC 編碼

AAC 是新一代的音頻有損壓縮技術(shù)，它通過一些附加編碼技術(shù)（如 PS、 SBR 等），衍生出 LC-AAC、HE-AAC、HE-AAC V2 三中主要編碼格式。

特點(diǎn)：在小于 128kbps 碼率下表現(xiàn)優(yōu)異，且多用于視頻中的音頻編碼。

適用場景：128Kbps 碼率下的音頻編碼，多用于視頻中的音頻軌的編碼。

④、Ogg 編碼

Ogg 編碼音質(zhì)好、完全免費(fèi)?？梢杂酶〉拇a率達(dá)到更好的音質(zhì)，128Kbps 的 Ogg 比 192Kbps 甚至更高的 MP3 還要出色。但是目前媒體軟件支持上還是不夠友好。

特點(diǎn)：高中低碼率下都有良好的表現(xiàn)，兼容性不夠好，流媒體特性不支持。

使用場景：語音聊天的音頻消息場景。

⑤、FLAC 編碼

FLAC 中文可解釋為無損音頻壓縮編碼。

FLAC 是一套著名的自由音頻壓縮編碼，其特點(diǎn)是無損壓縮。不同于其他有損壓縮編碼如 MP3 及 AAC，它不會破壞任何原有的音頻信息，所以可以還原音樂光盤音質(zhì)。

2012 年以來它已被很多軟件及硬件音頻產(chǎn)品（如 CD 等）所支持。

特點(diǎn)：無損壓縮、壓縮率高于普通文件夾壓縮格式（ ZIP、 rar 等）。使用場景：高品質(zhì)音樂等。

三、音頻深度學(xué)習(xí)

1、深度學(xué)習(xí)在音頻信號處理中的進(jìn)展

主要從語音（Speech）、音樂（Music）和環(huán)境聲（Environmental Sounds）三個領(lǐng)域出發(fā)，分析它們之間的相似點(diǎn)和不同點(diǎn)，以及一些跨領(lǐng)域的通用方法描述。

2、應(yīng)用

①、語音識別

語音識別指的是將語音信號轉(zhuǎn)化為文字序列，它是所有基于語音交互的基礎(chǔ)。對于語音識別而言，高斯混合模型（GMM）和馬爾科夫模型（HMM）曾占據(jù)了幾十年的發(fā)展歷史。

②、音樂信息檢索

和語音不同，音樂通常包含很廣泛的聲源信息，并且在不同音樂源之間存在這復(fù)雜的依賴關(guān)系。

③、環(huán)境聲識別

有關(guān)環(huán)境聲的任務(wù)主要有三類：聲音場景識別、聲音事件檢測和標(biāo)注。

④、定位和跟蹤

利用多通道信號可以對聲源位置進(jìn)行跟蹤和定位。跟蹤和定位的主要設(shè)備條件是麥克風(fēng)陣列，通常包含線性陣列、環(huán)形陣列和球形陣列等。

⑤、聲源分離

指的是在多聲源混合的信號中提取單一的目標(biāo)聲源。主要應(yīng)用在一些魯棒聲音識別的預(yù)處理以及音樂編輯和重譜。

⑥、聲音增強(qiáng)

通常為語音增強(qiáng)，指的是通過減小噪聲來提高語音質(zhì)量。主要技術(shù)是去噪自編碼器、CNN、RNN、GAN（SEGAN）等。

⑦、生成模型

根據(jù)數(shù)據(jù)集中的聲音屬性特征來生成新的數(shù)據(jù)，要求這些數(shù)據(jù)不能和原始數(shù)據(jù)集一樣、要具有多樣性并且訓(xùn)練和生成時間要很小，理想情況下是實時的。

3、十大音頻處理任務(wù)

①、音頻分類

音頻分類是語音處理領(lǐng)域的一個基本問題，從本質(zhì)上說，它就是從音頻中提取特征，然后判斷具體屬于哪一類。

②、音頻指紋識別

音頻指紋識別的目的是從音頻中提取一段特定的數(shù)字摘要，用于快速識別該段音頻是否來自音頻樣本，或從音頻庫中搜索出帶有相同數(shù)字摘要的音頻。

③、自動音樂標(biāo)注

音樂標(biāo)注是音頻分類的升級版。它包含多個類別，一個音頻可以同時屬于不同類，也就是有多個標(biāo)簽。自動音樂標(biāo)注的潛在應(yīng)用是為音頻創(chuàng)建元數(shù)據(jù)，以便日后的搜索，在這上面，深度學(xué)習(xí)在一定程度上有用武之地。

④、音頻分割

根據(jù)定義的一組特征將音頻樣本分割成段。

⑤、音源分離

音源分離就是從一堆混合的音頻信號中分離出來自不同音源的信號，它最常見的應(yīng)用之一就是識別同時翻譯音頻中的歌詞（如卡拉 OK）。

⑥、節(jié)拍跟蹤

節(jié)拍跟蹤的目標(biāo)就是跟蹤音頻文件中每個節(jié)拍的位置。

⑦、音樂推薦

⑧、音樂信息檢索

這是音頻處理中最困難的任務(wù)之一，它實質(zhì)上是要建立一個基于音頻數(shù)據(jù)的搜索引擎。

⑨、音樂轉(zhuǎn)錄（Music Transcription）

音樂轉(zhuǎn)錄是另一個非常有挑戰(zhàn)性的音頻處理任務(wù)。它包括注釋音頻和創(chuàng)建一個“表”，以便于之后用它生成音樂

⑩、音符起始點(diǎn)檢測

音符起始點(diǎn)檢測是分析音頻/建立音樂序列的第一步，對于以上提到的大多數(shù)任務(wù)而言，執(zhí)行音符起始點(diǎn)檢測是必要的（簡單任務(wù)不需要）

我的qq：2442391036，歡迎交流！

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊一鍵舉報。

小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

音頻基礎(chǔ)知識-CSDN博客

前言

一、音頻基本概念

1、音頻的基本概念

①、聲音的三要素

②、音量與音調(diào)

③、幾個基本概念

④、奈奎斯特采樣定律

2、數(shù)字音頻

①、采樣

②、量化

③、編碼

④、其他相關(guān)概念

<1>、采樣位數(shù)

<2>、通道數(shù)

<3>、音頻幀

<4>、比特率（碼率）

<5>、音頻文件大小的計算：

<6>、PCM 流

3、音頻處理基礎(chǔ)

①、噪聲抑制（Noise Suppression）

②、回聲消除（Acoustic Echo Canceller）

③、自動增益控制（Auto Gain Control）

④、靜音檢測（Voice Activity Detection）

⑤、舒適噪聲產(chǎn)生（Comfortable Noise Generation）

4、音頻使用場景

5、常見音頻格式

6、混音技術(shù)

①、混音條件

②、回聲消除、噪音抑制和靜音檢測等處理

③、音頻重采樣

④、回聲消除

二、音頻編碼原理

1、音頻編碼

①、壓縮編碼

②、音頻編解碼常用的三種實現(xiàn)方案

③、音頻信號壓縮編碼標(biāo)準(zhǔn)

④、音頻編碼過程

<1>、音頻信號數(shù)字化

<2>、音頻編碼三類方法

⑤、音頻壓縮

<1>、音頻信號能壓縮的基本依據(jù)

<2>、音頻信號壓縮編碼的分類

2、音頻編碼的基本原理講解

①、概述

②、靜音閾值曲線

③、臨界頻帶

④、頻域上的掩蔽效應(yīng)

⑤、時域上的遮蔽效應(yīng)

3、音頻編碼基本手段

①、編碼基本手段之一 —— 量化和量化器

<1>、基本概念

<2>、常見的量化器的優(yōu)缺點(diǎn)

②、編碼基本手段之二 —— 語音編碼器

<1>、基本概念

<2>、波形編碼器

1)、時域編碼

2)、頻域編碼

3)、聲碼器

4)、混合編碼器

4、音頻壓縮格式

①、WAV 編碼

②、mp3 編碼

③、AAC 編碼

④、Ogg 編碼

⑤、FLAC 編碼

三、音頻深度學(xué)習(xí)

1、深度學(xué)習(xí)在音頻信號處理中的進(jìn)展

2、應(yīng)用

①、語音識別

②、音樂信息檢索

③、環(huán)境聲識別

④、定位和跟蹤

⑤、聲源分離

⑥、聲音增強(qiáng)

⑦、生成模型

3、十大音頻處理任務(wù)

①、音頻分類

②、音頻指紋識別

一、音頻基本概念

1、音頻的基本概念

②、音量與音調(diào)

③、幾個基本概念

④、奈奎斯特采樣定律

2、數(shù)字音頻

①、采樣

②、量化

④、其他相關(guān)概念

<1>、采樣位數(shù)

<2>、通道數(shù)

<4>、比特率（碼率）

<5>、音頻文件大小的計算：

<6>、PCM 流

3、音頻處理基礎(chǔ)

②、回聲消除（Acoustic Echo Canceller）

③、自動增益控制（Auto Gain Control）

④、靜音檢測（Voice Activity Detection）

⑤、舒適噪聲產(chǎn)生（Comfortable Noise Generation）

4、音頻使用場景

5、常見音頻格式

6、混音技術(shù)

②、回聲消除、噪音抑制和靜音檢測等處理

③、音頻重采樣

④、回聲消除

二、音頻編碼原理

1、音頻編碼

①、壓縮編碼

②、音頻編解碼常用的三種實現(xiàn)方案

③、音頻信號壓縮編碼標(biāo)準(zhǔn)

④、音頻編碼過程

<1>、音頻信號數(shù)字化

<2>、音頻編碼三類方法

<1>、音頻信號能壓縮的基本依據(jù)

<2>、音頻信號壓縮編碼的分類

①、概述

②、靜音閾值曲線

④、頻域上的掩蔽效應(yīng)

3、音頻編碼基本手段

<1>、基本概念

<2>、波形編碼器

1)、時域編碼

2)、頻域編碼

3)、聲碼器

4、音頻壓縮格式

①、WAV 編碼

②、mp3 編碼

③、AAC 編碼

⑤、FLAC 編碼

三、音頻深度學(xué)習(xí)

1、深度學(xué)習(xí)在音頻信號處理中的進(jìn)展

①、語音識別

②、音樂信息檢索

③、環(huán)境聲識別

⑤、聲源分離

⑥、聲音增強(qiáng)

⑦、生成模型

①、音頻分類

②、音頻指紋識別

③、自動音樂標(biāo)注

④、音頻分割

⑤、音源分離

⑦、音樂推薦

⑨、音樂轉(zhuǎn)錄（Music Transcription）

⑩、音符起始點(diǎn)檢測