語音識別是人工智能技術(shù)迄今為止非常明確的落地應(yīng)用之一,終端人工智能語音芯片將迎來高速增長。在近期的這一波智能語音芯片中,在高速增長的市場需求面前,芯片廠商對于降低開發(fā)成本、縮短開發(fā)周期、快速對接客戶需求等方面卡位非常精準(zhǔn)。為了讓設(shè)備使用場景不受局限,用戶體驗更好,端側(cè)智能已成為一種趨勢。 從近期新發(fā)布的幾款智能語音芯片來看,除了在性能和功能方面的不斷提升,各家在價格優(yōu)勢上拼盡全力,這首先與其市場定位有著密不可分的關(guān)系,其次也是商業(yè)化落地的必然結(jié)果。 啟英泰倫9月19日在深圳發(fā)布第二代語音AI芯片CI110X 系列:CI1102和CI1103,其中CI1102主打高性價比,CI1103承載更多算法和功能。與上一代相比,第二代芯片集成雙通道codec,搭載SDIO并可支持Wi-Fi接口,實現(xiàn)了離線 在線語音的結(jié)合。除了在性能、功能上的突破,啟英泰倫更將語音模塊價格下拉到最低14.99元(單筆訂單>500K)。 同日,探境科技推出語音AI芯片音旋風(fēng)611,該芯片基于探境獨創(chuàng)的存儲優(yōu)先架構(gòu),采用創(chuàng)新音頻陣列算法,支持200條喚醒詞,命令詞識別率高達(dá)97%,可遠(yuǎn)場識別10米識別范圍,具有毫安級待機(jī)功耗,常用接口齊全且外部電路簡單,而售價不到2美元。 安普德科技的ACH1190芯片據(jù)悉已成功流片,預(yù)計將在9月正式出貨。根據(jù)官方提供的信息,這款芯片尺寸有7mmx7mm及3mmx3mm多種尺寸的封裝 ,內(nèi)置codec、DSP,外圍器件少,F(xiàn)PU 計算能力 250 DMIPS,最多可支持4個麥克,單麥克方案可實現(xiàn)遠(yuǎn)場10米的識別,同時加入了回聲消除、降噪技術(shù)、波束成形技術(shù),出貨價格大約在1美元以下,與市面同類產(chǎn)品相比價格優(yōu)勢更為顯著。除了離線語音識別應(yīng)用外,結(jié)合安普德自主開發(fā)的雙頻(2.4G/5GHz)WiFi芯片,可以實現(xiàn)在線AI語音識別的部署,兩顆芯片可以為客戶提供更加完整的方案,整體成本更低。 清微智能的語音SoC芯片TX210,于6月下旬宣布實現(xiàn)規(guī)模化量產(chǎn),具體價格不詳,據(jù)稱未來兩年可出貨4000萬顆。這款芯片采用了CGRA可重構(gòu)計算架構(gòu),在同等算力下,功耗遠(yuǎn)低于同類產(chǎn)品,工作功耗2mW,VAD功耗100uW,可面向眾多應(yīng)用場景下的智能終端產(chǎn)品開發(fā),特別是對于功耗要求敏感、體積要求苛刻的超便攜和物聯(lián)網(wǎng)產(chǎn)品,如手機(jī)、家居,玩具及智能穿戴設(shè)備,特別是針對現(xiàn)在大熱的TWS應(yīng)用,低功耗設(shè)計非常有優(yōu)勢。據(jù)了解,可重構(gòu)計算是一種無需指令驅(qū)動的計算模式,它基于數(shù)據(jù)流圖,面向的是異構(gòu)的空域計算,一次配置形成固定的電路結(jié)構(gòu),從而以接近ASIC效率反復(fù)執(zhí)行,資源利用率和數(shù)據(jù)復(fù)用率高。相比ASIC方式的固定電路結(jié)構(gòu),它又可以依據(jù)應(yīng)用或者算法進(jìn)行電路配置,形成不同的計算電路結(jié)構(gòu),具有很強(qiáng)的靈活性。 智能語音芯片的價格因素有哪些? 對一款智能語音芯片進(jìn)行系統(tǒng)級設(shè)計時,有四大要點值得關(guān)注:首先,所支持指令詞的個數(shù),決定了存儲結(jié)構(gòu)和加速核架構(gòu)。需要考慮的因素包括:單個model的大小、NN每層計算需要的數(shù)據(jù)量,以及是否需要CPU參與運(yùn)算,這意味著系統(tǒng)需要考慮Flash容量、Flash帶寬以及SRAM容量,NN加速核RAM容量、MAC個數(shù),以及CPU的選型、時鐘頻率等。 第二個要素是降噪算法需求,涉及到降噪算法的種類、麥克風(fēng)個數(shù),以及播放打斷等操作需求,相應(yīng)地將影響到DSP的架構(gòu),包括MAC個數(shù)、頻率、RAM容量,以及模擬硬件接口等。 第三個要素則是低功耗待機(jī)需求,最為關(guān)鍵的考慮就是是否需要電池供電,低功耗設(shè)計需要考慮特殊codec架構(gòu)、硬件/軟件VAD、觸控激活等等。 第四個則是方案成本。決定一款智能語音芯片方案成本的因素包括模擬麥、數(shù)字麥、駐極體、硅麥等,以及封裝、晶振,相應(yīng)的外設(shè)支持,例如模擬麥克風(fēng)的通道數(shù)、CMU設(shè)計等等。 從不同架構(gòu)的智能語音芯片演進(jìn)路線來看,當(dāng)前主要有四種:MCU、MCU DSP、MCU NN以及MCU DSP NN。 傳統(tǒng)語音芯片以通過MCU來實現(xiàn)語音控制為典型代表,這一市場的特點是低價、低毛利,據(jù)了解成本約為0.5-1美元;后來逐漸加入DSP之后,可實現(xiàn)輕量級的NN支持,在識別指令數(shù)量方面有提升,但是通常并無降噪支持,成本約為1美元左右;第三種架構(gòu)則以MCU NN為主,可支持CNN、DNN等模型,成本約為1-1.5美元;第四種MCU DSP NN是當(dāng)前市場上的主流,可支持CNN、DNN等模型,識別指令數(shù)量進(jìn)一步提升,支持降噪,成本約為1-2美元。 當(dāng)前智能語音芯片比較典型的應(yīng)用是一部分依賴傳統(tǒng)的DSP算法,一部分是利用RNN/CNN等神經(jīng)網(wǎng)絡(luò)算法進(jìn)行數(shù)據(jù)處理。眾多業(yè)內(nèi)人士都認(rèn)為,未來將出現(xiàn)更多類型的神經(jīng)網(wǎng)絡(luò)算法,以滿足各種語音交互的場景,而這些算法都能夠被同一顆智能芯片所兼容,在不同的情況下調(diào)用不同的神經(jīng)網(wǎng)絡(luò)來滿足用戶需求。 龐大市場需求催生端側(cè)AI語音芯片快速起量 根據(jù)前沿產(chǎn)業(yè)研究院數(shù)據(jù),智能音箱、智能家電設(shè)備的語音控制功能需求的增長,預(yù)計2021年達(dá)到3億臺。手機(jī)、可穿戴設(shè)備的低功耗語音喚醒需要專用語音AI芯片,預(yù)計2021年達(dá)到5億臺。而不僅局限于此,端側(cè)低功耗、智能化的需求,將覆蓋除家電、可穿戴設(shè)備之外的機(jī)器人、物聯(lián)網(wǎng)等應(yīng)用,市場總量巨大。 來源:前沿產(chǎn)業(yè)研究院 在誘人的市場圖景面前,再來看國內(nèi)目前比較受關(guān)注的AI專用芯片,市場定位、產(chǎn)品規(guī)劃都各有千秋。 定位不同的芯片產(chǎn)品在具體的性能指標(biāo)上存在明顯差異,例如,定位入門級應(yīng)用市場的芯片,大都僅支持單麥/雙麥,能夠?qū)崿F(xiàn)的語音功能及適用的應(yīng)用場景相對有限;而定位中高端市場的芯片產(chǎn)品在可實現(xiàn)功能方面更為多樣化。 離線智能語音交互是當(dāng)前一個重要的細(xì)分領(lǐng)域,無需聯(lián)網(wǎng)可在本地實現(xiàn)語音交互,不僅能夠保護(hù)隱私安全,同時也可以減少用戶大量數(shù)據(jù)傳送到云端的壓力,當(dāng)前主要應(yīng)用于白電市場。可通過離線智能語音控制的家電產(chǎn)品目前包括:智能燈控、智能空調(diào)、智能電視、智能油煙機(jī)、智能玩具等產(chǎn)品。目前,創(chuàng)維、小米、暴風(fēng)、海爾等均已推出智能語音識別電視,美的、格力、海爾、奧克斯、長虹均已推出智能語音空調(diào)。相關(guān)統(tǒng)計顯示,2017年中國智能電視銷量達(dá)4736.5萬臺,同比增長13.8%,2018年智能電視銷量將突破5000萬臺。2017年,全國空調(diào)內(nèi)銷量8875.5萬臺,同比增長46.8%,近幾年,空調(diào)每年內(nèi)銷量保持在6000萬臺以上。智能玩具方面,年出貨量也有望達(dá)到億萬臺。 安普德的語音識別芯片基于嵌入式架構(gòu)進(jìn)行開發(fā),而非市面上常見的基于Linux系統(tǒng)的,這樣做的好處是系統(tǒng)資源占用小、同時降低成本和功耗,但要求較強(qiáng)的系統(tǒng)開發(fā)能力。算法方面采用膠囊神經(jīng)網(wǎng)絡(luò)算法,是安普德專有的語音識別算法, 由該公司自主研發(fā),專為嵌入式處理器而設(shè)計,語音識別芯片可與膠囊神經(jīng)網(wǎng)絡(luò)算法性能疊加,可提高用戶體驗,降低成本。該算法對于芯片成本的降低非常關(guān)鍵,它采用的數(shù)據(jù)量小、準(zhǔn)確度高、CPU帶寬使用率更低、占用內(nèi)存小,所需外圍器件大大減少。 啟英泰倫也是在算法方面不斷突破的典范。芯片設(shè)計起家后,啟英泰倫從2015年開始了基于深度學(xué)習(xí)的語音識別芯片及配套算法引擎的研發(fā),該公司將這一策略稱作市場倒逼的結(jié)果,先后突破了本地中文語音訓(xùn)練引擎、本地英文語音訓(xùn)練引擎、麥克風(fēng)陣列算法等。據(jù)啟英泰倫方面稱,“算法不是芯片商的優(yōu)勢,但如今算法成為了我們和其他芯片商競爭的優(yōu)勢。我們的價格剛開始有點高,但現(xiàn)在我們已經(jīng)攻克了成本的難題,價格也成為了一大優(yōu)勢。” 不過,在思必馳-深聰智能商務(wù)負(fù)責(zé)人王宏松看來,在智能家居場景中,智能終端的交互既包括前面提到的離線語音操控功能,但更需要支持云端一體化的功能及應(yīng)用,例如資源調(diào)用、聲紋識別、用戶ID畫像等等。該公司在2019年1月正式發(fā)布了AI專用芯片TH1520,據(jù)王宏松介紹,“我們在一年半前開始的深聰項目,定位為中高端語音交互市場,包括中高端型號的白電產(chǎn)品、家居硬件等。此外,TH1520芯片在設(shè)計之初就已規(guī)劃支持思必馳近期及未來一段時間的語音算法,算法同步和技術(shù)的迭代,將為客戶帶來更好的交互體驗。” TH1520芯片支持雙麥/四麥/六麥的線性/環(huán)形等多型號麥克風(fēng)陣列,能夠應(yīng)用的產(chǎn)品類型也十分多樣化,實現(xiàn)的語音算法功能也更為強(qiáng)大。此外,作為后續(xù)增值服務(wù),TH1520芯片針對白電產(chǎn)品提供'兩個10年保證',10年以上質(zhì)量保證,10年以上長效供應(yīng)。此外,該款芯片也支持-40°~125°C溫度范圍,可用于車載應(yīng)用。 由于語音芯片市場過于細(xì)分,需要企業(yè)根據(jù)各自目標(biāo)場景和商業(yè)模式進(jìn)行產(chǎn)品規(guī)劃。曾經(jīng)業(yè)界所擔(dān)心的“PPT造芯”、概念產(chǎn)品等等,經(jīng)過市場的新一輪檢驗后,一切都以能否產(chǎn)業(yè)化、規(guī)?;涞貫闄z驗標(biāo)準(zhǔn),得用戶者得天下。預(yù)測端側(cè)AI SoC下一步將繼續(xù)在SoC集成度、低功耗設(shè)計、以及軟件的易用性方面進(jìn)一步提升。 |
|