自從亞馬遜在2014年推出智能音箱Echo之后,蘋果、谷歌、京東、阿里這些巨頭都紛紛做起了智能音箱,當全世界最有錢最具前瞻眼光的公司都在做同一件事時,此事必有蹊蹺。 記者 | 張俊瀟 官網(wǎng) | www.datayuan.cn 微信公眾號ID | datayuancn 國內(nèi)外的巨頭們都在做音箱,恐怕有大事要發(fā)生 今年7月26日,小米跟上了巨頭們的腳步,推出了智能音箱--小愛同學。雖然小愛這位同學在市場反饋如何還未可知,但拿她來作為我們研究智能音箱的“小白鼠”最合適不過。因為相比于亞馬遜、谷歌和蘋果的智能音箱相比,小愛同學更適應“國情”和“語言環(huán)境”,跟京東、阿里來比,小愛同學前端有更多的智能產(chǎn)品可以做連接,最關鍵的是小愛同學也是這些產(chǎn)品里面最便宜的,只要299。 相比之下Google home要賣到1199元、亞馬遜Echo 1298元、蘋果 homepod 2399元、天貓精靈499元、京東叮咚798元。 從定價來看,小愛同學絕對是一款負責沖量的戰(zhàn)略級產(chǎn)品,而且值得注意的是小愛同學是小米品牌旗下產(chǎn)品,不是來自米家或者其他生態(tài)鏈公司的產(chǎn)品,可見小米重視程度之高,小愛同學如果不肩負點使命都對不起雷軍。 巨頭們?yōu)槲磥硐碌淖⒋a,智能音箱會是新一代的入口 小愛同學肩負什么使命,要看市面上這些產(chǎn)品還有什么東西沒有做到。天貓精靈和京東叮咚傾向于內(nèi)容應用,很像是一個裝載了Siri的音箱;亞馬遜Echo功能豐富,從點播歌曲、語音購物、控制家電、訂外賣、叫Uber到查銀行賬單都能實現(xiàn)。 小愛比這些產(chǎn)品走得更遠了一步,已經(jīng)開始初步實現(xiàn)對智能設備的控制。當初被人們所詬病的“雜貨鋪模式”開始在語音交互時代發(fā)揮作用,看看這些產(chǎn)品,路由器、空氣凈化器、臺燈、空調(diào)、掃地機器人、電飯煲…沒有一個巨頭能像小米一樣,靜下心干這些“低端”的苦活累活。而且同樣是生態(tài),反觀樂視… 總之,前期的準備已經(jīng)幫小米把智能家居帝國的骨架基本搭好,現(xiàn)在除了繼續(xù)強化肌體之外,最需要的就是一個大腦。 現(xiàn)在看來,小米已經(jīng)給出了答案,音箱可能就是智能家居的大腦,智能語音交互就是大腦的中樞神經(jīng)。 包括小米在內(nèi)的眾多巨頭都認為,未來實現(xiàn)智能家居的使用場景的方式是靠語音交互模式,所有像電飯煲、冰箱、空氣凈化器等智能設備,也許未來周圍都會安裝麥克風陣列接收語音。而音箱作為語音的接收器和傳播器,在接收人類語音信號和反饋語音指令擁有天然的優(yōu)勢。而且其價格適中,體積較小還方便移動,可謂是居家旅行的必備神器,因此最容易普及和推廣。 語音智能時代,手機要被拋棄了嗎? 那么很多人就會問了,這個控制中心為什么不是手機?其實這個問題更準確的提法應該是智能語音交互時代,手機為什么不是絕對核心? 手機當然不可能會被完全拋棄,只不過不再擁有絕對核心的地位。因為,首先手機已經(jīng)證明作為智能交互中心,基本是一個雞肋般的存在了。以小米智能設備的應用場景來說,用手機app控制起來并沒有物理控制方便多少。 而且即便是在智能語音的應用上,過去很多年里近場語音交互的嘗試(比如 Siri)并沒獲得很好的成果,甚至連簡單的語音輸入法也沒能普及起來,更不要提語音搜索了。 自從亞馬遜的Echo問世后,連扎克伯格也認為,語音交互的未來基本上就屬于遠場語音交互的模式了。 因為語音交互本質上其實也是一種操作系統(tǒng),音箱不過就是一個沒有屏幕的操作界面而已。從機械、手指到語音操作,雙手被一步步解放,近場語音交互并沒有解放雙手,也沒有升級操作系統(tǒng)的空間維度,用起來很不科幻,實用性難以適應未來的發(fā)展需求。 家里面闖進了陌生人,智能潛在的挑戰(zhàn)重重 盡管以智能音箱為載體的遠場語音交互得到了業(yè)界的普遍認可,但未來的挑戰(zhàn)也不容忽視。 最大的挑戰(zhàn)來自技術本身,語音交互涉及了非常復雜的技術鏈條,包括了聲學處理、語音識別、語義理解和語音合成等核心技術。再細分下來可能有成百上千種,一些抗噪音、多人聲源分辨、方言識別等等細節(jié)性技術問題就不一一討論了,這里只討論兩個大方向。 一個是和智能設備的聯(lián)動問題。 小愛同學作為主流智能音箱,已經(jīng)把行業(yè)最新的技術全部展示出來了,以目前的眼光來看,這樣的人工智能距離人們想象中的未來要相差很遠。 可以設想的智能家居生活,至少要達到這樣的場景:當你下班回家,小米手環(huán)會根據(jù)你今天的行走步數(shù)、心率數(shù)推斷出你的情緒,通過車載系統(tǒng)計算出回家的時間,數(shù)據(jù)反饋到小米手機,然后傳遞到十幾公里外的家中。當你回到家后,說一句我回來了,電視隨之開啟,空氣凈化器自動調(diào)節(jié)室內(nèi)濕度,熱水器來到你平時習慣的溫度,窗簾依著落日的余暉緩緩關閉,智能電燈的燈光隨著你的情緒慢慢變化,電飯煲也慢慢蒸騰,你喜歡的音樂在室內(nèi)蔓延…… 目前來看,小愛同學和其他設備之間的聯(lián)動還遠達不到這樣的要求。 和其他設備之間形成聯(lián)動僅僅是智能音箱的第一層任務,更深層次的應用一定是和人的互動。 這個互動不僅僅是聊天,而是通過音箱和智能設備對人行為數(shù)據(jù)的不間斷收集,最后形成對人的“了解”。 之所以稱之為智能,就在于音箱作為器物卻承擔了“思考”的功能。語音交互時代必須要完成的使命,也是語音交互超越觸屏時代的一個典型特征,就是要能為人提供最智能、最精準的搜索結果。因為語音交互不能接受像觸屏時代一樣信息的泛濫,人的一句訂票、外賣、充值等服務需要最精準的答案,音箱要充當“思考”和“篩選”的功能。通過每天對人的行為大數(shù)據(jù)的收集和分析,音箱對人會有充分的認知,這種認知就是提供精準和感性服務的基礎。 然而目前的技術還滿足不了這樣的需求。究其根本在于,目前基礎聲學和語音識別解決的僅僅是機器“聽得見”的問題,而沒有上升到“聽得懂”的高度。李開復說:“其實,聽懂講的每個字不代表聽懂了意思,甚至把英文翻譯成中文,中文翻譯成英文還是沒有搞懂。你們不要看科大迅飛的演講說懂得語音了,他一點不懂,他只能把音變成字,字變成音。你問他講什么,一個字不懂。所以,語音識別還需要做的更好。” 李開復所說的機器“聽不懂”的意思就是說,比如用戶在家里哼唱“和我在成都的街頭走一走”,智能音箱很有可能就憑借這句歌詞給用戶訂了一張去成都的機票,直接規(guī)劃好到玉林路盡頭的路線。 顯然這是有問題的。 NLP--自然語言理解技術的發(fā)展為解決這個問題提供了可能性,雖然得益于大數(shù)據(jù)和深度學習的發(fā)展, NLP也取得了很大進步,但是人類語言的復雜和多變性依舊是很難跨越的障礙,更不用說那些涉及因果關系、文字記憶和上下文邏輯推理等諸多層級的困難了。 智能音箱未來的挑戰(zhàn)還有來自技術之外的,易觀CTO郭煒就表達過這樣的擔憂:“如果日后家里擺著一臺智能音箱,有可能你說的每一句話都會被時時上傳到云端,想起來這是一件多么恐怖的事”。 但是,假如智能音箱缺少了大數(shù)據(jù)地收集功能,就意味著它沒有了“記憶”,而“思考”是要建立在“記憶”的基礎之上的,如何處理隱私和智能的關系也許是關乎行業(yè)未來走向的問題。 盡請期待,數(shù)據(jù)猿即將于10月底舉辦的“2017金融科技價值—數(shù)據(jù)驅動金融商業(yè)裂變”高峰論壇!投遞案例、文章、產(chǎn)品,聯(lián)系視頻&文字專訪,請勾搭數(shù)據(jù)猿~ |
|
來自: 數(shù)據(jù)猿 > 《待分類》