阿里推出AI圖生視頻模型EMO 只要一張照片加上音頻,就能讓你說話唱歌,阿里做到了。 最近,阿里新上線了一款A(yù)I圖片-音頻-視頻模型技術(shù)EMO,用戶只需要提供一張照片和一段任意音頻文件,EMO即可生成會說話唱歌的AI視頻。以及實現(xiàn)無縫對接的動態(tài)小視頻,最長時間可達1分30秒左右。 阿里研究團隊表示,EMO可以生成具有表情豐富的面部表情和各種頭部姿勢的聲音頭像視頻,同時,其可以根據(jù)輸入視頻的長度生成任意持續(xù)時間的視頻。 你可以想象一下,用單張靜態(tài)AI美女頭像就可以生成唱歌視頻,讓前段時間OpenAI sora生成的女主唱歌,或者說用一張張國榮的肖像就可以“復(fù)活”張國榮唱粵語歌。 值得一提的是,生成的視頻中人物表情非常到位,口型、語速也都能完全匹配。 EMO框架介紹 圖源:GitHub官網(wǎng) 結(jié)合最近Sora在全球爆火的消息,以及國內(nèi)各大公司都積極布局AI生成視頻的動作,阿里這次新推出EMO,是要緊跟市場形勢。 比較來看,與Sora由文本生成視頻不同的是,阿里的EMO是圖片生成視頻。但無論如何,視頻生成模型賽道已經(jīng)成為各大科技互聯(lián)網(wǎng)公司的投入重點。在近日的財報電話會上,百度董事長李彥宏表示,多模態(tài)的融合,從文字到視頻是非常重要的未來基礎(chǔ)模型開發(fā)方向,百度已經(jīng)進行投資并將持續(xù)進行投資。 對于阿里來說,在AI方面的布局,阿里從來沒有掉隊過。 去年4月,阿里已經(jīng)推出了“通義千問”語言大模型,具備多輪對話、文案創(chuàng)作、邏輯推理等功能。在當(dāng)時的阿里云峰會上,阿里云智能集團CEO張勇還高調(diào)宣布,阿里巴巴所有產(chǎn)品未來將接入“通義千問”大模型,進行全面改造。 不僅包括天貓、淘寶這樣阿里集團最核心的產(chǎn)品,還涉及釘釘、高德地圖、閑魚、餓了么、優(yōu)酷、盒馬、淘票票等其他產(chǎn)品。 在主營電商業(yè)務(wù),阿里已經(jīng)推出面向C端用戶的AI產(chǎn)品“淘寶問問”,類似于淘寶的導(dǎo)購,幫助用戶更便捷地購物。阿里還將AI用在不同領(lǐng)域,比如探索醫(yī)療AI前沿技術(shù)、在招聘方面搭建“招聘+AI平臺”等。 晚點LatePost報道稱,阿里巴巴旗下淘天集團和國際數(shù)字商業(yè)集團都已經(jīng)建立了完整的AI團隊。去年11月末,淘天集團將原本約20個團隊收攏為4個,分別負(fù)責(zé)阿里媽媽、C端消費者、B端商家以及行業(yè)特色應(yīng)用,并且對內(nèi)發(fā)布了淘天自己的大模型產(chǎn)品“圖靈”。 阿里內(nèi)部一直在強調(diào)AI的重要性,馬云甚至在阿里內(nèi)網(wǎng)發(fā)聲,AI電商時代才剛剛開始,對誰都是機會,也是挑戰(zhàn)。 如今,隨著市場的不斷變化,阿里需要轉(zhuǎn)型變革。用阿里集團CEO吳泳銘一句話:“AI時代,阿里巴巴要成為一家服務(wù)全社會AI創(chuàng)新的、開放的科技平臺企業(yè)?!?/span> AI時代,阿里云承擔(dān)重任 阿里要成為一家科技公司,關(guān)鍵在阿里云。尤其是在AI方面,阿里云是阿里巴巴在AI布局上的重中之重,是各項業(yè)務(wù)能夠應(yīng)用到AI的核心引擎。 阿里云在人工智能領(lǐng)域的布局提升了阿里巴巴整體的市場競爭力。通過訓(xùn)練和優(yōu)化大模型,阿里云提供更加準(zhǔn)確和高效的自然語言處理、圖像識別、語音識別等服務(wù),這些服務(wù)可以應(yīng)用于阿里巴巴的各個業(yè)務(wù)場景中,如電商、物流、金融等,從而推動業(yè)務(wù)的創(chuàng)新和發(fā)展。 反之,各行業(yè)對于AI云服務(wù)的需求,也為阿里云AI業(yè)務(wù)的發(fā)展提供了廣闊的市場規(guī)模。此前阿里云原董事長兼CEO張勇曾表示,AI云服務(wù)需求非常旺盛,增量機會剛剛開始釋放。 2023年以來,阿里云發(fā)布了一系列生成式AI模型,這些模型都受到市場歡迎。6月,阿里云通義大模型推出了新產(chǎn)品“通義聽悟”,可對音視頻內(nèi)容進行轉(zhuǎn)寫、檢索、摘要和整理等,幫助用戶在開會、上網(wǎng)課、看視頻時更輕松瀏覽視頻內(nèi)容。 發(fā)布當(dāng)月,通義聽悟用戶數(shù)已達36萬,處理音頻時長5萬小時,處理文字超8億。 7月,阿里云又推出繪畫創(chuàng)作大模型“通義萬相”,可輔助人類進行圖片創(chuàng)作,未來可應(yīng)用于藝術(shù)設(shè)計、電商、游戲和文創(chuàng)等應(yīng)用場景。 同一個月,妙鴨相機向公眾開放,這是一款基于AI技術(shù)的寫真生成工具。當(dāng)月內(nèi)“妙鴨相機”就多次登頂IOS應(yīng)用排行榜,排隊人數(shù)峰值能達到4000-5000。甚至成為中國AIGC領(lǐng)域第一個爆火的C端產(chǎn)品,一上線就實現(xiàn)了付費使用。 圖源:妙鴨相機 可以預(yù)見,目前上線的AI圖生視頻模型EMO,或許又是一個火爆的AI產(chǎn)品。而阿里的這些AI技術(shù)的發(fā)展,離不開阿里云基礎(chǔ)設(shè)施建設(shè)。 去年11月,阿里巴巴集團CEO吳泳銘,明確了阿里云的戰(zhàn)略定位,即“AI驅(qū)動、公共云優(yōu)先”,表示為各行各業(yè)提供穩(wěn)定高效的AI基礎(chǔ)設(shè)施,共建開放繁榮的AI生態(tài)。 然而就在當(dāng)月,阿里云就迎來了新一輪組織架構(gòu)調(diào)整,幅度很大,不僅在阿里集團層面成立了一個基礎(chǔ)設(shè)施委員會,同時阿里云在產(chǎn)研線、商業(yè)線以及包括供應(yīng)鏈&IDC等在內(nèi)的其他8個部門也均產(chǎn)生變動。 繼11月底進行組織結(jié)構(gòu)調(diào)整后,阿里云又進一步調(diào)整了業(yè)務(wù)重心,精簡為政企客戶定制的行業(yè)解決方案項目制業(yè)務(wù),并砍掉 IoT(物聯(lián)網(wǎng))業(yè)務(wù)線硬件集成業(yè)務(wù)并縮減相關(guān)人員。同時,阿里云還逐步擴大了公共云事業(yè)部和AI部門的招聘規(guī)模。這也意味著,阿里云重新進行資源整合,將重心轉(zhuǎn)移至公共云事業(yè)部和AI部門。 當(dāng)前阿里云面臨的是瞬息萬變的市場環(huán)境,必須要不斷改變與革新,時刻迎接挑戰(zhàn)。 國內(nèi)云計算市場仍是藍海 在過去,阿里云一直占據(jù)著中國公共云市場的主要份額,有著顯著優(yōu)勢。隨著越來越多的企業(yè)進入云服務(wù)市場,阿里面對的市場的競爭格局更加復(fù)雜。 阿里不得不采取行動,2月29日,阿里云全線下調(diào)云產(chǎn)品官網(wǎng)售價,平均降價幅度超過20%,最高降幅達55%。這是阿里云史上最大力度的一次降價,涉及100多款產(chǎn)品、500多個產(chǎn)品規(guī)格,覆蓋計算、存儲、數(shù)據(jù)庫等所有核心產(chǎn)品。 圖源:阿里云 而在去年4月,阿里云已經(jīng)宣布對核心產(chǎn)品進行大規(guī)模降價。如今,阿里云的降價力度遠超去年,可見阿里對進一步擴大公共云基數(shù)和規(guī)模的急切。畢竟,除了阿里云,其他云服務(wù)廠商也打起來價格戰(zhàn)。比如去年騰訊云、移動云、京東云等均給出了不小的降價和促銷力度。 可以看出,各大互聯(lián)網(wǎng)企業(yè)加速搶奪市場份額。之所以競爭愈發(fā)激烈,是因為國內(nèi)云計算市場仍處于藍海,還有很大的發(fā)展空間。 據(jù)了解,中國云計算發(fā)展了十多年,但公共云滲透率仍大幅低于歐美成熟市場。中國市場的服務(wù)器存量規(guī)模2000萬臺,而美國為2100萬臺,但美國以公共云形式提供服務(wù)的算力占比為60%,中國僅為28%。 可見,我國在公共云服務(wù)領(lǐng)域以及整體算力資源的利用效率上尚存顯著提升空間,而這背后蘊藏的,無疑是巨大的增長潛力和發(fā)展機遇。 如今對于阿里云來說,外部競爭愈發(fā)激烈,而阿里云在提高云服務(wù)的穩(wěn)定性方面還需進一步加強。 總的來說,隨著公有云市場硝煙再起,阿里云需要在AI與公共云市場中建立、守住優(yōu)勢。 作者 | 周文君 |
|