一個簡短的書面采訪紀(jì)要,供大家參考拍磚~~ 也吹了吹互聯(lián)網(wǎng)科學(xué)中心和百分點(diǎn)科技~~ ---------------------------------------------- 問題一:什么是大數(shù)據(jù)?
“大數(shù)據(jù)”首先是指規(guī)模大的數(shù)據(jù),但又不僅如此?!按髷?shù)據(jù)”還有“交叉復(fù)用”和“全息可見”兩個特征。
如果每一個數(shù)據(jù)都是一個孤島,只能在其直接關(guān)聯(lián)的領(lǐng)域發(fā)揮自身的價值,那么這不是值得我們興奮的所謂“大數(shù)據(jù)”。我們要找到和實現(xiàn)數(shù)據(jù)之間一加一遠(yuǎn)大于二的價值,也就是發(fā)揮數(shù)據(jù)的外部性。譬如國家電網(wǎng)的用電數(shù)據(jù)可以用于判斷經(jīng)濟(jì)走勢,移動通訊基站定位數(shù)據(jù)可以用于優(yōu)化城市交通設(shè)計,微博上的關(guān)注關(guān)系和內(nèi)容信息可以用于購物推薦和廣告推送……以用戶為中心,結(jié)合用戶在不同系統(tǒng)留下的數(shù)據(jù),充分利用個性化的數(shù)據(jù)挖掘技術(shù),是實現(xiàn)通過數(shù)據(jù)交叉而產(chǎn)生巨大價值的最可行的途徑。一句話,大數(shù)據(jù)要求數(shù)據(jù)能充分發(fā)揮其外部性并通過與某些相關(guān)數(shù)據(jù)交叉融合產(chǎn)生遠(yuǎn)大于簡單加和的巨大價值!
如果谷歌把每天所有更新的數(shù)據(jù)按照他們內(nèi)部約定的格式開放給一個三四個人組成的科研或創(chuàng)業(yè)團(tuán)隊,這種仁善之舉不會對這個團(tuán)隊有任何的幫助,因為他們沒有針對這種量級的數(shù)據(jù)進(jìn)行檢索、抓取、計算、分析的能力。也許他們僅僅只對數(shù)據(jù)內(nèi)部的一個特定邏輯片段有興趣,但是他們沒有辦法知道這個邏輯片段位于這個數(shù)據(jù)的哪個位置,以及通過什么辦法獲取。想象一個披著盔甲的二維生物,其他二維生物無法看到它的內(nèi)部,但是我們作為三維人,卻可以通過第三個維度看到它所有的一切細(xì)節(jié)——低維物品對于高維生物而言是全息可見的。所以說,大數(shù)據(jù)規(guī)??梢院艽螅怯闷饋響?yīng)該舉重若輕,像操作“小數(shù)據(jù)”一樣簡單,這就要求數(shù)據(jù)組織地非常好,內(nèi)部的各種內(nèi)容及關(guān)聯(lián)清晰可見且容易調(diào)用獲取,使得一般研究人員和開發(fā)人員可以自如獲取數(shù)據(jù)的邏輯片段并進(jìn)行分析處理。
問題二:大數(shù)據(jù)時代下的商業(yè)未來是什么樣的?
大數(shù)據(jù)時代最尖銳的矛盾之一,是可獲取信息量的爆炸性增長和用戶甄別選擇信息能力的有限性。大數(shù)據(jù)時代最重要的機(jī)會這一,是大量數(shù)據(jù)開始圍繞個人流動。結(jié)合矛盾和機(jī)會,我認(rèn)為在大數(shù)據(jù)時代,個性化將顛覆一切傳統(tǒng)商業(yè)模式,成為未來商業(yè)發(fā)展的終極方向和新驅(qū)動力。
隨著消費(fèi)者個體行為數(shù)據(jù)的爆發(fā)性增長,新的商業(yè)理論與商業(yè)模式不斷涌現(xiàn),無論是精準(zhǔn)社會化營銷還是基于用戶偏好的市場細(xì)分,其所指向的趨勢是一致的,即為每一個終端消費(fèi)者提供他們最想要的產(chǎn)品與服務(wù)。大數(shù)據(jù)為個性化商業(yè)應(yīng)用提供了充足的養(yǎng)分和可持續(xù)發(fā)展的沃土,基于交叉融合后的可流轉(zhuǎn)性數(shù)據(jù),以及全息可見的消費(fèi)者個體行為與偏好數(shù)據(jù),未來的商業(yè)可以精準(zhǔn)地根據(jù)每一位消費(fèi)者不同的興趣與偏好為他們提供專屬性的個性化產(chǎn)品和服務(wù)。
在以互聯(lián)網(wǎng)和移動互聯(lián)網(wǎng)為代表的信息產(chǎn)業(yè),由于用戶個體行為數(shù)據(jù)的可追蹤性以及實施個性化的邊際成本相對較低,基于個性化的商業(yè)應(yīng)用首先破繭而出。在我國電子商務(wù)領(lǐng)域,百分點(diǎn)科技率先通過個性化技術(shù)為用戶進(jìn)行智能導(dǎo)購,大幅提升用戶體驗與銷售業(yè)績。而更好信息服務(wù)的基礎(chǔ),恰是基于百分點(diǎn)科技累積的2億多不同用戶對8000多萬種商品的瀏覽、收藏、購物等行為。百分點(diǎn)科技亦在媒體、金融、醫(yī)療等領(lǐng)域嘗試提供個性化服務(wù)。在不遠(yuǎn)的未來,個性化技術(shù)與應(yīng)用將全面擴(kuò)展到人們生活的每一個領(lǐng)域。
我建議讀者結(jié)合閱讀牛津大學(xué)互聯(lián)網(wǎng)研究所維克托教授的著作《大數(shù)據(jù)時代》和北京大學(xué)光華管理學(xué)院蘇萌教授的著作《個性化:商業(yè)的未來》,必有所獲。
問題三:大數(shù)據(jù)時代最核心的科學(xué)問題是什么?
預(yù)測是大數(shù)據(jù)最核心的科學(xué)問題。目前學(xué)術(shù)界主要關(guān)心兩類預(yù)測問題,一是趨勢預(yù)測,二是缺失信息預(yù)測。
趨勢預(yù)測是指通過事物的一些基本屬性信息和早期的態(tài)勢分析,預(yù)測事物發(fā)展的軌跡和最終影響力。譬如通過分析社交網(wǎng)絡(luò)中注冊一個月的用戶的行為以及這些用戶與其他用戶的互動,預(yù)測哪些用戶將來會成為很有影響力的用戶;通過用戶-商品二部分圖中產(chǎn)品的早期表現(xiàn),例如一首新歌或一個新歌手上線一周的情況,來預(yù)測這首歌或者這個歌手有沒有可能走紅;通過一條信息早期數(shù)小時在微博網(wǎng)絡(luò)上的傳播情況,來預(yù)測這條信息最終的影響力等等。趨勢預(yù)測的經(jīng)濟(jì)價值重大?;ヂ?lián)網(wǎng)科學(xué)中心曾與華為合作研發(fā)了手機(jī)彩鈴下載量預(yù)測系統(tǒng),該系統(tǒng)幫助營銷部門設(shè)計市場推廣策略,獲得了巨大的經(jīng)濟(jì)回報。
缺失信息預(yù)測假設(shè)我們觀察到的信息只是全部真實信息的一部分,在這個基礎(chǔ)上探討如何利用當(dāng)前信息去預(yù)測未觀察到得信息。譬如我們現(xiàn)在通過實驗所知道的蛋白質(zhì)之間的相關(guān)作用關(guān)系只是全部關(guān)系中很小的一部分,但是實驗驗證費(fèi)用昂貴,通過預(yù)測,預(yù)先判斷哪些蛋白質(zhì)之間可能有相互作用并以此指導(dǎo)實驗,能夠大大節(jié)省實驗成本。又比如,新浪微博上的關(guān)注對象推薦是一種典型的缺失信息預(yù)測,因為做出推薦的基本假設(shè)是“某甲應(yīng)該關(guān)注某乙,只不過現(xiàn)在還沒有關(guān)注”。
問題四:大數(shù)據(jù)會帶來什么弊端?
同一切新興事物一樣,大數(shù)據(jù)向我們展現(xiàn)美好前景的同時,也會帶來若干不安因素。其中,站在普通用戶的角度,我覺得最應(yīng)該擔(dān)心的是隱私泄露的問題。隱私問題一直存在,但是以前泄露的方式和途徑比較零散,而大數(shù)據(jù)的技術(shù)和理念,使得企業(yè)和政府有可能以前所未有的力度和粒度掌握我們個人的信息,拼出一個人的全景信息。
與戰(zhàn)戰(zhàn)兢兢于如何更好保護(hù)自己的觀念不同,我認(rèn)為普通用戶如果要真正融入大數(shù)據(jù)時代,享受個性化專屬信息服務(wù),不得不犧牲一部分個人隱私——實際上,即便你不愿意,一般用戶也沒有能力保護(hù)自己的隱私。所以,付出巨大努力,放棄很多有意義的服務(wù),嘗試保護(hù)自己,往往是得不償失。反過來,政府和業(yè)界需要做的,是設(shè)計非??量虈?yán)格的法律條例和行業(yè)規(guī)則,全力打擊那些除了提供非侵入性的或用戶同意的服務(wù)外,還以傷害用戶的方式利用用戶隱私牟利的企業(yè)。通過提高侵害用戶隱私的懲罰力度,使得這種行為本身變得得不償失,這才是根本治理的辦法。
對于其他可能的弊端也應(yīng)類似,一方面要提高用戶的警惕性,另一方面也不能把防范弊端的擔(dān)子放到用戶身上,而要由政府和業(yè)界承擔(dān)更多責(zé)任! http://blog.sciencenet.cn/blog-3075-660056.html 上一篇:Zipf定律和Heaps定律之間的關(guān)系 下一篇:我的谷歌學(xué)術(shù)主頁-歡迎訪問 |
|