雅虎首席產(chǎn)品官 Blake Irving 吹響了2010 Hadoop峰會(huì)的嗚嗚祖啦(2010南非世界杯助威工具) 雅虎發(fā)表的主題演講闡述了他們的使用規(guī)模,貢獻(xiàn)的技術(shù)方向,以及他們?nèi)绾螒?yīng)用這項(xiàng)技術(shù)的架構(gòu)模式。 顯而易見,Hadoop 受到越來越多的關(guān)注:今年的會(huì)議有 1000人參加并且門票在會(huì)前10天就告售罄,人數(shù)較前年的300,去年的650有大幅的增長。Java之父,James Gosling 也參加了該會(huì)議。這次會(huì)議標(biāo)志著Hadoop 5周年(大約)。Irving指出世界上只有5%的數(shù)據(jù)是結(jié)構(gòu)化的,而非結(jié)構(gòu)化數(shù)據(jù)一直保持極大的增長,這些新產(chǎn)生的數(shù)據(jù)的特點(diǎn)是更多的瞬時(shí)性。他強(qiáng)調(diào) Yahoo使用Hadoop來分析每一個(gè)頁面點(diǎn)擊并優(yōu)化內(nèi)容的排名,每7分鐘更新一次結(jié)果。他指出“我們相信Hadoop已經(jīng)為主流企業(yè)的應(yīng)用做好了準(zhǔn) 備”。 雅虎的云計(jì)算高級(jí)副總裁,Shelton Shugar指出,雅虎每天為1000億事件產(chǎn)生120TB數(shù)據(jù)輸入,目前儲(chǔ)存了70PB,而其最高存儲(chǔ)容量是170PB。雅虎每天處理3PB數(shù)據(jù),每個(gè) 月在38000臺(tái)服務(wù)器上運(yùn)行超過百萬個(gè)任務(wù)。由于雅虎的Hadoop的使用范圍不斷擴(kuò)大,他們已經(jīng)需要為主流應(yīng)用程序員作為準(zhǔn)備,建立支持提供和更好的 管理工具和數(shù)據(jù)安全。他指出,雅虎在生產(chǎn)環(huán)境中將Hadoop應(yīng)用于各種產(chǎn)品:
雅虎還在其應(yīng)用科研中大量使用Hadoop,比如:
Eric Baldeschwiele,雅虎Hadoop軟件開發(fā)副總裁指出,在去年雅虎已經(jīng):
他們?cè)谌ツ甑闹攸c(diǎn)是改善Hadoop的map-reduce,這包括:
現(xiàn)在他們的重點(diǎn)是開發(fā)Hadoop的分布式文件系統(tǒng),HDFS:
Baldeschwieler 解釋雅虎如何個(gè)性化他們的主頁:
雅虎Mail以類似的方式使用Hadoop:
因?yàn)镠DFS有一個(gè)單點(diǎn)故障(Name節(jié)點(diǎn)),這對(duì)高可用性生產(chǎn)系統(tǒng)來說是個(gè)風(fēng)險(xiǎn)。為了減輕該風(fēng)險(xiǎn),雅虎將數(shù)據(jù)復(fù)制到多個(gè)群集,因此分布式文件系統(tǒng) 的中斷可以使用備份文件系統(tǒng)來彌補(bǔ)和解決。在雅虎的演講中, 除了自己的Pig項(xiàng)目,他們表示正在使用Hadoop的Hive項(xiàng)目。 Baldeschwieler宣布,雅虎已經(jīng)發(fā)布了Hadoop Security的Beta測(cè)試 版,它使用Kerberos進(jìn)行身份驗(yàn)證,并允許在同一集群托管商業(yè)敏感數(shù)據(jù)。他們還發(fā)布了Oozie,一個(gè)Hadoop的工作流引擎,這已在雅虎成為事實(shí) 上的ETL標(biāo)準(zhǔn)。它集成了MapReduce,HDFS,Pig和Hadoop Security。 總體而言,雅虎展示了其在Hadoop技術(shù)的持續(xù)領(lǐng)導(dǎo)地位,與此同時(shí)他們感到高興的是,領(lǐng)先的互聯(lián)網(wǎng)公司和獨(dú)立技術(shù)供應(yīng)商紛紛加入到了這一生態(tài)系統(tǒng) 當(dāng)中來。 |
|