小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

Hadoop在雅虎的應(yīng)用情況

 dream2ca 2011-04-27

Hadoop在雅虎的應(yīng)用情況

On 2010年07月15日, in highscalability, by netoearth

雅虎首席產(chǎn)品官 Blake Irving 吹響了2010 Hadoop峰會(huì)的嗚嗚祖啦(2010南非世界杯助威工具) 雅虎發(fā)表的主題演講闡述了他們的使用規(guī)模,貢獻(xiàn)的技術(shù)方向,以及他們?nèi)绾螒?yīng)用這項(xiàng)技術(shù)的架構(gòu)模式。

顯而易見,Hadoop 受到越來越多的關(guān)注:今年的會(huì)議有 1000人參加并且門票在會(huì)前10天就告售罄,人數(shù)較前年的300,去年的650有大幅的增長。Java之父,James Gosling 也參加了該會(huì)議。這次會(huì)議標(biāo)志著Hadoop 5周年(大約)。Irving指出世界上只有5%的數(shù)據(jù)是結(jié)構(gòu)化的,而非結(jié)構(gòu)化數(shù)據(jù)一直保持極大的增長,這些新產(chǎn)生的數(shù)據(jù)的特點(diǎn)是更多的瞬時(shí)性。他強(qiáng)調(diào) Yahoo使用Hadoop來分析每一個(gè)頁面點(diǎn)擊并優(yōu)化內(nèi)容的排名,每7分鐘更新一次結(jié)果。他指出“我們相信Hadoop已經(jīng)為主流企業(yè)的應(yīng)用做好了準(zhǔn) 備”。

雅虎的云計(jì)算高級(jí)副總裁,Shelton Shugar指出,雅虎每天為1000億事件產(chǎn)生120TB數(shù)據(jù)輸入,目前儲(chǔ)存了70PB,而其最高存儲(chǔ)容量是170PB。雅虎每天處理3PB數(shù)據(jù),每個(gè) 月在38000臺(tái)服務(wù)器上運(yùn)行超過百萬個(gè)任務(wù)。由于雅虎的Hadoop的使用范圍不斷擴(kuò)大,他們已經(jīng)需要為主流應(yīng)用程序員作為準(zhǔn)備,建立支持提供和更好的 管理工具和數(shù)據(jù)安全。他指出,雅虎在生產(chǎn)環(huán)境中將Hadoop應(yīng)用于各種產(chǎn)品:

  • 數(shù)據(jù)分析
  • 內(nèi)容優(yōu)化
  • 雅虎公司反垃圾郵件
  • 廣告產(chǎn)品
  • 廣告優(yōu)化
  • 廣告選擇
  • 大數(shù)據(jù)處理和ETL

雅虎還在其應(yīng)用科研中大量使用Hadoop,比如:

  • 用戶興趣預(yù)測(cè)
  • 廣告庫存預(yù)測(cè)
  • 搜索排名
  • 廣告定位
  • 垃圾郵件過濾

Eric Baldeschwiele,雅虎Hadoop軟件開發(fā)副總裁指出,在去年雅虎已經(jīng):

  • 把他們的集群從每個(gè)2000節(jié)點(diǎn)增加到4000個(gè)節(jié)點(diǎn)
  • 受惠于摩爾定律帶來的CPU計(jì)算能力增加,每個(gè)節(jié)點(diǎn)的任務(wù)數(shù)翻了一倍
  • 現(xiàn)在有超過80%的磁盤利用率,通常50-60%的CPU使用率,并且數(shù)據(jù)使用的增長速度高于處理使用
  • 貢獻(xiàn)了超過70%的Hadoop補(bǔ)丁

他們?cè)谌ツ甑闹攸c(diǎn)是改善Hadoop的map-reduce,這包括:

  • 一個(gè)新的容量調(diào)度程序
  • 任務(wù)跟蹤的穩(wěn)定性和支持混合工作負(fù)載的健壯性
  • 增加資源的使用的限制:安全圍欄(safety rails)

現(xiàn)在他們的重點(diǎn)是開發(fā)Hadoop的分布式文件系統(tǒng),HDFS:

  • 在他們的每一個(gè)集群節(jié)點(diǎn)的存儲(chǔ)現(xiàn)在是12TB。他們現(xiàn)正興建一個(gè)48PB的集群 – 由于Name節(jié)點(diǎn)可伸縮性的限制,“這對(duì)Hadoop來說是顛覆性的 “
  • 提高內(nèi)存,連接和緩沖區(qū)的使用,并提供度量的體系。
  • 把存儲(chǔ)拆分成一組文件卷集(使用多個(gè)HDFS集群)
  • 在Hadoop的下一個(gè)主要版本將會(huì)發(fā)布跨HDFS實(shí)例的聯(lián)合存儲(chǔ)

Baldeschwieler 解釋雅虎如何個(gè)性化他們的主頁:

  • 實(shí)時(shí)服務(wù)系統(tǒng)使用Apache從數(shù)據(jù)庫中讀取從user到interest的映射
  • 每隔5分鐘,他們使用生產(chǎn)環(huán)境中的Hadoop集群基于最新數(shù)據(jù)重新排列內(nèi)容,并每7分鐘更新結(jié)果
  • 每個(gè)星期,他們?cè)贖adoop科研集群上重新計(jì)算他們關(guān)于類別的機(jī)器學(xué)習(xí)模式

雅虎Mail以類似的方式使用Hadoop:

  • 在生產(chǎn)集群上頻繁根據(jù)垃圾郵件模式為郵件計(jì)分
  • 每隔幾個(gè)小時(shí)在科研集群上訓(xùn)練反垃圾郵件模型。
  • 該系統(tǒng)每天推動(dòng)50億次的郵件投遞,覆蓋了4.5億個(gè)郵箱

因?yàn)镠DFS有一個(gè)單點(diǎn)故障(Name節(jié)點(diǎn)),這對(duì)高可用性生產(chǎn)系統(tǒng)來說是個(gè)風(fēng)險(xiǎn)。為了減輕該風(fēng)險(xiǎn),雅虎將數(shù)據(jù)復(fù)制到多個(gè)群集,因此分布式文件系統(tǒng) 的中斷可以使用備份文件系統(tǒng)來彌補(bǔ)和解決。在雅虎的演講中, 除了自己的Pig項(xiàng)目,他們表示正在使用Hadoop的Hive項(xiàng)目。

Baldeschwieler宣布,雅虎已經(jīng)發(fā)布了Hadoop Security的Beta測(cè)試 版,它使用Kerberos進(jìn)行身份驗(yàn)證,并允許在同一集群托管商業(yè)敏感數(shù)據(jù)。他們還發(fā)布了Oozie,一個(gè)Hadoop的工作流引擎,這已在雅虎成為事實(shí) 上的ETL標(biāo)準(zhǔn)。它集成了MapReduce,HDFS,Pig和Hadoop Security。

總體而言,雅虎展示了其在Hadoop技術(shù)的持續(xù)領(lǐng)導(dǎo)地位,與此同時(shí)他們感到高興的是,領(lǐng)先的互聯(lián)網(wǎng)公司和獨(dú)立技術(shù)供應(yīng)商紛紛加入到了這一生態(tài)系統(tǒng) 當(dāng)中來。

查看英文原文:Yahoo! Updates from Hadoop Summit 2010

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多