導讀 數(shù)據(jù)中心能耗是行業(yè)一貫重視的問題,傳統(tǒng)的風冷散熱方式對降低數(shù)據(jù)中心能耗具有一定的效果,但高密度大型數(shù)據(jù)中心不斷涌現(xiàn)時,液冷技術能帶來更加直接的散熱優(yōu)勢。浸沒、冷板、噴淋是目前液冷的3種主要部署方式,且都已有市場應用。隨著計算性能和密度提升,制冷會發(fā)生重大變革,數(shù)據(jù)中心和服務器行業(yè)將面臨重構的挑戰(zhàn)。 一、引言 一直以來,數(shù)據(jù)中心能耗都居高不下。尤其是我國數(shù)據(jù)中心行業(yè)發(fā)展比較晚,建設標準相對滯后,數(shù)據(jù)中心PUE普遍在2.2~3.0之間。高能耗不僅給企業(yè)帶來沉重負擔,也給社會能源造成巨大浪費。 隨著云計算和大數(shù)據(jù)技術的蓬勃發(fā)展,實際業(yè)務對底層基礎設施的性能要求越來越高。性能的提高直接導致服務器功耗的不斷增加,特別是作為服務器關鍵部件的CPU,隨著性能提升功耗增加非常顯著。在單機柜服務器數(shù)量不變的情況下,整柜的功耗幾乎翻番,可以預見,這會給機房的散熱帶來多么大的挑戰(zhàn)。 萬物互聯(lián)時代的來臨會繼續(xù)激發(fā)移動產(chǎn)品和其產(chǎn)生的數(shù)據(jù)總量持續(xù)高速增長,數(shù)據(jù)中心必須向高密度配置服務器邁進。為了應對這樣的變化,冷卻技術也需要隨之革新。2013年,工業(yè)和信息化部發(fā)布《關于數(shù)據(jù)中心建設布局的指導意見》指出,國內的大型數(shù)據(jù)中心也開始往氣候適宜、能源充足的地區(qū)建設,例如內蒙古、山西北部等,這些遷移確實給數(shù)據(jù)中心的節(jié)能帶來了收益,但還是無法從根本上滿足服務器大功耗高密度部署帶來的散熱需求。 二、液冷系統(tǒng)的優(yōu)勢 液冷技術并不是一個全新的概念,在衛(wèi)星、火箭發(fā)動機等航天領域也已有很長的應用歷史,而在數(shù)據(jù)中心領域,20世紀60年代起大型主機已經(jīng)開始采用,最為人們熟知的是IBM的System/360型91大型計算機。雖然大家都認可液冷的實用性,也有較好的實踐成果,但由于在較低熱度負荷時風冷的成本很低,且安裝部署更為簡單,所以IT產(chǎn)業(yè)在隨后的60多年里大規(guī)模使用的是風冷散熱系統(tǒng)。隨著時間的推移和技術的進步,計算機芯片的密度越來越高,所要處理的計算工作也越來越復雜,熱度負荷節(jié)節(jié)攀升,液冷技術逐漸被產(chǎn)業(yè)界拉出來“救火”。在液冷越來越頻繁地出現(xiàn)在數(shù)據(jù)中心時,它相較于風冷散熱的優(yōu)勢也逐漸顯現(xiàn)。 (1)比熱容大,散熱效率高效 液冷是指使用液體作為熱量傳輸?shù)拿浇榻档蛿?shù)據(jù)中心溫度,液體可以直接導向熱源帶走熱量,不需要像風冷一樣間接通過空氣制冷。液冷將大部分熱量通過循環(huán)介質帶走,單臺服務器需求風量降低,機房整體送風需求也隨之降低,大大減少機房回流導致的局部熱點。液冷有效抑制了CPU等元件內部溫度的瞬間提升,因此可以在一定程度上允許CPU超頻工作,增大部署密集,提高集成度。此外,液體的比熱容遠遠高于氣體,可以吸收大量的熱而保持溫度變化不大,散熱效率得到極大提升。 (2)降低能耗,減少支出成本 2017年,我國在用數(shù)據(jù)中心機架總體規(guī)模166萬架,在運行中產(chǎn)生了大量的電量消耗。這些驚人的耗電量背后是高昂的電費支出,其中散熱系統(tǒng)占絕大部分。采用液冷技術后,風扇、空調等不間斷耗電的風冷方式可以被全部或部分取代,能耗迅速降低。以市面上某款液冷服務器為例,在CPU芯片和內存上安裝了固定水冷板以解決服務器核心部件散熱問題。與風冷相比,該服務器CPU滿載工作時的核溫降低了20℃,整機能耗降低了5%。 (3)節(jié)能環(huán)保,降低噪音指標 電力在數(shù)據(jù)中心的能源消耗只有小部分是供給IT負荷,絕大部分都來自散熱負荷,散熱能耗遠高于IT設備能耗本身。通過液冷系統(tǒng)削減散熱系統(tǒng)的消耗,可以大大降低整個數(shù)據(jù)中心的能源消耗,極大降低PUE。此外,由于液冷系統(tǒng)的泵等元件比風扇的聲音更小,整個液冷系統(tǒng)的噪音比風冷系統(tǒng)大幅降低,基本可達到“靜音機房”的效果。 三、液體冷卻方式 數(shù)據(jù)通信設備的液體冷卻系統(tǒng)的冷卻子系統(tǒng)可以認為是一種液體回路,其中冷卻液體與要冷卻的部件做熱交換。有些情況下,冷卻系統(tǒng)的水由機架由CDU提供,也可以由服務多個機架的外部CDU提供。 有關數(shù)據(jù)中心內潛在的液體冷卻系統(tǒng)和回路以及使用的術語的詳細信息參見圖1。 圖1 數(shù)據(jù)中心內的液體冷卻系統(tǒng)和回路示例 為了解決數(shù)據(jù)中心的高效散熱問題,產(chǎn)業(yè)界做了大量的嘗試。上文提到的利用自然冷源進行散熱是一種降低PUE的好方法。此外,產(chǎn)業(yè)界在液冷方面也開始進行嘗試,目前來看液冷主要有冷板、浸沒和噴淋3種技術路線。 (1)冷板式液冷 冷板式液冷的主要部署方式是在液冷機柜上配置分水器,給液冷計算節(jié)點提供進出水分支管路,分支管路進出水管分別與液冷計算節(jié)點的進出水口通過接頭對接,與液冷計算節(jié)點的內冷板管路連通,實現(xiàn)液冷計算節(jié)點內液冷循環(huán)。液冷計算節(jié)點的液體在機柜級匯聚,機柜級有一進一出兩個與外部管路連接的接頭,該接頭與外置或內置CDU 連接,實現(xiàn)液冷整機液冷循環(huán),并帶走液冷計算節(jié)點的熱量。在冷板式液冷系統(tǒng)里的液冷節(jié)點中,CPU等大功耗部件采用液冷冷板散熱,其它少量發(fā)熱器件(如硬盤、接口卡等)仍采用風冷散熱系統(tǒng)。 這種散熱方式與風冷相比,密度更高、更節(jié)能、防噪音效果更好。由于冷板式液冷技術不需要昂貴的水冷機組,所以部署后,在減少總體擁有成本的同時,數(shù)據(jù)中心的能源利用效率顯著增加。目前,在風冷技術下,每機柜的功耗最多只能到30kW。而冷板式液冷在每分鐘60升的流量配置下,能達到總功耗45kW每機柜,可以實現(xiàn)更高密度的數(shù)據(jù)中心。 (2)浸沒式液冷 浸沒式液冷是近年備受業(yè)界關注的新型散熱技術,尤其在SC14全球超級計算大會上,來自國內外的多家服務器企業(yè)均展示了浸沒液冷散熱產(chǎn)品,極大提升了液冷的受關注度。 浸沒式液冷具有明顯的優(yōu)勢。首先,在浸沒式液冷中,冷卻液與發(fā)熱設備直接接觸,具有較低的對流熱阻,傳熱系數(shù)高;其次,冷卻液具有較高的熱導率和比熱容,運行溫度變化率較?。辉俅?,這種方式無需風扇,降低了能耗和噪音,制冷效率高;最后,冷卻液絕緣性能優(yōu)良,閃點高不易燃,且無毒、無害、無腐蝕。所以液冷技術適用于對熱流密度、綠色節(jié)能需求高的大型數(shù)據(jù)中心、超級計算、工業(yè)及其他計算領域和科研機構,特別是對于地處嚴寒、高海拔地區(qū),或者地勢較為特殊、空間有限的數(shù)據(jù)中心,以及對環(huán)境噪音要求較高,距離人群辦公、居住場所較近,需要靜音的數(shù)據(jù)中心具有明顯的優(yōu)勢。 浸沒式液冷系統(tǒng)為一種新型高效、綠色節(jié)能的數(shù)據(jù)中心冷卻解決方案,相較于冷板液冷,它能夠更加直接地進行熱交換,散熱效率會更高,但也會因直接接觸帶來更高的技術挑戰(zhàn)。 (3)噴淋式液冷 噴淋式液冷作為液冷的一種,其主要特征為絕緣非腐蝕的冷卻液直接噴淋到發(fā)熱器件表面或者是與發(fā)熱器件接觸的擴展表面上,進行吸熱后排走,排走的熱流體再與外部環(huán)境大冷源進行熱交換。 噴淋式液冷需對IT設備進行改造或部署相應的噴淋器件。在設備運行時,有針對性地對發(fā)熱過高的器件進行冷卻。這種方式的特點是不需要對機房基礎設施做太大的改動,只需要對服務器進行少量的改造就能實現(xiàn)較好的冷卻性能。 噴淋式液冷機柜系統(tǒng)包括噴淋式液冷機柜系統(tǒng)(含管路、布液系統(tǒng)、回液系統(tǒng)和PDU等部件)、液冷服務器、冷卻液三部分。噴淋式液冷機柜通過管路與室內熱交換器相連接,即機柜內芯片的廢熱被冷卻液吸收后傳遞到到室內熱交換器并與室外熱交換器進行換熱。在該系統(tǒng)中,服務器內部各個發(fā)熱器件要求采用分布式布局,建議發(fā)熱器件的傳熱表面的方向不與重力方向相同;機柜內部器件電功率建議不超過56kW;服務器內部無風扇,存儲硬盤需要保護和隔離;各個接口可以實現(xiàn)快拔快插。 噴淋液冷系統(tǒng)具有器件集成度高、散熱效率強、高效節(jié)能和靜音等特點,是解決大功耗機柜在IDC機房部署以及降低IT系統(tǒng)制冷費用、提升能效、降低TCO的有效手段之一。 四、國外的嘗試 為了節(jié)能,國外做了很多大膽的嘗試,例如微軟在海底建設了自給型數(shù)據(jù)中心、Facebook在靠近北極圈的地方建設數(shù)據(jù)中心等,但這些主要是依靠環(huán)境溫度進行節(jié)能控制。而回顧液冷技術在數(shù)據(jù)中心領域的發(fā)展,大概可以追溯到20世紀60年代。 1966年,IBM推出了System/360型91大型計算機,這款巨無霸產(chǎn)品以高速度和高性能優(yōu)勢被運用在大型科學計算中,如太空探索、全球氣候預測等。為了保證這個史無前例的大型機的穩(wěn)定性和高效性,IBM專門研發(fā)了水冷系統(tǒng)。隨后的幾十年里,由于在熱負荷不高的場景下風冷成本更低、技術更簡單易行,液冷漸漸消沉。雖然IBM也先后在3081大型機和Power 575超算上應用了新型水冷技術,但真正較為系統(tǒng)和成熟的應用是在2010年7月,IBM的“熱水”降溫超算Aquasar。它的出現(xiàn)再次開啟了液冷時代的新紀元,也助推IBM重回液冷巔峰。如今,IBM在德國慕尼黑部署超算中心(LRZ)SuperMUC,采用了40℃的溫水作為IT設備制冷的冷媒工質,散熱效率比普通風冷高4000倍,其產(chǎn)生的熱水可以給LRZ超級計算機中心園區(qū)的其他生活建筑供熱,每年可節(jié)省約125萬美元開支。 與IBM直接用水制冷不同,Intel與Green Revolution Cooling(GRC)歷經(jīng)一年合作后,推出了礦物油浸沒散熱系統(tǒng)。GRC是在美國國家科學基金會的初始資助下于2009年成立的一家公司,至今成立不到10年,但已在液體冷卻技術解決方案上頗有建樹和聲望。推出的這套系統(tǒng)中的礦物油比熱容是空氣的1200倍,試驗數(shù)據(jù)表明冷卻效果比傳統(tǒng)的空氣冷卻的耗能要低90%~95%。 除了Intel和GRC,美國的3M公司也在浸沒式液冷上有所突破。研制了一種被稱為NOVEC的絕緣冷卻液,這種液體比一般的去離子水、礦物油的沸點更低,能在較低溫度下沸騰和氣化。在3M的液冷系統(tǒng)中,NOVEC吸熱沸騰變?yōu)檎羝巾敳坷淠?,釋放熱量冷卻為液態(tài),循環(huán)往復逐漸降熱。 2018年,在I/O開發(fā)者大會上,Google推出了專為機器學習設計的芯片TPU的第三代,一個TPU3.0部署可提供超過100 Petaflops的運算能力,高密度的設計和高性能的計算速度讓Google不得不在其數(shù)據(jù)中心中引入液冷技術。這也是Google第一次在其數(shù)據(jù)中心中使用液冷,從發(fā)布的產(chǎn)品圖片來看,Google使用的極有可能是冷板式方式,但具體技術細節(jié)還未公開。 國外在液冷技術上的嘗試多多少少都是受性能所迫,當傳統(tǒng)的配套設施無法滿足日益增長的計算和性能需求時,新的技術勢必會被催生,液冷也是在這個情境下重整旗鼓逐漸被廠商們重視起來。 五、問題和思路 目前來看,部署液冷還需要面對很多問題。 (1)原有機房適配的問題。傳統(tǒng)機房的承重、管路等設計均來自傳統(tǒng)機柜的規(guī)格。而在液冷方式下,由于制冷方式的轉變,部署環(huán)境將會有很大的不同。如果在傳統(tǒng)機房部署液冷系統(tǒng)會帶來部署成本、部署難度等方面的問題。 (2)由于浸沒式和噴淋式會直接接觸發(fā)熱器件,液體和IT部件之間的兼容性是需要考慮的一個重要問題。IT部件長期浸泡在相關液體中,是否會對其功能和性能帶來影響需要關注和驗證。另外,液體對人體和環(huán)境的友好性也至關重要。 (3)液冷的行業(yè)標準缺失將會阻礙技術的發(fā)展。目前,各企業(yè)關于液冷的研發(fā)處于各自為戰(zhàn)野蠻生長的狀態(tài),亟需相關的行業(yè)標準組織對液冷的標準化進行管理。對液體、供配電、管控、安防和運維等各個方面制定明確的技術要求,促進液冷技術的良性發(fā)展。 (4)我國各大服務器廠商基本都在進行液冷服務器的研發(fā)。如果國家能有相關專項進行研發(fā)資金的支持,將會更好地推動液冷技術國產(chǎn)化的發(fā)展,拉近我國與國際先進水平的距離,更好地實現(xiàn)液冷由中國制造向中國智造的轉變。 液冷是一項投入巨大、產(chǎn)出過程較慢的高技術系統(tǒng)工程。除了必須具備傳統(tǒng)服務器的設計研發(fā)能力之外,還需要有流體相關的經(jīng)驗積累。目前,國內僅有曙光、華為、聯(lián)想、浪潮等幾個傳統(tǒng)服務器廠商具有相關產(chǎn)品,此外綠色云圖、廣東合一也在浸沒式和噴淋式液冷方面積累了一定的經(jīng)驗。 我國數(shù)據(jù)中心行業(yè)組織開放數(shù)據(jù)中心技術推進委員會(ODCC)于2017年成立了液冷項目組,與上述企業(yè)以及中國信息通信研究院、百度、騰訊、阿里、美團、京東、中國移動、中國電信等用戶單位一起,發(fā)起液冷系列規(guī)范的編寫。整個技術規(guī)范將從液體、管線、IT設備、配電等方面進行考量,還對液冷系統(tǒng)的測試驗證做了相應規(guī)劃,包括基礎性能、應用性能、熱工性能、變負載、可靠性等各個方面。系列規(guī)范已于2018年10月16日“2018開放數(shù)據(jù)中心峰會”上正式發(fā)布。 六、結束語 液冷技術起步不久,還有很多問題亟待解決。例如,機房的承重問題,每平方米1.5噸以上的載荷會對老舊機房的地板帶來巨大壓力;還有硬盤的失效率問題,從目前技術來看,硬盤的失效率并不會因為溫度降低而降低。另外,液冷的行業(yè)標準目前還一片空白,雖然標準上的開放可以助推更多創(chuàng)新技術出世,但這對于液冷的性能安全、配套設施、人員監(jiān)管、市場推廣等長遠發(fā)展其實都很不利。 液冷服務器的部署對于數(shù)據(jù)中心機房的要求、制冷的要求、服務器部件的要求等都完全不同于風冷,它將會給服務器甚至數(shù)據(jù)中心的整條產(chǎn)業(yè)鏈帶來一次重構,這也體現(xiàn)了數(shù)據(jù)中心行業(yè)多專業(yè)融合的趨勢,對于整個行業(yè)來說將是巨大的挑戰(zhàn)。 作者簡介 |
|