小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

Ceph:一個(gè) Linux PB 級(jí)分布式文件系統(tǒng)

 落葉_free 2013-10-17

探索 Ceph 文件系統(tǒng)和生態(tài)系統(tǒng)

Linux?持續(xù)不斷進(jìn)軍可擴(kuò)展計(jì)算空間,特別是可擴(kuò)展存儲(chǔ)空間。Ceph 最近才加入到 Linux 中令人印象深刻的文件系統(tǒng)備選行列,它是一個(gè)分布式文件系統(tǒng),能夠在維護(hù) POSIX 兼容性的同時(shí)加入了復(fù)制和容錯(cuò)功能。探索 Ceph 的架構(gòu),學(xué)習(xí)它如何提供容錯(cuò)功能,簡(jiǎn)化海量數(shù)據(jù)管理。

M. Tim Jones, 自由作家

2010 年 6 月 12 日

聯(lián)系 Tim

Tim 是最受歡迎,作品最多的四位作者之一。瀏覽 developerWorks 上 Tim 的所有文章。查看 Tim 的個(gè)人簡(jiǎn)介,聯(lián)系他和其他作者,以及在 My developerWorks 中的其他讀者。

作為一名存儲(chǔ)行業(yè)的架構(gòu)師,我對(duì)文件系統(tǒng)情有獨(dú)鐘。這些系統(tǒng)用來(lái)存儲(chǔ)系統(tǒng)的用戶界面,雖然它們傾向于提供一系列類似的功能,但它們還能夠提供差異顯著的功能。Ceph 也不例外,它還提供一些您能在文件系統(tǒng)中找到的最有趣的功能。

Ceph 最初是一項(xiàng)關(guān)于存儲(chǔ)系統(tǒng)的 PhD 研究項(xiàng)目,由 Sage Weil 在 University of California, Santa Cruz(UCSC)實(shí)施。但是到了 2010 年 3 月底,您可以在主線 Linux 內(nèi)核(從 2.6.34 版開始)中找到 Ceph 的身影。雖然 Ceph 可能還不適用于生產(chǎn)環(huán)境,但它對(duì)測(cè)試目的還是非常有用的。本文探討了 Ceph 文件系統(tǒng)及其獨(dú)有的功能,這些功能讓它成為可擴(kuò)展分布式存儲(chǔ)的最有吸引力的備選。

Ceph 目標(biāo)

為什么選 “Ceph”?

“Ceph” 對(duì)一個(gè)文件系統(tǒng)來(lái)說是個(gè)奇怪的名字,它打破了大多數(shù)人遵循的典型縮寫趨勢(shì)。這個(gè)名字和 UCSC(Ceph 的誕生地)的吉祥物有關(guān),這個(gè)吉祥物是 “Sammy”,一個(gè)香蕉色的蛞蝓,就是頭足類中無(wú)殼的軟體動(dòng)物。這些有多觸角的頭足類動(dòng)物,提供了一個(gè)分布式文件系統(tǒng)的最形象比喻。

開發(fā)一個(gè)分布式文件系統(tǒng)需要多方努力,但是如果能準(zhǔn)確地解決問題,它就是無(wú)價(jià)的。Ceph 的目標(biāo)簡(jiǎn)單地定義為:

  • 可輕松擴(kuò)展到數(shù) PB 容量
  • 對(duì)多種工作負(fù)載的高性能(每秒輸入/輸出操作[IOPS]和帶寬)
  • 高可靠性

不幸的是,這些目標(biāo)之間會(huì)互相競(jìng)爭(zhēng)(例如,可擴(kuò)展性會(huì)降低或者抑制性能或者影響可靠性)。Ceph 開發(fā)了一些非常有趣的概念(例如,動(dòng)態(tài)元數(shù)據(jù)分區(qū),數(shù)據(jù)分布和復(fù)制),這些概念在本文中只進(jìn)行簡(jiǎn)短地探討。Ceph 的設(shè)計(jì)還包括保護(hù)單一點(diǎn)故障的容錯(cuò)功能,它假設(shè)大規(guī)模(PB 級(jí)存儲(chǔ))存儲(chǔ)故障是常見現(xiàn)象而不是例外情況。最后,它的設(shè)計(jì)并沒有假設(shè)某種特殊工作負(fù)載,但是包括適應(yīng)變化的工作負(fù)載,提供最佳性能的能力。它利用 POSIX 的兼容性完成所有這些任務(wù),允許它對(duì)當(dāng)前依賴 POSIX 語(yǔ)義(通過以 Ceph 為目標(biāo)的改進(jìn))的應(yīng)用進(jìn)行透明的部署。最后,Ceph 是開源分布式存儲(chǔ),也是主線 Linux 內(nèi)核(2.6.34)的一部分。

Ceph 架構(gòu)

現(xiàn)在,讓我們探討一下 Ceph 的架構(gòu)以及高端的核心要素。然后我會(huì)拓展到另一層次,說明 Ceph 中一些關(guān)鍵的方面,提供更詳細(xì)的探討。

Ceph 生態(tài)系統(tǒng)可以大致劃分為四部分(見圖 1):客戶端(數(shù)據(jù)用戶),元數(shù)據(jù)服務(wù)器(緩存和同步分布式元數(shù)據(jù)),一個(gè)對(duì)象存儲(chǔ)集群(將數(shù)據(jù)和元數(shù)據(jù)作為對(duì)象存儲(chǔ),執(zhí)行其他關(guān)鍵職能),以及最后的集群監(jiān)視器(執(zhí)行監(jiān)視功能)。

圖 1. Ceph 生態(tài)系統(tǒng)的概念架構(gòu)
概念流程圖顯示 Ceph 生態(tài)系統(tǒng)的架構(gòu):客戶端,元數(shù)據(jù)服務(wù)器集群,對(duì)象存儲(chǔ)集群,集群監(jiān)視器

如圖 1 所示,客戶使用元數(shù)據(jù)服務(wù)器,執(zhí)行元數(shù)據(jù)操作(來(lái)確定數(shù)據(jù)位置)。元數(shù)據(jù)服務(wù)器管理數(shù)據(jù)位置,以及在何處存儲(chǔ)新數(shù)據(jù)。值得注意的是,元數(shù)據(jù)存儲(chǔ)在一個(gè)存儲(chǔ)集群(標(biāo)為 “元數(shù)據(jù) I/O”)。實(shí)際的文件 I/O 發(fā)生在客戶和對(duì)象存儲(chǔ)集群之間。這樣一來(lái),更高層次的 POSIX 功能(例如,打開、關(guān)閉、重命名)就由元數(shù)據(jù)服務(wù)器管理,不過 POSIX 功能(例如讀和寫)則直接由對(duì)象存儲(chǔ)集群管理。

另一個(gè)架構(gòu)視圖由圖 2 提供。一系列服務(wù)器通過一個(gè)客戶界面訪問 Ceph 生態(tài)系統(tǒng),這就明白了元數(shù)據(jù)服務(wù)器和對(duì)象級(jí)存儲(chǔ)器之間的關(guān)系。分布式存儲(chǔ)系統(tǒng)可以在一些層中查看,包括一個(gè)存儲(chǔ)設(shè)備的格式(Extent and B-tree-based Object File System [EBOFS] 或者一個(gè)備選),還有一個(gè)設(shè)計(jì)用于管理數(shù)據(jù)復(fù)制,故障檢測(cè),恢復(fù),以及隨后的數(shù)據(jù)遷移的覆蓋管理層,叫做 Reliable Autonomic Distributed Object Storage(RADOS)。最后,監(jiān)視器用于識(shí)別組件故障,包括隨后的通知。

圖 2. Ceph 生態(tài)系統(tǒng)簡(jiǎn)化后的分層視圖
塊狀圖顯示一個(gè) Ceph 生態(tài)系統(tǒng)簡(jiǎn)化后的分層視圖,包括服務(wù)器,元數(shù)據(jù)服務(wù)器,以及對(duì)象存儲(chǔ) ddaemon

Ceph 組件

了解了 Ceph 的概念架構(gòu)之后,您可以挖掘到另一個(gè)層次,了解在 Ceph 中實(shí)現(xiàn)的主要組件。Ceph 和傳統(tǒng)的文件系統(tǒng)之間的重要差異之一就是,它將智能都用在了生態(tài)環(huán)境而不是文件系統(tǒng)本身。

圖 3 顯示了一個(gè)簡(jiǎn)單的 Ceph 生態(tài)系統(tǒng)。Ceph Client 是 Ceph 文件系統(tǒng)的用戶。Ceph Metadata Daemon 提供了元數(shù)據(jù)服務(wù)器,而 Ceph Object Storage Daemon 提供了實(shí)際存儲(chǔ)(對(duì)數(shù)據(jù)和元數(shù)據(jù)兩者)。最后,Ceph Monitor 提供了集群管理。要注意的是,Ceph 客戶,對(duì)象存儲(chǔ)端點(diǎn),元數(shù)據(jù)服務(wù)器(根據(jù)文件系統(tǒng)的容量)可以有許多,而且至少有一對(duì)冗余的監(jiān)視器。那么,這個(gè)文件系統(tǒng)是如何分布的呢?

圖 3. 簡(jiǎn)單的 Ceph 生態(tài)系統(tǒng)
一個(gè)簡(jiǎn)單 Ceph 生態(tài)系統(tǒng)的塊狀圖

Ceph 客戶端

內(nèi)核或用戶空間

早期版本的 Ceph 利用在 User SpacE(FUSE)的 Filesystems,它把文件系統(tǒng)推入到用戶空間,還可以很大程度上簡(jiǎn)化其開發(fā)。但是今天,Ceph 已經(jīng)被集成到主線內(nèi)核,使其更快速,因?yàn)橛脩艨臻g上下文交換機(jī)對(duì)文件系統(tǒng) I/O 已經(jīng)不再需要。

因?yàn)?Linux 顯示文件系統(tǒng)的一個(gè)公共界面(通過虛擬文件系統(tǒng)交換機(jī) [VFS]),Ceph 的用戶透視圖就是透明的。管理員的透視圖肯定是不同的,考慮到很多服務(wù)器會(huì)包含存儲(chǔ)系統(tǒng)這一潛在因素(要查看更多創(chuàng)建 Ceph 集群的信息,見 參考資料 部分)。從用戶的角度看,他們?cè)L問大容量的存儲(chǔ)系統(tǒng),卻不知道下面聚合成一個(gè)大容量的存儲(chǔ)池的元數(shù)據(jù)服務(wù)器,監(jiān)視器,還有獨(dú)立的對(duì)象存儲(chǔ)設(shè)備。用戶只是簡(jiǎn)單地看到一個(gè)安裝點(diǎn),在這點(diǎn)上可以執(zhí)行標(biāo)準(zhǔn)文件 I/O。

Ceph 文件系統(tǒng) — 或者至少是客戶端接口 — 在 Linux 內(nèi)核中實(shí)現(xiàn)。值得注意的是,在大多數(shù)文件系統(tǒng)中,所有的控制和智能在內(nèi)核的文件系統(tǒng)源本身中執(zhí)行。但是,在 Ceph 中,文件系統(tǒng)的智能分布在節(jié)點(diǎn)上,這簡(jiǎn)化了客戶端接口,并為 Ceph 提供了大規(guī)模(甚至動(dòng)態(tài))擴(kuò)展能力。

Ceph 使用一個(gè)有趣的備選,而不是依賴分配列表(將磁盤上的塊映射到指定文件的元數(shù)據(jù))。Linux 透視圖中的一個(gè)文件會(huì)分配到一個(gè)來(lái)自元數(shù)據(jù)服務(wù)器的 inode number(INO),對(duì)于文件這是一個(gè)唯一的標(biāo)識(shí)符。然后文件被推入一些對(duì)象中(根據(jù)文件的大?。?。使用 INO 和 object number(ONO),每個(gè)對(duì)象都分配到一個(gè)對(duì)象 ID(OID)。在 OID 上使用一個(gè)簡(jiǎn)單的哈希,每個(gè)對(duì)象都被分配到一個(gè)放置組。放置組(標(biāo)識(shí)為 PGID)是一個(gè)對(duì)象的概念容器。最后,放置組到對(duì)象存儲(chǔ)設(shè)備的映射是一個(gè)偽隨機(jī)映射,使用一個(gè)叫做 Controlled Replication Under Scalable Hashing(CRUSH)的算法。這樣一來(lái),放置組(以及副本)到存儲(chǔ)設(shè)備的映射就不用依賴任何元數(shù)據(jù),而是依賴一個(gè)偽隨機(jī)的映射函數(shù)。這種操作是理想的,因?yàn)樗汛鎯?chǔ)的開銷最小化,簡(jiǎn)化了分配和數(shù)據(jù)查詢。

分配的最后組件是集群映射。集群映射 是設(shè)備的有效表示,顯示了存儲(chǔ)集群。有了 PGID 和集群映射,您就可以定位任何對(duì)象。

Ceph 元數(shù)據(jù)服務(wù)器

元數(shù)據(jù)服務(wù)器(cmds)的工作就是管理文件系統(tǒng)的名稱空間。雖然元數(shù)據(jù)和數(shù)據(jù)兩者都存儲(chǔ)在對(duì)象存儲(chǔ)集群,但兩者分別管理,支持可擴(kuò)展性。事實(shí)上,元數(shù)據(jù)在一個(gè)元數(shù)據(jù)服務(wù)器集群上被進(jìn)一步拆分,元數(shù)據(jù)服務(wù)器能夠自適應(yīng)地復(fù)制和分配名稱空間,避免出現(xiàn)熱點(diǎn)。如圖 4 所示,元數(shù)據(jù)服務(wù)器管理名稱空間部分,可以(為冗余和性能)進(jìn)行重疊。元數(shù)據(jù)服務(wù)器到名稱空間的映射在 Ceph 中使用動(dòng)態(tài)子樹邏輯分區(qū)執(zhí)行,它允許 Ceph 對(duì)變化的工作負(fù)載進(jìn)行調(diào)整(在元數(shù)據(jù)服務(wù)器之間遷移名稱空間)同時(shí)保留性能的位置。

圖 4. 元數(shù)據(jù)服務(wù)器的 Ceph 名稱空間的分區(qū)
圖表顯示元數(shù)據(jù)服務(wù)器的 Ceph 名稱空間的分區(qū)

但是因?yàn)槊總€(gè)元數(shù)據(jù)服務(wù)器只是簡(jiǎn)單地管理客戶端人口的名稱空間,它的主要應(yīng)用就是一個(gè)智能元數(shù)據(jù)緩存(因?yàn)閷?shí)際的元數(shù)據(jù)最終存儲(chǔ)在對(duì)象存儲(chǔ)集群中)。進(jìn)行寫操作的元數(shù)據(jù)被緩存在一個(gè)短期的日志中,它最終還是被推入物理存儲(chǔ)器中。這個(gè)動(dòng)作允許元數(shù)據(jù)服務(wù)器將最近的元數(shù)據(jù)回饋給客戶(這在元數(shù)據(jù)操作中很常見)。這個(gè)日志對(duì)故障恢復(fù)也很有用:如果元數(shù)據(jù)服務(wù)器發(fā)生故障,它的日志就會(huì)被重放,保證元數(shù)據(jù)安全存儲(chǔ)在磁盤上。

元數(shù)據(jù)服務(wù)器管理 inode 空間,將文件名轉(zhuǎn)變?yōu)樵獢?shù)據(jù)。元數(shù)據(jù)服務(wù)器將文件名轉(zhuǎn)變?yōu)樗饕?jié)點(diǎn),文件大小,和 Ceph 客戶端用于文件 I/O 的分段數(shù)據(jù)(布局)。

Ceph 監(jiān)視器

Ceph 包含實(shí)施集群映射管理的監(jiān)視器,但是故障管理的一些要素是在對(duì)象存儲(chǔ)本身中執(zhí)行的。當(dāng)對(duì)象存儲(chǔ)設(shè)備發(fā)生故障或者新設(shè)備添加時(shí),監(jiān)視器就檢測(cè)和維護(hù)一個(gè)有效的集群映射。這個(gè)功能按一種分布的方式執(zhí)行,這種方式中映射升級(jí)可以和當(dāng)前的流量通信。Ceph 使用 Paxos,它是一系列分布式共識(shí)算法。

Ceph 對(duì)象存儲(chǔ)

和傳統(tǒng)的對(duì)象存儲(chǔ)類似,Ceph 存儲(chǔ)節(jié)點(diǎn)不僅包括存儲(chǔ),還包括智能。傳統(tǒng)的驅(qū)動(dòng)是只響應(yīng)來(lái)自啟動(dòng)者的命令的簡(jiǎn)單目標(biāo)。但是對(duì)象存儲(chǔ)設(shè)備是智能設(shè)備,它能作為目標(biāo)和啟動(dòng)者,支持與其他對(duì)象存儲(chǔ)設(shè)備的通信和合作。

從存儲(chǔ)角度來(lái)看,Ceph 對(duì)象存儲(chǔ)設(shè)備執(zhí)行從對(duì)象到塊的映射(在客戶端的文件系統(tǒng)層中常常執(zhí)行的任務(wù))。這個(gè)動(dòng)作允許本地實(shí)體以最佳方式?jīng)Q定怎樣存儲(chǔ)一個(gè)對(duì)象。Ceph 的早期版本在一個(gè)名為 EBOFS 的本地存儲(chǔ)器上實(shí)現(xiàn)一個(gè)自定義低級(jí)文件系統(tǒng)。這個(gè)系統(tǒng)實(shí)現(xiàn)一個(gè)到底層存儲(chǔ)的非標(biāo)準(zhǔn)接口,這個(gè)底層存儲(chǔ)已針對(duì)對(duì)象語(yǔ)義和其他特性(例如對(duì)磁盤提交的異步通知)調(diào)優(yōu)。今天,B-tree 文件系統(tǒng)(BTRFS)可以被用于存儲(chǔ)節(jié)點(diǎn),它已經(jīng)實(shí)現(xiàn)了部分必要功能(例如嵌入式完整性)。

因?yàn)?Ceph 客戶實(shí)現(xiàn) CRUSH,而且對(duì)磁盤上的文件映射塊一無(wú)所知,下面的存儲(chǔ)設(shè)備就能安全地管理對(duì)象到塊的映射。這允許存儲(chǔ)節(jié)點(diǎn)復(fù)制數(shù)據(jù)(當(dāng)發(fā)現(xiàn)一個(gè)設(shè)備出現(xiàn)故障時(shí))。分配故障恢復(fù)也允許存儲(chǔ)系統(tǒng)擴(kuò)展,因?yàn)楣收蠙z測(cè)和恢復(fù)跨生態(tài)系統(tǒng)分配。Ceph 稱其為 RADOS(見 圖 3)。

其他有趣功能

如果文件系統(tǒng)的動(dòng)態(tài)和自適應(yīng)特性不夠,Ceph 還執(zhí)行一些用戶可視的有趣功能。用戶可以創(chuàng)建快照,例如,在 Ceph 的任何子目錄上(包括所有內(nèi)容)。文件和容量計(jì)算可以在子目錄級(jí)別上執(zhí)行,它報(bào)告一個(gè)給定子目錄(以及其包含的內(nèi)容)的存儲(chǔ)大小和文件數(shù)量。

Ceph 的地位和未來(lái)

雖然 Ceph 現(xiàn)在被集成在主線 Linux 內(nèi)核中,但只是標(biāo)識(shí)為實(shí)驗(yàn)性的。在這種狀態(tài)下的文件系統(tǒng)對(duì)測(cè)試是有用的,但是對(duì)生產(chǎn)環(huán)境沒有做好準(zhǔn)備。但是考慮到 Ceph 加入到 Linux 內(nèi)核的行列,還有其創(chuàng)建人想繼續(xù)研發(fā)的動(dòng)機(jī),不久之后它應(yīng)該就能用于解決您的海量存儲(chǔ)需要了。

其他分布式文件系統(tǒng)

Ceph 在分布式文件系統(tǒng)空間中并不是唯一的,但它在管理大容量存儲(chǔ)生態(tài)環(huán)境的方法上是獨(dú)一無(wú)二的。分布式文件系統(tǒng)的其他例子包括 Google File System(GFS),General Parallel File System(GPFS),還有 Lustre,這只提到了一部分。Ceph 背后的想法為分布式文件系統(tǒng)提供了一個(gè)有趣的未來(lái),因?yàn)楹A考?jí)別存儲(chǔ)導(dǎo)致了海量存儲(chǔ)問題的唯一挑戰(zhàn)。

展望未來(lái)

Ceph 不只是一個(gè)文件系統(tǒng),還是一個(gè)有企業(yè)級(jí)功能的對(duì)象存儲(chǔ)生態(tài)環(huán)境。在 參考資料 部分中,您將會(huì)找到如何設(shè)置一個(gè)簡(jiǎn)單 Ceph 集群(包括元數(shù)據(jù)服務(wù)器,對(duì)象存儲(chǔ)服務(wù)器和監(jiān)視器)的信息。Ceph 填補(bǔ)了分布式存儲(chǔ)中的空白,看到這個(gè)開源產(chǎn)品如何在未來(lái)演變也將會(huì)是很有趣的。

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多