???最新文章歡迎關(guān)注筆者公眾號(hào)“暢游云?!?/p>
??《重識(shí)云原生系列》專題索引:
- 第一章——不謀全局不足以謀一域
- 第二章計(jì)算第1節(jié)——計(jì)算虛擬化技術(shù)總述
- 第二章計(jì)算第2節(jié)——主流虛擬化技術(shù)之VMare ESXi
- 第二章計(jì)算第3節(jié)——主流虛擬化技術(shù)之Xen
- 第二章計(jì)算第4節(jié)——主流虛擬化技術(shù)之KVM
- 第二章計(jì)算第5節(jié)——商用云主機(jī)方案
- 第二章計(jì)算第6節(jié)——裸金屬方案
- 第三章云存儲(chǔ)第1節(jié)——分布式云存儲(chǔ)總述
- 第三章云存儲(chǔ)第2節(jié)——SPDK方案綜述
- 第三章云存儲(chǔ)第3節(jié)——Ceph統(tǒng)一存儲(chǔ)方案
- 第三章云存儲(chǔ)第4節(jié)——OpenStack Swift 對(duì)象存儲(chǔ)方案
- 第三章云存儲(chǔ)第5節(jié)——商用分布式云存儲(chǔ)方案
- 第四章云網(wǎng)絡(luò)第一節(jié)——云網(wǎng)絡(luò)技術(shù)發(fā)展簡(jiǎn)述
- 第四章云網(wǎng)絡(luò)4.2節(jié)——相關(guān)基礎(chǔ)知識(shí)準(zhǔn)備
- 第四章云網(wǎng)絡(luò)4.3節(jié)——重要網(wǎng)絡(luò)協(xié)議
- 第四章云網(wǎng)絡(luò)4.3.1節(jié)——路由技術(shù)簡(jiǎn)述
- 第四章云網(wǎng)絡(luò)4.3.2節(jié)——VLAN技術(shù)
- 第四章云網(wǎng)絡(luò)4.3.3節(jié)——RIP協(xié)議
- 第四章云網(wǎng)絡(luò)4.3.4節(jié)——OSPF協(xié)議
- 第四章云網(wǎng)絡(luò)4.3.5節(jié)——EIGRP協(xié)議
- 第四章云網(wǎng)絡(luò)4.3.6節(jié)——IS-IS協(xié)議
- 第四章云網(wǎng)絡(luò)4.3.7節(jié)——BGP協(xié)議
- 第四章云網(wǎng)絡(luò)4.3.7.2節(jié)——BGP協(xié)議概述
- 第四章云網(wǎng)絡(luò)4.3.7.3節(jié)——BGP協(xié)議實(shí)現(xiàn)原理
- 第四章云網(wǎng)絡(luò)4.3.7.4節(jié)——高級(jí)特性
- 第四章云網(wǎng)絡(luò)4.3.7.5節(jié)——實(shí)操
- 第四章云網(wǎng)絡(luò)4.3.7.6節(jié)——MP-BGP協(xié)議
- 第四章云網(wǎng)絡(luò)4.3.8節(jié)——策略路由
- 第四章云網(wǎng)絡(luò)4.3.9節(jié)——Graceful Restart(平滑重啟)技術(shù)
- 第四章云網(wǎng)絡(luò)4.3.10節(jié)——VXLAN技術(shù)
- 第四章云網(wǎng)絡(luò)4.3.10.2節(jié)——VXLAN Overlay網(wǎng)絡(luò)方案設(shè)計(jì)
- 第四章云網(wǎng)絡(luò)4.3.10.3節(jié)——VXLAN隧道機(jī)制
- 第四章云網(wǎng)絡(luò)4.3.10.4節(jié)——VXLAN報(bào)文轉(zhuǎn)發(fā)過(guò)程
- 第四章云網(wǎng)絡(luò)4.3.10.5節(jié)——VXlan組網(wǎng)架構(gòu)
- 第四章云網(wǎng)絡(luò)4.3.10.6節(jié)——VXLAN應(yīng)用部署方案
- 第四章云網(wǎng)絡(luò)4.4節(jié)——Spine-Leaf網(wǎng)絡(luò)架構(gòu)
- 第四章云網(wǎng)絡(luò)4.5節(jié)——大二層網(wǎng)絡(luò)
- 第四章云網(wǎng)絡(luò)4.6節(jié)——Underlay 和 Overlay概念
- 第四章云網(wǎng)絡(luò)4.7.1節(jié)——網(wǎng)絡(luò)虛擬化與卸載加速技術(shù)的演進(jìn)簡(jiǎn)述
- 第四章云網(wǎng)絡(luò)4.7.2節(jié)——virtio網(wǎng)絡(luò)半虛擬化簡(jiǎn)介
- 第四章云網(wǎng)絡(luò)4.7.3節(jié)——Vhost-net方案
- 第四章云網(wǎng)絡(luò)4.7.4節(jié)vhost-user方案——virtio的DPDK卸載方案
- 第四章云網(wǎng)絡(luò)4.7.5節(jié)vDPA方案——virtio的半硬件虛擬化實(shí)現(xiàn)
- 第四章云網(wǎng)絡(luò)4.7.6節(jié)——virtio-blk存儲(chǔ)虛擬化方案
- 第四章云網(wǎng)絡(luò)4.7.8節(jié)——SR-IOV方案
- 第四章云網(wǎng)絡(luò)4.7.9節(jié)——NFV
- 第四章云網(wǎng)絡(luò)4.8.1節(jié)——SDN總述
- 第四章云網(wǎng)絡(luò)4.8.2.1節(jié)——OpenFlow概述
- 第四章云網(wǎng)絡(luò)4.8.2.2節(jié)——OpenFlow協(xié)議詳解
- 第四章云網(wǎng)絡(luò)4.8.2.3節(jié)——OpenFlow運(yùn)行機(jī)制
- 第四章云網(wǎng)絡(luò)4.8.3.1節(jié)——Open vSwitch簡(jiǎn)介
- 第四章云網(wǎng)絡(luò)4.8.3.2節(jié)——Open vSwitch工作原理詳解
- 第四章云網(wǎng)絡(luò)4.8.4節(jié)——OpenStack與SDN的集成
- 第四章云網(wǎng)絡(luò)4.8.5節(jié)——OpenDayLight
- 第四章云網(wǎng)絡(luò)4.8.6節(jié)——Dragonflow
-
第四章云網(wǎng)絡(luò)4.9.2節(jié)——傳統(tǒng)網(wǎng)絡(luò)卸載技術(shù)

?1 CLOS網(wǎng)絡(luò)模型歷史起源
????????1953年,貝爾實(shí)驗(yàn)室有一位名叫Charles Clos的研究員,發(fā)表了一篇名為《A Study of Non-blocking Switching Networks》的文章,介紹了一種“用多級(jí)設(shè)備來(lái)實(shí)現(xiàn)無(wú)阻塞電話交換”的方法。
????????自從1876年電話被發(fā)明之后,電話交換網(wǎng)絡(luò)歷經(jīng)了人工交換機(jī)、步進(jìn)制交換機(jī)、縱橫制交換機(jī)等多個(gè)階段。20世紀(jì)50年代,縱橫制交換機(jī)處于鼎盛時(shí)期。
????????縱橫交換機(jī)的核心,是縱橫連接器。如下圖所示:

縱橫制接線器

縱橫連接器交叉點(diǎn)示意圖
????????這種交換架構(gòu),是一種開(kāi)關(guān)矩陣,每個(gè)交點(diǎn)(Crosspoint)都是一個(gè)開(kāi)關(guān)。交換機(jī)通過(guò)控制開(kāi)關(guān),來(lái)完成從輸入到輸出的轉(zhuǎn)發(fā)。

開(kāi)關(guān)矩陣(交點(diǎn)數(shù)量=N2)
????????可以看出,開(kāi)關(guān)矩陣很像一塊布的纖維。所以,交換機(jī)的內(nèi)部架構(gòu),被稱為Switch Fabric。Fabric,就是“纖維、布料”的意思。
????????Fabric這個(gè)詞,我相信所有核心網(wǎng)工程師和數(shù)通工程師都非常熟悉?!癋abric平面”、“Fabric總線”等概念,經(jīng)常出現(xiàn)在工作中。
????????隨著電話用戶數(shù)量急劇增加,網(wǎng)絡(luò)規(guī)??焖贁U(kuò)大,基于crossbar模型的交換機(jī)在能力和成本上都無(wú)法滿足要求。于是,才有了文章開(kāi)頭Charles Clos的那篇研究文章。

Charles Clos(右一)
????????Charles Clos提出的網(wǎng)絡(luò)模型,核心思想是:用多個(gè)小規(guī)模、低成本的單元,構(gòu)建復(fù)雜、大規(guī)模的網(wǎng)絡(luò)。例如下圖:

????????圖中的矩形,都是低成本的轉(zhuǎn)發(fā)單元。當(dāng)輸入和輸出增加時(shí),中間的交叉點(diǎn)并不需要增加很多。
????????這種模型,就是后來(lái)產(chǎn)生深遠(yuǎn)影響的CLOS網(wǎng)絡(luò)模型。
????????到了80年代,隨著計(jì)算機(jī)網(wǎng)絡(luò)的興起,開(kāi)始出現(xiàn)了各種網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),例如星型、鏈型、環(huán)型、樹(shù)型。
????????樹(shù)型網(wǎng)絡(luò)逐漸成為主流,如下圖所示。

樹(shù)型網(wǎng)絡(luò)
????????傳統(tǒng)的樹(shù)型網(wǎng)絡(luò),帶寬是逐級(jí)收斂的。什么是收斂呢?物理端口帶寬一致,二進(jìn)一出,不就1:2的收斂了嘛。

2 數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu)演進(jìn)
????????2000年之后,互聯(lián)網(wǎng)從經(jīng)濟(jì)危機(jī)中復(fù)蘇,以谷歌和亞馬遜為代表的互聯(lián)網(wǎng)巨頭開(kāi)始崛起。他們開(kāi)始推行云計(jì)算技術(shù),建設(shè)大量的數(shù)據(jù)中心(IDC),甚至超級(jí)數(shù)據(jù)中心。
????????面對(duì)日益龐大的計(jì)算規(guī)模,傳統(tǒng)樹(shù)型網(wǎng)絡(luò)肯定是不行的了。于是,一種改進(jìn)型樹(shù)型網(wǎng)絡(luò)開(kāi)始出現(xiàn),它就是胖樹(shù)(Fat-Tree)架構(gòu)。
????????胖樹(shù)(Fat-Tree)就是一種CLOS網(wǎng)絡(luò)架構(gòu)。
????????相比于傳統(tǒng)樹(shù)型,胖樹(shù)(Fat-Tree)更像是真實(shí)的樹(shù),越到樹(shù)根,枝干越粗。從葉子到樹(shù)根,網(wǎng)絡(luò)帶寬不收斂。

????????胖樹(shù)架構(gòu)的基本理念是:使用大量的低性能交換機(jī),構(gòu)建出大規(guī)模的無(wú)阻塞網(wǎng)絡(luò)。對(duì)于任意的通信模式,總有路徑讓他們的通信帶寬達(dá)到網(wǎng)卡帶寬。
????????胖樹(shù)架構(gòu)被引入到數(shù)據(jù)中心之后,數(shù)據(jù)中心變成了傳統(tǒng)的三層結(jié)構(gòu):

????????這種架構(gòu)由核心路由器、聚合路由器(有時(shí)叫分發(fā)路由器,distribution routers )和接入交換機(jī)組成。在接入交換機(jī)和聚合路由器之間運(yùn)行生成樹(shù)協(xié)議(Spanning Tree Protocol,STP),以保證網(wǎng)絡(luò)的二層部分(L2)沒(méi)有環(huán)路。STP 有許多好處:簡(jiǎn)單, 即插即用(plug-and-play),只需很少配置。每個(gè) pod 內(nèi)的機(jī)器都屬于同一個(gè) VLAN, 因此服務(wù)器無(wú)需修改 IP 地址和網(wǎng)關(guān)就可以在 pod 內(nèi)部任意遷移位置。但是,STP 無(wú)法 使用并行轉(zhuǎn)發(fā)路徑(parallel forwarding path),它永遠(yuǎn)會(huì)禁用 VLAN 內(nèi)的冗余路徑。
- 接入層:接入交換機(jī)通常位于機(jī)架頂部,用于連接所有的計(jì)算節(jié)點(diǎn)服務(wù)器,所以它們也被稱為ToR(Top of Rack)交換機(jī)。
- 匯聚層:用于接入層的互聯(lián),并作為該匯聚區(qū)域二三層的邊界。匯聚交換機(jī)連接同一個(gè)二層網(wǎng)絡(luò)(VLAN)下的接入交換機(jī),同時(shí)提供其他的服務(wù),例如防火墻,SSL offload,入侵檢測(cè),網(wǎng)絡(luò)分析等, 它可以是二層交換機(jī)也可以是三層交換機(jī)。
- 核心層: 用于匯聚層的的互聯(lián),并實(shí)現(xiàn)整個(gè)數(shù)據(jù)中心與外部網(wǎng)絡(luò)的三層通信。此層的核心交換機(jī)為進(jìn)出數(shù)據(jù)中心的包提供高速的轉(zhuǎn)發(fā),為多個(gè)二層局域網(wǎng)(VLAN)提供連接性,核心交換機(jī)為通常為整個(gè)網(wǎng)絡(luò)提供一個(gè)彈性的三層網(wǎng)絡(luò)。

????????在很長(zhǎng)的一段時(shí)間里,三層網(wǎng)絡(luò)結(jié)構(gòu)在數(shù)據(jù)中心十分盛行。在這種架構(gòu)中,銅纜布線是主要的布線方式,使用率達(dá)到了80%。而光纜,只占了20%。

傳統(tǒng)三層(Three-Tier)數(shù)據(jù)中心設(shè)計(jì)
????????在這種網(wǎng)絡(luò)架構(gòu)下,存在如下的一些弊端:
- 帶寬的浪費(fèi):為了防止環(huán)路,匯聚層和接入層之間通常會(huì)運(yùn)行STP協(xié)議,使得接入交換機(jī)的上聯(lián)鏈路中實(shí)際承載流量的只有一條,而其他上行鏈路將被阻塞(如圖中虛線所示),造成了帶寬的浪費(fèi);
- 故障域較大:STP協(xié)議由于其本身的算法,在網(wǎng)絡(luò)拓?fù)浒l(fā)生變更時(shí)需要重新收斂,容易發(fā)生故障,從而影響整個(gè)VLAN的網(wǎng)絡(luò);
- 難以適應(yīng)超大規(guī)模網(wǎng)絡(luò):在云計(jì)算領(lǐng)域,網(wǎng)絡(luò)規(guī)模擴(kuò)大,數(shù)據(jù)中心也分布在不同的地理位置,虛擬機(jī)要求能在任意地點(diǎn)創(chuàng)建,遷移,而保持其網(wǎng)絡(luò)屬性(IP, 網(wǎng)關(guān)等)保持不變,需要支持大二層網(wǎng)絡(luò),在上圖的拓?fù)渲?,無(wú)法在VLAN10和VLAN20之間作上述遷移;
????????對(duì)于上述帶寬浪費(fèi)的問(wèn)題,思科提出的解決方案是vPC(virtual Port Channel)協(xié)議,可以將接入交換機(jī)的兩條上行鏈路做成一個(gè)vPC,同時(shí)承載流量,從而避免了帶寬的浪費(fèi),提升了帶寬的利用率,然而,一方面,這種方案仍然無(wú)法做到水平擴(kuò)展,因?yàn)関PC只支持最多兩個(gè)上行鏈路,上行鏈路增多時(shí),無(wú)法線性增加帶寬;另一方面,vPC是思科的私有協(xié)議,對(duì)于廠商的依賴性強(qiáng),成本上不具有優(yōu)勢(shì),下圖為vPC的架構(gòu)圖,使用 vPC 技術(shù)時(shí),STP 會(huì)作為備用機(jī)制( fail-safe mechanism):

使用 vPC 技術(shù)的數(shù)據(jù)中心設(shè)計(jì)
????????上圖的方案提高了帶寬利用率,但仍沒(méi)有解決大二層的問(wèn)題,解決方案是將核心層以下的部分全部放在同一個(gè)二層網(wǎng)絡(luò)中,但是,同一個(gè)二層網(wǎng)絡(luò)中容納如此多的設(shè)備,二層網(wǎng)絡(luò)中的廣播風(fēng)暴將隨著設(shè)備的增加而越來(lái)越嚴(yán)重,最終給交換機(jī)帶來(lái)沉重的負(fù)載,從而影響流量,下圖為傳統(tǒng)網(wǎng)絡(luò)大二層的解決方案示意圖:

????????從 2003 年開(kāi)始,隨著虛擬化技術(shù)的引入,原來(lái)三層(three-tier)數(shù)據(jù)中心中,在二層(L2)以 pod 形式做了隔離的計(jì)算、網(wǎng)絡(luò)和存儲(chǔ)資源,現(xiàn)在都可以被池化(pooled)。這種革命性的技術(shù)產(chǎn)生了從接入層到核心層的大二層域(larger L2 domain)的需求,如圖 3 所示 。

擴(kuò)展的 L3 域的數(shù)據(jù)中心設(shè)計(jì)
????????隨著 L2 segment(二層網(wǎng)絡(luò)段,例如 VLAN 劃分的二層網(wǎng)絡(luò),譯者注)被擴(kuò)展到所有 pod ,數(shù)據(jù)中心的管理員可以創(chuàng)建一個(gè)集中式的、更加靈活的、能夠按需分配的資源池。物理服務(wù)器被虛擬化為許多虛擬服務(wù)器(VM),無(wú)需修改運(yùn)維參數(shù)就可以在物理服務(wù)器之間自由漂移。
????????與此同時(shí),微服務(wù)架構(gòu)開(kāi)始流行,很多軟件開(kāi)始推行功能解耦,單個(gè)服務(wù)變成了多個(gè)服務(wù),部署在不同的虛擬機(jī)上。虛擬機(jī)之間的流量,大幅增加。
????????這種平級(jí)設(shè)備之間的數(shù)據(jù)流動(dòng),我們稱之為“東西向流量”。相對(duì)應(yīng)的,那種上上下下的垂直數(shù)據(jù)流動(dòng),稱為“南北向流量”,如下圖所示:

????????東西向流量,其實(shí)也就是一種“內(nèi)部流量”。這種數(shù)據(jù)流量的大幅增加,給傳統(tǒng)三層架構(gòu)帶來(lái)了很大的麻煩——因?yàn)榉?wù)器和服務(wù)器之間的通信,需要經(jīng)過(guò)接入交換機(jī)、匯聚交換機(jī)和核心交換機(jī)。

數(shù)據(jù)流向舉例
????????這意味著,核心交換機(jī)和匯聚交換機(jī)的工作壓力不斷增加。要支持大規(guī)模的網(wǎng)絡(luò),就必須有性能最好、端口密度最大的匯聚層核心層設(shè)備。這樣的設(shè)備成本高,價(jià)格非常昂貴。
????????針對(duì)以上問(wèn)題,網(wǎng)絡(luò)工程師們提出了一種新的數(shù)據(jù)中心設(shè)計(jì),稱作基于 Clos 網(wǎng)絡(luò)的 Spine-and-Leaf 架構(gòu)(Clos network-based Spine-and-Leaf architecture,中文也翻譯成葉脊網(wǎng)絡(luò))。事實(shí)已經(jīng)證明,這種架構(gòu)可以提供高帶寬、低延遲、非阻塞的服務(wù)器到服務(wù)器連接。
3 Spine-Leaf 架構(gòu)
3.1 Spine-Leaf 架構(gòu)簡(jiǎn)介
????????相比于傳統(tǒng)網(wǎng)絡(luò)的三層架構(gòu),葉脊網(wǎng)絡(luò)進(jìn)行了扁平化,變成了兩層架構(gòu)。如下圖所示:

????????葉交換機(jī),相當(dāng)于傳統(tǒng)三層架構(gòu)中的接入交換機(jī),作為 TOR(Top Of Rack)直接連接物理服務(wù)器。葉交換機(jī)之上是三層網(wǎng)絡(luò),之下都是個(gè)獨(dú)立的 L2 廣播域。如果說(shuō)兩個(gè)葉交換機(jī)下的服務(wù)器需要通信,需要經(jīng)由脊交換機(jī)進(jìn)行轉(zhuǎn)發(fā)。脊交換機(jī),相當(dāng)于核心交換機(jī)。葉和脊交換機(jī)之間通過(guò)ECMP(Equal Cost Multi Path)動(dòng)態(tài)選擇多條路徑。
????????在以上兩級(jí) Clos 架構(gòu)中,每個(gè)低層級(jí)的交換機(jī)(leaf)都會(huì)連接到每個(gè)高層級(jí)的交換機(jī) (spine),形成一個(gè) full-mesh 拓?fù)?。leaf 層由接入交換機(jī)組成,用于連接服務(wù)器等設(shè)備。spine 層是網(wǎng)絡(luò)的骨干(backbone),負(fù)責(zé)將所有的 leaf 連接起來(lái)。 fabric 中的每個(gè)leaf都會(huì)連接到每個(gè)spine,如果一個(gè)spine掛了,數(shù)據(jù)中心的吞吐性能只會(huì)有輕微的下降(slightly degrade)。
????????如果某個(gè)鏈路被打滿了,擴(kuò)容過(guò)程也很直接:添加一個(gè) spine 交換機(jī)就可以擴(kuò)展每個(gè) leaf 的上行鏈路,增大了 leaf 和 spine 之間的帶寬,緩解了鏈路被打爆的問(wèn)題。如果接入層的端口數(shù)量成為了瓶頸,那就直接添加一個(gè)新的 leaf,然后將其連接到每個(gè) spine 并做相應(yīng)的配置即可。這種易于擴(kuò)展(ease of expansion)的特性優(yōu)化了 IT 部門擴(kuò)展網(wǎng)絡(luò)的過(guò)程。leaf 層的接入端口和上行鏈路都沒(méi)有瓶頸時(shí),這個(gè)架構(gòu)就實(shí)現(xiàn)了無(wú)阻塞(nonblocking)。
????????在 Spine-and-Leaf 架構(gòu)中,任意一個(gè)服務(wù)器到另一個(gè)服務(wù)器的連接,都會(huì)經(jīng)過(guò)相同數(shù)量的設(shè)備(除非這兩個(gè)服務(wù)器在同一 leaf 下面),這保證了延遲是可預(yù)測(cè)的,因?yàn)橐粋€(gè)包只需要經(jīng)過(guò)一個(gè) spine 和另一個(gè) leaf 就可以到達(dá)目的端。
3.2 Spine-Leaf 架構(gòu)優(yōu)勢(shì)
????????Spine-Leaf 架構(gòu)的優(yōu)勢(shì)非常明顯:
1、帶寬利用率高
????????每個(gè)葉交換機(jī)的上行鏈路,以負(fù)載均衡方式工作,充分的利用了帶寬。
2、網(wǎng)絡(luò)延遲可預(yù)測(cè)
????????在以上模型中,葉交換機(jī)之間的連通路徑的條數(shù)可確定,均只需經(jīng)過(guò)一個(gè)脊交換機(jī),東西向網(wǎng)絡(luò)延時(shí)可預(yù)測(cè)。
3、擴(kuò)展性好
????????當(dāng)帶寬不足時(shí),增加脊交換機(jī)數(shù)量,可水平擴(kuò)展帶寬。當(dāng)服務(wù)器數(shù)量增加時(shí),增加脊交換機(jī)數(shù)量,也可以擴(kuò)大數(shù)據(jù)中心規(guī)模??傊?,規(guī)劃和擴(kuò)容非常方便。
4、降低對(duì)交換機(jī)的要求
????????南北向流量,可以從葉節(jié)點(diǎn)出去,也可從脊節(jié)點(diǎn)出去。東西向流量,分布在多條路徑上。這樣一來(lái),不需要昂貴的高性能高帶寬交換機(jī)。
5、安全性和可用性高
????????傳統(tǒng)網(wǎng)絡(luò)采用STP協(xié)議,當(dāng)一臺(tái)設(shè)備故障時(shí)就會(huì)重新收斂,影響網(wǎng)絡(luò)性能甚至發(fā)生故障。葉脊架構(gòu)中,一臺(tái)設(shè)備故障時(shí),不需重新收斂,流量繼續(xù)在其他正常路徑上通過(guò),網(wǎng)絡(luò)連通性不受影響,帶寬也只減少一條路徑的帶寬,性能影響微乎其微。

思科的Nexus 9396PX,適合作為葉交換機(jī)
3.3 Spine-Leaf 架構(gòu)網(wǎng)絡(luò)規(guī)模測(cè)算方法
????????脊交換機(jī)下行端口數(shù)量,決定了葉交換機(jī)的數(shù)量。而葉交換機(jī)上行端口數(shù)量,決定了脊交換機(jī)的數(shù)量。它們共同決定了葉脊網(wǎng)絡(luò)的規(guī)模。接下來(lái)我們可以根據(jù)交換機(jī)的端口數(shù)量和帶寬,對(duì)Spine-Leaf 架構(gòu)的網(wǎng)絡(luò)適用的規(guī)模進(jìn)行簡(jiǎn)單的估計(jì),如下圖所示的拓?fù)洌?/p>

估算基于以下假設(shè):
- spine數(shù)量:16臺(tái)
- 每個(gè)spine的下聯(lián)端口:48個(gè) × 100G
- spine上聯(lián)端口:16個(gè) × 100G
- leaf數(shù)量:48臺(tái)
- 每個(gè)leaf的下聯(lián)端口:64個(gè) × 25G
- leaf的上聯(lián)端口: 16個(gè) × 25G
????????spine的下聯(lián)端口數(shù)量和LEAF的上聯(lián)端口數(shù)量相同,以充分利用端口,在考慮鏈路Spine-Leaf 之間的帶寬全部跑滿的情況下,每個(gè)leaf下聯(lián)的服務(wù)器數(shù)量最多為:

????????即剛好等于leaf的下聯(lián)端口數(shù)量,總共可支持的服務(wù)器數(shù)量為:

????????也就是說(shuō),在上述假設(shè)下,一組Spine-Leaf 網(wǎng)絡(luò)可以支持3072臺(tái)服務(wù)器(注意,葉脊交換機(jī)北向總帶寬一般不會(huì)和南向總帶寬一致,通常大于1:3即可。上例為400:640,有點(diǎn)奢侈了。),這是相當(dāng)于一個(gè)中大型規(guī)模的數(shù)據(jù)中心,那么如果仍有擴(kuò)展的需求該怎么辦呢?根據(jù)上述的計(jì)算,leaf和spine的下聯(lián)端口都已經(jīng)耗盡,在這個(gè)網(wǎng)絡(luò)中已無(wú)法增加spine,leaf或服務(wù)器。
3.4 Facebook的Fabric網(wǎng)絡(luò)架構(gòu)
????????Spine-Leaf 網(wǎng)絡(luò)從2013年左右開(kāi)始出現(xiàn),發(fā)展速度驚人,很快就取代了大量的傳統(tǒng)三層網(wǎng)絡(luò)架構(gòu),成為現(xiàn)代數(shù)據(jù)中心的新寵。最具有代表性的,是Facebook在2014年公開(kāi)的數(shù)據(jù)中心架構(gòu)。Facebook使用了一個(gè)五級(jí)CLOS架構(gòu),甚至是一個(gè)立體的架構(gòu)。

????????在這種架構(gòu)中,我們的Spine-Leaf 網(wǎng)絡(luò)是其中的一個(gè)POD, 我們的SPINE是圖中的Fabric Switches,我們的leaf是圖中的Rack Switches,最上面的Spine Switches把各個(gè)POD連通起來(lái)。當(dāng)一個(gè)POD的容量已滿時(shí),可以增加POD,并用spine將這些POD連通起來(lái),實(shí)現(xiàn)了網(wǎng)絡(luò)的繼續(xù)擴(kuò)展。除了前面描述的POD和spine,上圖中還有黃色的Edge Plane,這是為數(shù)據(jù)中心提供南北向流量的模塊。它們與spine交換機(jī)的連接方式,與前文中簡(jiǎn)單的的Spine-Leaf 架構(gòu)一樣。并且它們也是可以水平擴(kuò)展的。
????????Spine-Leaf 網(wǎng)絡(luò)架構(gòu)只是一種網(wǎng)絡(luò)部署的拓?fù)浞绞?,具體的實(shí)現(xiàn)方法與配置多種多樣,有的廠商根據(jù)這種拓?fù)浣Y(jié)構(gòu)定義了特定的網(wǎng)絡(luò)協(xié)議,如思科的Fabric Path等。
參考鏈接
到底什么是葉脊網(wǎng)絡(luò)(Spine-Leaf)?_交換機(jī)
數(shù)據(jù)中心網(wǎng)絡(luò):Spine-Leaf 架構(gòu)設(shè)計(jì)綜述(2016) - tycoon3 - 博客園
每日一學(xué)|數(shù)據(jù)中心spine leaf網(wǎng)絡(luò)架構(gòu)_weixin_33857679的博客-CSDN博客
為什么選擇leaf-spine網(wǎng)絡(luò)架構(gòu)?對(duì)比傳統(tǒng)三層架構(gòu)具有哪些優(yōu)勢(shì)? | 易飛揚(yáng)社區(qū)
「網(wǎng)絡(luò)技術(shù)控」數(shù)據(jù)中心網(wǎng)絡(luò)走向Spine-Leaf架構(gòu)