2017 CCS企業云計算高峰論壇(ccs.d1net.com)于近日在北京新世紀日航飯店盛大舉行,這是國內面向政企客戶的最重要的一個云計算會展。CCS企業云計算高峰論壇的主題為云計算的生態鏈。書生云在會上談到了超融合技術在EB級云平臺上的應用。以下為專訪實錄。
主持人:接下來的發言來自書生云,發言的領域是超融合,超融合是一個新興的領域,在大家都還在了解和熟悉超融合的時候,我想大家可能都被前兩周這個領域迄今最大的一個價值十億元的單子給震到了。什么樣的公司拿到了這個單?
接下來,書生云首席體系結構技術官夏御杰將為我們帶來:用超融合技術打造EB級云平臺,大家掌聲歡迎!
夏御杰:各位好! 我是書生云的首席技術官,今天要分享的是我們最近在運行的一個項目,就是為浙江紹興鳳凰創新園打造一個1EB的數據中心,這個數據中心有什么特別之處,接下來跟各位分享。
首先,1EB是一個什么概念? 整體來看1EB的數據中心,它實際上可以同時容納200萬個虛擬機或者是容器的計算運作能力。而存儲容量上若以較常見的家庭的存儲容量需求,它可以存儲3000萬個家庭的數據存儲。同時每秒也可以執行數千萬的交易服務。在系統與數據的可靠性方面,它能夠保證這個系統全年不間斷的運行,24小時的提供服務,而不會因為系統故障,無法服務客戶的情況。
書生云承建鳳凰創新園EB級超融合數據中心簽約儀式
我們在建構1EB云的數據中心時,發現投入是非常巨大的,一般投入從十億開始,甚至到數十億的投入。所以,我們會發現建構一個1EB的云,除了相關的技術很重要,以及建構的架構很重要以外,建構成本與運維成本更是重要。
談到云數據中心的成本,我們來看成本包含哪幾個部分?
第一,時間成本,建構1EB云數據中心需要耗費很多的時間,很多的人力。我們有沒有什么方法能夠簡化建構過程,讓建構云能更容易,讓建構云能更快速。
第二,設備與系統的成本。我們在建構云數據中心的時候,若我們在架構上、設計上、硬件上選擇使用很多企業級高端設備,也就是單點高可靠性的設備,這些高可靠性的設備雖然云數據中心建構的需求,但是設備的成本非常高,所以直接造成云的建構與運維成本嚴重提高。然而在云的建設與運維過程中,成本掌控是很重要的,這直接關系到客戶的云成本。還有另一個常乎略的成本是我們采用企業級的設備,用的也是企業級的系統,所以在云的運營上面需要很多熟悉企業級設備與系統的專業人員 , 須要付出高昂服務費與培訓費的專業人員 , 也直接增加了運維上的高成本。所以,從成本整體看來,中國如果在運維云方面存在這樣一個成本問題,怎么跟國外像亞馬遜這樣大型的云數據公司在中國和全球市場競爭,我們面臨的挑戰是很大的。
我們書生云在建立整個1EB云的數據中心上面有我們自己的方法。我們的方法簡單來說就是減法。也就是把整個數據云的架構與設計層級盡可能的簡化,這個簡化除了是技術上的簡化,也是運維上的簡化,同時也是成本上的簡化。
簡化的技術上有什么樣的特點。
首先,我們在簡化的架構上,我們其實采取了分布式的架構。分布式的架構跟一般的分布式也有不同之處。 第二部分,我們采取超融合的設計,把建構云所需要的建全機制以機柜的方式來提供,并開機即用,并集群成云服務。這樣的方式能夠很快速的建立一個完整的云服務。第三,我們體會到客戶的使用方便性,所以我們在整個數據中心建構管理方面采用超融合用戶管理中心,這個管理中心只需要一般的運維人員就可以維運,不用特別找熟悉數據庫的,或者是網絡的專家,配合很多培訓與認證才能開始運維,我們只需要懂IT的人就可以運維整個云數據中心。
在架構上面,我們跟傳統的數據中心有什么不同呢? 剛剛提到我們是一個超融合、分布式的數據中心架構。所以,它跟傳統的數據中心一央樣是個高可靠性的數據中心,甚至可以提供更高的可靠性。主因是用分布式的架構去做,在分布式的這樣的基礎上,我們也做了很多的優化,在架構上我們也做了很多的改變與簡化。
所以,過去我們依靠傳統要靠商業的服務器,雙控的架構,或者是垂直擴展集群的服務器來提高可靠度。我們現在是用所謂的分布式架構,設備故障完全不影響其可用與可靠性,并且基于共享存儲架構的方式也能夠達到傳統企業級高端服務器可靠性。甚至超越 ,在經過驗證的測試發現它的可靠性是傳統企業級服務器的1000倍,而實際只增加20%的成本,比傳統的企業級架構有很多成本優勢。
談到超融合,為什么我們建構1EB的云數據中心需要用超融合?首先,考慮到超融合的方便性,超融合的方便性能夠快速建構云數據中心。過去在建構數據中心的經驗中,從部署服務器與存儲,還有網絡的建構,到整個系統的調試,以及各方面參數的調整與測式,包括應用和虛擬化各方面的整合,并建立集群進行服務。這個建構的過程,我們最快也需要6個月以上。正常的情況是需要一年的時間,甚至一年以上的時間來建構。
使用超融合建構 , 能省去傳統在布署、調適、優化的時間,將建構時間縮短為3個月內,大大減少了建構云的時間成本。
第二,在建構1EB云數據中心的傳統方式,我們會用很多不同廠商的設備,每個廠商的設備里面都有不同的應用,接口與管理方式,我們要如何整合這些廠商的產品,廠商的應用,因為每個廠商的方式都不一樣。所以,在超融合的云管理設計上我們采取的方式是支持開源,同時可以用軟件去定義設備。定義什么呢?第一,定義計算池,定義虛擬化的應用。第二,定義網絡的應用。第三,定義存儲池與相關的應用。也就是我們通過一個超融合技術與管理中心系統,已經把網絡、計算、存儲融合在一起,甚至系統布署上能夠在線實時的部署,這樣可以不受到硬件廠商,或者國外硬件廠商的技術或標準限制,我們能夠自己定義我們網絡管理,或定義存儲,計算這方面故障遷移,故障處理的方式,這都是我們透過軟件來定義與管理來提供云數據中心的服務與應用。
所以,為了不讓我們在建構云的時候我們受到這些生態鏈,或是供應商,廠商技術與標準方面的捆綁和限制,我們在超融合的管理技術方案還有系統技術方案采取開源方式,這也是國內少數幾家愿意把技術源代碼,架構開源出來的廠商。這樣的理念主要是讓客戶在使用我們的系統,技術人員也能夠完全掌握與處理運維需求,也能夠在上面進行二次開發與應用開發來符合運維需求,同時在技術支持上也是開放性的。我們的客戶有自己的運維與開發團隊,他們可以利用我們開源的技術與方式來滿足運維上的需求。
第三,我們的超融合是基于商業化的架構設計,并不是完全依賴開源的架構去做的,而是把我們商業化超融合產品的設計與代碼進行開源,所以這是一個反向運作。前一場演講中京東云提到,國內有很多云廠商的產品與技術同質性很高,主要的原因是因為云廠商以開源為主來建構他們的云產品與云服務,所以技術與產品會大同小異。我們的做法不一樣,我們是以商業化設計與開發為主,然后開源給開源的社區使用,這是我們在產品與技術上提供給開源的理念。
第四,用戶體驗是一個很重要的環節,建構一個超大型的數據中心如何去管理,如何讓它能夠持續的運維,其實很重要。我們做了一個事情,就是我們在超融合的系統管理上做了很人性化,一個高用戶體驗的管理中心,這個管理中心的系統也是開源,讓用戶能夠在這樣的基礎上能夠開發自己的界面。我們也提供能管理運維的界面,這個界面讓用戶很容易,可以用觸控的方式來管理,我們每臺機柜上面有一個觸控面板,可以很快速的檢查設備與服務狀態,或是透過一臺筆電登入管理中心,不需要另外購買昂貴的專業設備或軟件就可以控管數已千計,數以萬計的服務器計算節點、存儲跟網絡。
第五,超融合產品有一個特性,就是它在硬件方面使用的是標準硬件,這樣做的目的是希望在建構超融合體柜的過程中能讓客戶參與并可以自己選擇所要的配置,而不會因為硬件的捆綁造成客戶的選擇變得很受限制。所以我們采用了標準的硬件服務器、存儲設備與網絡設備等等來建構超融合數據云。
如何發揮硬件的性能?其實是我們一直在努力的方向。我們從軟件的架構來看,系統軟件在硬件上面運作架構與性能,硬件從過去的十年來,我們看到機械磁盤,到現在的固態硬盤,從CPU計算能力、內存容量與性能,到現在已經將近有100倍的成長。可是在軟件方面,如果我們仍然依賴開源的架構,就會發現軟件架構與設計并沒有很大的進步,因此我們采用商業化的做法,在軟件上進行了重構,這個重構的概念就是我們如果以交通來看,軟件有很多協議,有很多溝通的機制,甚至為了容災,為了監控,為了管理做了非常多的控制。這個控制就很像一個主要的道路上我們設了很多紅綠燈跟柵欄,并設置管理人員,指揮交通。可是我們知道尤其在北京這樣的交通環境里面,越控制越堵車,管理愈嚴密性能越低。
所以,軟件設計與架構也是這樣的情況,我們在看到開源社區里面,軟件設計與框架,有些為了能夠全面的控管這些服務做了很多很多控制的機制。我們的做法是反其道而行,我們打通軟件與硬件的整合,比如利用RDMA,PCIe,又例如虛擬內存之間數據交換與控制,減少高速的IO間的復雜協議,我們通過這樣的機制,我們在每個應用,每個系統,包括網絡,計算,存儲,我們都建構了所謂的高速公路。這樣的高速公路是用軟件的方式去建構的。也就是當我們進行服務運作的時候,我們其實排除掉很多中間所謂傳統方式管理的環節,而用更先進的技術來進行這方面的管理。所以,它在監控、調試、調度、遷移的時候,它對于性能的影響是微乎其微的。這就是我們在超融合方面做了很多技術上的加強跟技術上的突破。
講到分布式架構,我想最有名的就是Google。Google在分布式架構,它建構了一個很完善的分布式機制。我們用的是更先進的超融合方式,它是將一個機柜作為一個數據中心重要的節點,所以每個機柜之間都是以分布式架構與集群去服務,我們做了很多的努力來加速與簡化各節點之間的運行和數據交換方式,使整體運作性能能夠更順暢。
在整個超融合里面,計算節點,包括網絡與存儲之間我們怎么去做這方面的簡化跟架構上的改變呢?首先,在超融合的服務器上,存儲跟計算節點融合外,我們采用SAS3為存儲交換網絡,這跟傳統的分布式不太一樣,傳統的分布式它的架構是每個節點都會有自帶的硬盤,或者是所謂的固態盤,也就是數據,在這個節點上,數據跟其它節點之間是獨立的。如果是節點之間要做訊息的互換,或者訊息的交換,就要去走傳統的TCP/IP這樣的網絡,或者走IB的這樣一個網絡架構。
我們的做法是直接透過SAS3存儲交換網絡設計共享存儲架構,這樣的好處是SAS比對于TCP/IP是一個非常低延時、高帶寬的方式。同時,SAS性能增長速度也是以倍數的性能在增長,我們過去從SAS 2.0 6G到現在的SAS3.0 12G,在短時間內已經在性能上翻了一倍,并且在成本與性價比上要比萬兆網絡或IB網絡更有優勢。
同時,我們在存儲網絡基礎上,又跟傳統分布式存儲采取不一樣的技術與方式,傳統分布式存儲與計算因為透過網絡交換,它的數據獨立在各個節點上,所以在數據交換的過程中是采取副本的方式來保護數據,我們知道副本的方式保護數據,多一個副本對磁盤陣列空間來說存儲空間就直接減一半。網路性能也因此增加一倍的負荷,如果我們用傳統的分布式技術要提供高可靠數據保護方式,要達到5個9,甚至11個9這樣的一個數據可靠性的要求,我們最少就要用三個副本。也就是說,整個數據中心的存儲能力,因為我們運用了三個副本,總數據容量就直接變為原來的1/3。
然而用我們超融合的架構去做,我們不再采取用副本的方式來保護數據,而我們是采取另外一種更好的方式來保護數據。這樣的保護數據的方式,我們也可以提供高可用、高可靠11個9的要求,并且只使用了總容量的25%的冗余空間。這個冗余空間所帶來的直接效果是匹配于三個副本這樣的一個數據保護與可靠性的機制。這也是超融合存儲架構上我們做的創新。
這個創新還有一個特點,就是因它在磁盤的整體數量上比傳統的架構要減少了將近2倍,甚至3倍,所以它在總體的設備成本上,與數據中心的節能上是很有優勢的。因為各位都知道,硬盤成本在數據中心里面占比是很高的,同時也是最容易故障的設備,跟CPU與內存比較起來,硬盤相對來說是脆弱的。所以,我們在這方面透過先進的機制架構,能夠更節省磁盤的使用,同時也降低了整個數據中心的成本與節能。
關于我們采取SAS存儲網絡的架構,同時也能夠提高整體的運作性能。這邊我們做了一個比較,就是傳統分布式的網絡的方式,也就是友商常用的架構,它透過網絡讓存儲跟計算節點之間透過TCP/IP的方式交換數據,和我們透過SAS3的方式,在性能上會有很大的不同。
為了做到分布式的運作,我們SAS存儲與計算節點之間,每個計算節點對接SAS盤陣都是全局性的,這個全局性的SAS對接能夠保證每個超融合節點即使其中有幾個節點在故障情況下,其它正常運行的超融合節點能夠快速的接手故障節點的運作。因為每個節點都是能夠接手控制或管理存儲數據的。所以在整個路徑上會非常快速,因為SAS協議沒有那么多復雜的監管控制要求,在協議方面的運作路徑非常短,所以讀寫速度非常快。如果是透過傳統的TCP/IP網絡運作,每次交換就需要多次CPU的介入與處理,這樣就會會影響運作性能,所以采用我們超融合的架構與傳統分布架構就有實質性的差異。
所以,在我們超融合一體機的優勢上面,整理了三個優勢。第一個優勢,我們雖然采取了分布式系統,并且我們分布式系統內部是利用軟件架構減法技術與高速通道進行節點之間數據交換。第二個優勢,基于SAS存儲網絡,將共享存儲架構做高效的直接讀寫,也能夠提供相當高的數據交換性能。第三個優勢,這時各位就會想到數據安全性與可靠性怎么保證? 上場演講友商提到,對于數據中心來說安全性是很重要的,數據可靠性也是很高的要求,所以我們自主研發技術來提供高可靠、高安全的機制,包括存儲數據遷移與虛擬機的遷移,以及網絡故障的轉移,還有整個集群的遷移,我們都透過自主研發的機制,并商業化的產品設計整合,來進行云數據中心整體的管理。
所以,我們超融合一體機的架構 可以總結五個特點。第一,它和企業級高端系統與設備一樣高可用,但成本更低。第二,它很容易使用,不依賴專家的支持便可運維。第三,可以節能。因為整個架構上已經進行了優化跟簡化。第四,數據可靠性可以達到11個9。第五,在技術上面做了很多突破,所以它的IOPS可以輕松的達到百萬的性能。
提到用超融合來去運作1EB數據中心,我們測算過,在設備成本,運維成本,電力的節省,溫控成本,還有整個部署的時間成本等等,實際的結果是節省50%,跟傳統的數據中心比較起來節省一半。所以,總體成本一個1EB數據中心運維的非常重要一點,用較低的成本達到比較高的性能,同時也確保運維的可用性,還有數據的可靠性。
簡單介紹一下我們公司。我們公司有20多年的歷史,過去在數據的保護,文件的保護,還有超融合數據云的建設,都有多年的經驗。早在幾年前我們就已經開始進行超融合一體機的這樣一個建構與開發。
因為我們超融合技術投入與產品的因素,我們很榮幸的能夠得到鳳凰大數據中心的青睞,我們很榮幸于今年4月份簽下一個十億的數據中心訂單,讓我們在浙江紹興能夠建構一個1EB存儲跟計算能力的數據中心。
最后說明超融合數據中心的建設架構上,我們采取了以每個機柜為一個重要的節點,然后形成一個集群,這個集群是可以擴充的,并且可以夠擴充成所謂的超大型數據中心。為什么我們可以這么容易的擴充呢?是因為我們是用超融合的結構,把計算,網絡,存儲都用軟件定義。同時,我們把整個集群的功能已經融合在我們的產品里面。并在公有云,或者私有云的運作機制上,也把相關的功能與管理營運融入,還有系統控制管理跟用戶的界面也都整合到超融合的產品里面。
所以,當客戶需要擴建,需要增建整個數據中心的運作與設備時,只需要以機柜的方式購買就可以很快的加入現有的數據中心運作。透過我們的安全跟遷移的機制,能夠很快的讓客戶的系統進行快速的遷移并達成負載均衡。所以,這就是我們建設超大型數據中心所用到的超融合架構,這種架構能夠快速的建構云數據中心,所以無論企業需要建立私有云,或者是大型機構需要建立公有云,都能夠以很快的方式建立起來,不再是過去傳統需要6個月,或者是一年以上的時間,我們可能只需要三個月的時間,甚至更短的時間就能夠建立數據中心。
這是書生云的最終目標,讓天下沒有難建的云,今天我就介紹到這里,謝謝各位!
推薦閱讀
5月12日消息,在品牌觀察和中國商業經濟學會、深圳市商協會秘書長聯誼會聯合主辦的首屆中國品牌50人論壇上,樂視獲得第三屆中國年度品營銷案例獎,是最年輕的科技品牌>>>詳細閱讀
本文標題:書生云用超融合技術打造EB級云平臺
地址:http://www.sdlzkt.com/a/05/302955.html