新浪科技訊 3月23日上午消息,2012百度開發(fā)者大會今日召開。百度首席架構(gòu)師林仕鼎從技術(shù)層面對百度云的技術(shù)框架與愿景進行了全方位的解讀。新浪科技全程直播該會議。
以下為演講實錄:
主持人:感謝百度技術(shù)副總裁王勁精采的演講,接下來有請百度云首席架構(gòu)師林仕鼎先生做分享。有請!
百度首席架構(gòu)師林仕鼎:大家好,剛剛Robin闡述了我們的百度云戰(zhàn)略的愿景,作為云戰(zhàn)略的工程師角度來講,可以分享我們的理想和夢想。
我們先從百度云計算的技術(shù)開始說起。搜索引擎是云計算技術(shù)最典型的應(yīng)用,我們在十幾年做開發(fā)引擎的過程中,也積累了一套云計算的技術(shù)。這個技術(shù)就是以數(shù)據(jù)中心、網(wǎng)絡(luò)、服務(wù)器硬件的架構(gòu),加上大規(guī)模數(shù)據(jù)存儲和處理為代表的軟件基礎(chǔ)架構(gòu)。我們在軟硬件的基礎(chǔ)架構(gòu)上搭建一層數(shù)據(jù)挖掘分析與新興的算法,以及數(shù)據(jù)倉庫等智能的算法。我們把軟件的基礎(chǔ)架構(gòu)和數(shù)據(jù)智能通常叫做大數(shù)據(jù)的集成。軟硬件的基礎(chǔ)架構(gòu)我們起一個名字叫數(shù)據(jù)中心的計算。
這樣的云計算技術(shù)對于百度的產(chǎn)品,我們叫做一種推動作用,更準確的來說,就是以前不能做的事情現(xiàn)在能做了,以前能做的事情現(xiàn)在可以做得更好。大家很清楚,我們互聯(lián)網(wǎng)業(yè)務(wù)是成功發(fā)展的狀態(tài)。很多時候有很多新的業(yè)務(wù)要發(fā)展,但是受限于技術(shù),其實不能用業(yè)務(wù)來推動公司的發(fā)展,因為基礎(chǔ)架構(gòu)的構(gòu)建非常重要。大家在業(yè)內(nèi)開玩笑說,是由你的痛苦來驅(qū)動公司的發(fā)展,遇到問題再去改,這樣的速度很慢。有了云計算以后,我們可以改變這樣的情況,由系統(tǒng)架構(gòu)驅(qū)動這個業(yè)務(wù)發(fā)展。 甚至我們可以通過數(shù)據(jù)分析的方法,用數(shù)據(jù)驅(qū)動這個公司的業(yè)務(wù)發(fā)展。這是我們對云計算技術(shù)的認識。
云計算在百度已經(jīng)做了很多年了,只不過以前這些技術(shù)主要是為搜索引擎服務(wù),這時候我們還叫做專有云,包括綠色環(huán)保IT的建設(shè),高效的網(wǎng)絡(luò)和服務(wù)器的計算,以及大規(guī)模存儲,大規(guī)模計算,還有實時存儲與計算。我們有時候在想,我們有了這么好的技術(shù),我們可以把幾百個pp的數(shù)據(jù)處理,我們可以讓這些數(shù)據(jù)開放出來,服務(wù)更多的開發(fā)者。到了2007年我們做了很多工作,首先我們是把我們的服務(wù)API開發(fā)出來,比如說搜索的API,地圖的API等等,以前這些只是讓用戶使用,現(xiàn)在是開放出來了,讓開發(fā)者也使用。
這些技術(shù)的程序員和開發(fā)者,我們怎么把這個技術(shù)更好的研發(fā)出來,服務(wù)開發(fā)者,現(xiàn)在我們開發(fā)互聯(lián)網(wǎng)服務(wù)的時候,主要用這個lan的架構(gòu),也有服務(wù)器,我們?nèi)ゴ罱ㄒ粋云存儲,云的數(shù)據(jù)庫,還有云的消息溝通機制,然后構(gòu)建一個云服務(wù)組件,java我們也在開發(fā)中。百度除了做搜索引擎,我們還有百度貼吧,很多的在線服務(wù),里面有很多功能,比如說接收器、留言板,這些通用功能也是必要的,我們把這些也開放出來了,規(guī)范這個接口,這樣大家直接通過這些接口就可以調(diào)用以前在百度的服務(wù)內(nèi)容。
然后我們還統(tǒng)一搭建了CPU的應(yīng)用,這就形成了SaaS的平臺,我今天會講兩個,一個是我們的存儲技術(shù),存儲是一個最通用的需求,我們做了很多年。因為百度的業(yè)務(wù)很多,根據(jù)百度業(yè)務(wù)的特點,我們做三個存儲系統(tǒng),一個是Mola,這個系統(tǒng)是低延時、高并發(fā)在線的K/V存儲。
還有就是海量高吞吐網(wǎng)頁存儲,BDDB,我們做搜索引擎需要把所有網(wǎng)頁都打開一遍。
還有一套系統(tǒng)是離線系統(tǒng),HDFS,離線數(shù)據(jù)備份。這個問題都是共性的,你怎么能夠處理一個超大規(guī)模的存儲引擎,怎么實現(xiàn)它的管理、運維和容錯,我們應(yīng)該改正這種情況。從2011年開始我們在設(shè)計新的存儲系統(tǒng),這套存儲系統(tǒng)我們希望能夠屏蔽掉剛才說的Table、File、Object,然后統(tǒng)一到pad上,我們還基于內(nèi)存搭建了一個分布式數(shù)據(jù)結(jié)構(gòu)。
為了屏蔽這些系統(tǒng)的差異,我們搭建一個數(shù)據(jù)訪問層,便于開發(fā)者內(nèi)部的應(yīng)用,可以更好的用這些不同的系統(tǒng)。我們發(fā)現(xiàn)這個存儲系統(tǒng)它還是落后的,為什么呢?百度現(xiàn)在所有的業(yè)務(wù)有一個特點,每一個用戶他自己的數(shù)據(jù)量,包括他的服務(wù)器量其實并沒有那么大,總量很大,這就意味著我們的數(shù)據(jù)存儲要有變化,我們要做云,情況發(fā)生了變化,每一個用戶會上傳下載更多的數(shù)據(jù),我們就需要再做一套新的系統(tǒng),我們希望這套系統(tǒng)在全國內(nèi)搭建,我們在華北、華南各搭建了一套搜索引擎,它會有好幾個數(shù)據(jù)中心組成,用高清網(wǎng)絡(luò)來處理的。
為了再度降低用戶的延遲,我們又搭建了一套CDI的節(jié)點,這個并不是很大,搭建很多的接口。這個系統(tǒng)在每個機型上都可以寫入,這樣我們可以極大的降低用戶讀寫的延遲。這給我們技術(shù)也帶來很大的挑戰(zhàn),在各個機型上都可以寫入的話,我們需要處理EC的問題和讀寫同步的問題。最開始我們是有需求,我們從這個技術(shù)出發(fā),去設(shè)計,然后我們發(fā)現(xiàn)這個技術(shù)會更好,我們會做統(tǒng)一的技術(shù),但是因為有新的業(yè)務(wù)發(fā)展,我們又要設(shè)計新的業(yè)務(wù)系統(tǒng),百度有很多技術(shù)就是在需求和技術(shù)發(fā)展之間來做不斷的更新迭代,我們從技術(shù)出發(fā)做我們的技術(shù),然后又有新的需求,再反過來做新的技術(shù)。這樣的迭代過程中產(chǎn)生了很多的技術(shù),這個技術(shù)在得不是廣為使用的,今天我們希望把這個技術(shù)逐漸的開放出來,讓更多的開發(fā)者跟我們一樣去應(yīng)用這個技術(shù)。
另外一個在線服務(wù)開發(fā)的技術(shù)挑戰(zhàn),比如說百度的貼吧大概有100多個模塊,他可能產(chǎn)生幾百個到千的量級和小的服務(wù),這樣一個系統(tǒng)KPI需要變化,我們需要改進。然后很多時候你有業(yè)務(wù)需求,你要改善你的存儲,做一個迭代,然后明天又做一個迭代,你會遇到很多的問題。然后對于這樣一個問題,我們也在思考,怎么能夠把這個系統(tǒng)做得更好,這邊有一個需求你去打一下,那邊有一個需求你又去打一下,會比較亂,從去年開始我們在搜索一個開發(fā)方法。我們覺得做一個在線的服務(wù),有幾個步驟,比如說先有想法,把這個想法之后實現(xiàn)原型,然后再設(shè)計一個系統(tǒng),最后出現(xiàn)產(chǎn)品。可以在最開始的時候就可以通過數(shù)據(jù)收集的方法來驗證,然后你需要開發(fā),這時候我們有開發(fā)框架,使你可以很快的做你的原型。然后你的原型系統(tǒng)也有一個測試,這個測試也是基于測試框架的,這是一個新的業(yè)務(wù),有一個模擬現(xiàn)場,然后通過應(yīng)用引擎部署運維,你對一個功能你就做兩個,AB兩種方法,讓用戶去檢驗究竟哪一種方法是好的。通過數(shù)據(jù)收集、數(shù)據(jù)分析幫你選擇哪一種方法是好的。開發(fā)過程中我們從想法、原型、系統(tǒng)、產(chǎn)品各個階段都有數(shù)據(jù)收集,以前是內(nèi)部使用的,現(xiàn)在我們開放出來了。
這套系統(tǒng)有什么收益呢?有兩個收益,前端成本下降30%,Bug下降40%。減少高階技術(shù)人員投入,降低研發(fā)時間,更多的新秀可以參與其中,去開發(fā)一個很難做的系統(tǒng)。做三個例子,我們部分使用的開發(fā)方法之后,他人員的消耗會下降50%,當(dāng)我們?nèi)渴褂眠@套方法,他又可以下降30%,更重要的是對于百度來說,我們只用一兩個工程師,就把這樣一個系統(tǒng)做完了。這幾年百度在做新產(chǎn)品的速度,確實比以前快了。我們有云計算,我們有在線開發(fā)的方法和流程支持,我們應(yīng)該把它開放出來,讓更多的開發(fā)者也可以跟我們一樣用這樣的方法,去服務(wù)網(wǎng)民,這就是我們開放的平臺。
推薦閱讀
和訊科技消息 北京時間3月23日,據(jù)國外網(wǎng)站報道,近日一份法庭文件表明,蘋果在起訴三星涉嫌侵犯版權(quán)之前,曾與后者在2010年4次交涉以避免訴諸法律。 來自The Verge網(wǎng)站的消息稱,蘋果公司在法庭立案文件中表示曾和三>>>詳細閱讀
本文標題:百度首席架構(gòu)師林仕鼎解讀百度云技術(shù)框架
地址:http://www.sdlzkt.com/a/kandian/20120323/43633.html