導(dǎo)語:我們身處海量數(shù)據(jù)時代。2011年,全球產(chǎn)生的數(shù)據(jù)量達到1.8ZB(1ZB=10億TB,1TB=1000GB)。未來十年,全球大數(shù)據(jù)還將增加50倍。面對數(shù)據(jù)的暴增,如何有效的存儲、管理、訪問這些數(shù)據(jù)?互聯(lián)網(wǎng)企業(yè)將如何應(yīng)對大數(shù)據(jù)處理所帶來的技術(shù)挑戰(zhàn)?
近日,主要來自各大互聯(lián)網(wǎng)企業(yè)的300多位工程師匯聚百度技術(shù)沙龍,與中科院、百度、58同城的技術(shù)專家圍繞海量數(shù)據(jù)分析的技術(shù)趨勢與應(yīng)對進行了深入的研討交流。由于吸引了眾多一線的大數(shù)據(jù)處理專家參與,本期沙龍被業(yè)界謂之“大數(shù)據(jù)處理技術(shù)群英匯”。百度通過沙龍,向業(yè)界分享了自己領(lǐng)先的海量數(shù)據(jù)處理技術(shù)。
正視海量數(shù)據(jù)所蘊藏的價值金礦
在互聯(lián)網(wǎng)的世界,每個人的行為不再是“人似秋鴻有來信,事如春夢了無痕”,任何行為都有前兆,任何行為也都將對后續(xù)產(chǎn)生影響。對于互聯(lián)網(wǎng)大數(shù)據(jù)的分析,某種程度上將讓人類擁有預(yù)知并影響未來的能力。而這也正是大數(shù)據(jù)的魅力所在。每個企業(yè)和機構(gòu)都應(yīng)正視海量數(shù)據(jù)所蘊藏的價值金礦。
百度對于大數(shù)據(jù)的管理與價值發(fā)掘能力處于絕對領(lǐng)先的地位。作為全球最大的中文搜索引擎,百度每天響應(yīng)來自138個國家和地區(qū)的數(shù)十億次請求,要處理超過100PB(1PB=1024TB)的數(shù)據(jù),從浩如煙海的信息中精確抓取約10億網(wǎng)頁,同時索引庫還擁有千億級在線索引能力,以幫助用戶完成搜索過程。過去10年,百度網(wǎng)頁搜索庫已從500萬猛增到了500億。
遵循開放、分享的互聯(lián)網(wǎng)精神,百度希望把自身對于大數(shù)據(jù)處理的能力和技術(shù)積累向業(yè)界開放,分享自身領(lǐng)先的技術(shù)理念和實踐,幫助所有置身于海量數(shù)據(jù)之中的企業(yè)和技術(shù)人員,共同促動行業(yè)進步。
事實上,大數(shù)據(jù)在生活中無處不在。街上的汽車、路上的行人、天上的衛(wèi)星等幾乎所有的東西每分鐘都在生成大量的數(shù)據(jù),并通過各類終端進入互聯(lián)網(wǎng)。從商業(yè)、經(jīng)濟及其他領(lǐng)域到國家的決策行為,海量數(shù)據(jù)分析都在日益發(fā)揮著積極而重要的作用。奧巴馬政府宣布投資2億美元,啟動“大數(shù)據(jù)研究和發(fā)展計劃”。當(dāng)前,海量數(shù)據(jù)分析與處理技術(shù)已成為各界熱切關(guān)注的焦點。
海量數(shù)據(jù)處理技術(shù),成就百度毫秒級搜索響應(yīng)
中科院計算所副研究員查禮博士在沙龍上指出:百度毫秒級的搜索響應(yīng)速度源于海量數(shù)據(jù)分析技術(shù)。大數(shù)據(jù)發(fā)展分為三個階段,第一個就是大,通過分布式系統(tǒng)架構(gòu)Hadoop來編輯出大量的數(shù)據(jù),這個階段現(xiàn)在已經(jīng)完成。第二個就是快,在解決大量問題、調(diào)用大量數(shù)據(jù)的同時,盡可能縮短時間,是現(xiàn)階段需要解決的問題。“以時間換空間”是現(xiàn)在主流的解決方法。第三個就是準(zhǔn),在使用搜索引擎的時候,根據(jù)每個人的使用習(xí)慣和需求方式的不同,來獲得更準(zhǔn)確的答案,是大數(shù)據(jù)未來的發(fā)展目標(biāo)。
據(jù)百度分布式高級研發(fā)工程師楊棟介紹,從“快”到“準(zhǔn)”也正是百度目前的課題。現(xiàn)階段百度將100毫秒定為搜索響應(yīng)速度標(biāo)準(zhǔn),并通過去重算法和云存儲等創(chuàng)新技術(shù),在內(nèi)存、高可用、讀寫等方面做出革新,不斷縮減這個數(shù)值,達到更快的響應(yīng)速度。此外,百度還采用了hypertable(開源分布式存儲系統(tǒng))與hadoop系統(tǒng)結(jié)合的方式,更好地完成存儲,節(jié)約成本及降低能耗。
“準(zhǔn)”作為海量數(shù)據(jù)技術(shù)的未來發(fā)展趨勢,已在百度初現(xiàn)端倪。百度新首頁的“推薦引擎”技術(shù)就已經(jīng)部分實現(xiàn)“不搜即得”的智能應(yīng)用推薦,即基于用戶以往的使用習(xí)慣分析,直接將用戶需要的信息推送至用戶個人首頁。
毫無疑問,海量數(shù)據(jù)時代已經(jīng)到來,從“快”到“準(zhǔn)”的大數(shù)據(jù)處理技術(shù),將讓每一個網(wǎng)民受益,享受到更便捷貼心的網(wǎng)絡(luò)體驗。
據(jù)了解,百度技術(shù)沙龍系由百度與技術(shù)社區(qū)合作舉辦,至今已經(jīng)成功舉辦了25期。經(jīng)過兩年多的積累,百度技術(shù)沙龍在互聯(lián)網(wǎng)業(yè)內(nèi)已成為公認(rèn)最權(quán)威、最受技術(shù)人員歡迎的技術(shù)交流平臺。往期回顧及資料下載,可訪問:salon.baidu-tech.com
推薦閱讀
4月11-12日,英特爾IDF2012信息技術(shù)峰會在京召開。會上,智能手機、超極本成為英特爾的關(guān)鍵詞,也是英特爾移動市場布局的種子選手。 超極本、智能手機、云計算,這是英特爾內(nèi)部業(yè)務(wù)優(yōu)先級排名前三的業(yè)務(wù)。英特爾發(fā)言>>>詳細閱讀
本文標(biāo)題:百度向業(yè)界分享海量數(shù)據(jù)處理技術(shù)
地址:http://www.sdlzkt.com/a/kandian/20120413/50554.html