在线视频亚洲一区,www.久久99,亚洲一区二区久久久久久久,精品视频一区二区三区四区五区

百度楊棟:HCE助MapReduce提升資源利用率

作者: 來源:未知 2012-03-05 16:30:01 閱讀 我要評論 直達(dá)商品

時至今日,“Big data”(大數(shù)據(jù))時代的來臨已經(jīng)毋庸置疑,尤其是在電信、金融等行業(yè),幾乎已經(jīng)到了“數(shù)據(jù)就是業(yè)務(wù)本身”的地步。這種趨勢已經(jīng)讓很多相信數(shù)據(jù)之力量的企業(yè)做出改變。恰逢此時,為了讓更多的人了解和使用分析大數(shù)據(jù),CSDN(微博)獨(dú)家承辦的大數(shù)據(jù)技術(shù)大會于今日在北京中旅大廈召開。本次大會匯集Hadoop、NoSQL、數(shù)據(jù)分析與挖掘、數(shù)據(jù)倉庫、商業(yè)智能以及開源云計(jì)算架構(gòu)等諸多熱點(diǎn)話題。包括百度、淘寶、新浪等業(yè)界知名專家與參會者齊聚一堂,共同探討大數(shù)據(jù)浪潮下的行業(yè)應(yīng)對法則以及大數(shù)據(jù)時代的抉擇。

百度分布式高級研發(fā)工程師楊棟
百度分布式高級研發(fā)工程師楊棟

以下為文字實(shí)錄:

今天我給大家講一下MapReduce的框架,這主要是我們自己實(shí)現(xiàn)的一個框架,基于C++能夠提升資源利用率的一個框架,簡稱HCE。首先我做一個大概介紹。我做分布式大概有6,7年的時間,剛才劉主編也說過,上Twitter每秒要處理上百萬條數(shù)據(jù)。當(dāng)然這不是我今天演講主題,像FaceBook處理每天海量數(shù)據(jù),要存儲這些數(shù)據(jù)需要利用到快存儲。在傳統(tǒng)快存儲上要做簡單的索引,所以就利用到一些把非結(jié)構(gòu)化轉(zhuǎn)變成結(jié)構(gòu)化的一些工具。在基于這些上面,他要做一些計(jì)算,而分布式計(jì)算大概分為兩個,一類是批量分布式計(jì)算,MapReduce是最典型批量計(jì)算。有一部分衍生品,像機(jī)器學(xué)習(xí),有很多迭代性計(jì)算,為了高效會有一些延伸。還有現(xiàn)在雅虎說的MPI,是因?yàn)镸apReduce現(xiàn)象還是計(jì)算,而MPI是面向通信,對一些數(shù)據(jù)挖掘,機(jī)器學(xué)習(xí)方面的東西有不同的模型。

今天我講HCE,是基于MapReduce的一個擴(kuò)展。這個HCE框架,本身也是一個開源軟件,一年前我們就作為有所涉及。今天我講的主要分四個部分:Backgroundand Motivation,性能評估,總結(jié)。

第一方面我們介紹三部分,現(xiàn)狀,遇到的挑戰(zhàn)和一個簡單解決方案。為什么要提出HCE這個框架呢?首先,我們用集群一般會考慮幾方面問題,我們希望集群是容易控制的,這些都是成本問題。第二,我們需要考慮集群的高效性,因?yàn)閷τ诎俣葋碚f,前陣子一個分會上雅虎公布他最新的數(shù)據(jù),雅虎每個月大概有500萬個作業(yè),他節(jié)點(diǎn)數(shù)應(yīng)該超過5萬,每天處理的數(shù)據(jù)量是超過200PB。百度我們每天有5萬個作業(yè),超過總數(shù)有1萬5千個節(jié)點(diǎn),每天要處理10TB的規(guī)模,而且這種規(guī)模的擴(kuò)展是每天都在遞進(jìn)的。作業(yè)每天都會增加100、200,數(shù)據(jù)存儲也可能每天以零點(diǎn)幾或1%的速度在遞增。面對這種不斷數(shù)據(jù)爆炸性的增長,我們需要用合理的手段去控制他,以及我們能夠高效利用整個集群的一些資源,而不至于資源浪費(fèi)。如果能節(jié)省一些成本,按現(xiàn)在機(jī)器性價比來說,現(xiàn)在一般大存儲的機(jī)器一般是2到3萬,就算定制高性能,大概也是在5萬塊錢以下。如果你能省10%的成本,就能為公司節(jié)省上千萬的財(cái)產(chǎn)。所以說,技術(shù)上的一個小缺口,可能給公司帶來很大的收益。

HCE目標(biāo)有兩個方面,第一,需要提升整個集群使用效率;第二,附加價值給開發(fā)者一個更好的開發(fā)接口。面對的挑戰(zhàn),提升集群資源利用效率,業(yè)界一般有幾種做法,最典型是做以兆級優(yōu)化,一個是資源調(diào)度。換句話說,主要是在資源調(diào)度上有大的改進(jìn),傳統(tǒng)調(diào)度是每次作業(yè)就是兩階段來提交,其實(shí)MapReduce不能準(zhǔn)確進(jìn)行描述,還有存儲等等。所以,新的MapReduce2.0會把這些資源調(diào)度描述更細(xì),他通過分配的一些算法,一些資源分配來描述每一個作業(yè)真正需求,真正能夠把作業(yè)力度切到更細(xì),這樣整個集群資源使用率也會提高。

第二種方法是Task optimization。因?yàn)橛脩籼峤灰粋作業(yè),集群是不知道用戶什么配置。大家都了解,一個作業(yè)可能需要上百個配置,而這些配置用戶怎么能正確配置好,而且很多用戶他是不愿意去配置的,即使是在公司內(nèi)。如果在平臺方看來就需要做一個動態(tài),這塊是比較難做的。我剛才說的這些都是業(yè)界傳統(tǒng)一些優(yōu)化方法,當(dāng)然這些傳統(tǒng)方法我們也做了。我們有一些另辟蹊徑,每一個作業(yè)被切成多個來運(yùn)行,實(shí)際上作業(yè)執(zhí)行效率,除了調(diào)度期快慢以外,還取決于單機(jī)執(zhí)行。

而Task的優(yōu)化很多人是不去關(guān)注的,我們在這里分了一下Task,什么叫small tasks?什么是big tasks?如果用戶作業(yè)是零就由框架來占,什么是用戶開銷是零呢,如果用戶沒有做任何結(jié)算,你數(shù)據(jù)流也要流過整個框架,管這種作業(yè)叫small tasks,用戶就沒有其他額外的工作,這就是一個small tasks。而做一些工作你會發(fā)現(xiàn)這一個small tasks會跑的很快,會在幾十秒內(nèi)結(jié)束。對用戶程度比較重,用戶需要做迭代,需要做復(fù)雜的的操作,這個任務(wù)會執(zhí)行很長,會幾分鐘,甚至幾十分鐘。

總而言之,我們把那種用戶,用戶定義的很簡單執(zhí)行時間很短的任務(wù)我們稱為small tasks,對于哪些用戶在營銷里面進(jìn)行大量的,大家都知道這是一個主要因素,我就先指出這里面有復(fù)雜計(jì)算邏輯而且執(zhí)行很長時間的我們就叫big tasks。

對集群做一個統(tǒng)計(jì),因?yàn)槟愠橄鬄橐橄髎mall tasks和big tasks,我抽取四個主要因群來看的話做一個統(tǒng)計(jì),統(tǒng)計(jì)的標(biāo)準(zhǔn)是什么呢?這個tasks到底執(zhí)行多長時間,不是一個作業(yè),而是一個tasks,tasks是作業(yè)切分之后,平行化之后在電極上執(zhí)行的任務(wù)叫tasks。通過4個集群統(tǒng)計(jì)會看到,超過80%作業(yè),其實(shí)他本身任務(wù)都是小于2分鐘就完成的,而且應(yīng)該是超過75%都是在一分鐘之內(nèi)完成。

因?yàn)楸旧磉@是符合邏輯,你的集群跑到一個公有計(jì)算平臺,一定是輕量級。大家都了解機(jī)器學(xué)習(xí)里面有一些復(fù)雜的迭代性算法,相關(guān)有一些MPI五做的這些東西是處理那些復(fù)雜計(jì)算邏輯。一般統(tǒng)計(jì)無非是操作,都是很輕量級這是符合邏輯。比如任務(wù)都是小于1分鐘,而且你要跑Map的時候就需要知道,我們統(tǒng)計(jì)得出Map數(shù)據(jù)基本上是Reduce數(shù)據(jù)量倍,這樣數(shù)據(jù)量會大幅下降。一般根據(jù)FaceBook統(tǒng)計(jì)結(jié)果,平均有5到10倍介紹,你輸入假設(shè)100倍,收入就是10個,Reduce是很輕量的,你能大幅提升Map,因?yàn)槟愕拇箢^在Map,這一個發(fā)現(xiàn)。

換句話說,本身對于那些輕量級的。第二點(diǎn)對于用戶來講,在國內(nèi)大部分人使用寫CDI出身,讓你能夠?qū)崿F(xiàn)多語言支持,你可以寫C++,可以寫各種腳本,說白通過管道,通過pad通過STD,把數(shù)據(jù)傳給JAVA進(jìn)行執(zhí)行。這樣的話有一個問題,用戶作業(yè)是獨(dú)立于你框架,你框架只干了一件事就是把用戶任務(wù)啟動起來讓他執(zhí)行,看整個框架是怎么編譯優(yōu)化。有人說我框架不需要關(guān)注這個東西,因?yàn)楹芏嘤脩簦热缯f用戶在編制程序的時候不去加JAVA,或者用戶用低版本,本身學(xué)過編譯的人都了解,編譯的好壞,編譯手段不一樣,也會產(chǎn)生影響。

 1/5    1 2 3 4 5 下一頁 尾頁

  推薦閱讀

  圓桌沙龍:NoSQL技術(shù)實(shí)戰(zhàn)

時至今日,“Big data”(大數(shù)據(jù))時代的來臨已經(jīng)毋庸置疑,尤其是在電信、金融等行業(yè),幾乎已經(jīng)到了“數(shù)據(jù)就是業(yè)務(wù)本身”的地步。這種趨勢已經(jīng)讓很多相信數(shù)據(jù)之力量的企業(yè)做出改變。恰逢此時,為了讓更多的人了解和使>>>詳細(xì)閱讀


本文標(biāo)題:百度楊棟:HCE助MapReduce提升資源利用率

地址:http://www.sdlzkt.com/a/kandian/20120305/36929.html

樂購科技部分新聞及文章轉(zhuǎn)載自互聯(lián)網(wǎng),供讀者交流和學(xué)習(xí),若有涉及作者版權(quán)等問題請及時與我們聯(lián)系,以便更正、刪除或按規(guī)定辦理。感謝所有提供資訊的網(wǎng)站,歡迎各類媒體與樂購科技進(jìn)行文章共享合作。

網(wǎng)友點(diǎn)評
我的評論: 人參與評論
驗(yàn)證碼: 匿名回答
網(wǎng)友評論(點(diǎn)擊查看更多條評論)
友情提示: 登錄后發(fā)表評論,可以直接從評論中的用戶名進(jìn)入您的個人空間,讓更多網(wǎng)友認(rèn)識您。
自媒體專欄

評論

熱度

在线视频亚洲一区,www.久久99,亚洲一区二区久久久久久久,精品视频一区二区三区四区五区
国产精品视频久久一区| 亚洲人成网站在线观看播放| 亚洲国产精品一区二区尤物区| 欧美激情国产日韩| 亚洲欧洲在线免费| 欧美另类69精品久久久久9999| 亚洲国产精品一区二区www| 国产精品乱子久久久久| 午夜精品美女自拍福到在线| 国产一区99| 国产精品成人一区| 性一交一乱一区二区洋洋av| 国产一区二区精品久久99| 欧美视频日韩| 欧美在线高清视频| 亚洲丰满在线| 国产日韩欧美在线播放| 免费亚洲电影| 一区二区三区免费观看| 亚洲精品乱码视频| 国产精品免费看| 欧美精品一区二区三区高清aⅴ| 一区二区高清在线观看| 国产美女精品免费电影| 国产精品国产三级国产普通话99| 欧美在线视屏| 日韩视频三区| 亚洲激情一区二区| 国产精品电影在线观看| 欧美日本不卡视频| 午夜久久一区| 亚洲国产清纯| 亚洲第一在线综合在线| 欧美性天天影院| 欧美日韩黄视频| 久久高清国产| 日韩视频在线观看| 亚洲精品综合| 国产日本精品| 国产欧美日韩亚洲一区二区三区| 美日韩丰满少妇在线观看| 一区二区三区成人| 一区二区欧美在线| 国内精品久久久久影院薰衣草| 国产欧美一区二区精品仙草咪 | 久久久久久久激情视频| 亚洲人妖在线| 噜噜噜躁狠狠躁狠狠精品视频| 一区二区日韩| 99re6这里只有精品视频在线观看| 国产精品亚洲综合天堂夜夜| 国产精品久久一区主播| 欧美~级网站不卡| 免费一区二区三区| 欧美一区二区在线看| 亚洲乱码日产精品bd| 亚洲乱码精品一二三四区日韩在线| 国产伦精品一区二区三区| 国产日韩亚洲欧美精品| 欧美日韩精品伦理作品在线免费观看| 欧美国产视频一区二区| 欧美在线关看| 久久手机免费观看| 午夜精品亚洲| 一区二区三区不卡视频在线观看 | 亚洲综合第一页| 在线日本欧美| 亚洲精品自在在线观看| 伊人久久婷婷| 亚洲欧洲一区二区三区在线观看| 国产在线观看一区| 亚洲国产精品一区| 红桃视频一区| 亚洲日本一区二区三区| 精品电影在线观看| 亚洲激情电影中文字幕| 一区二区三区在线免费播放| 亚洲激情电影在线| 亚洲第一免费播放区| 亚洲美女在线一区| 最新精品在线| 亚洲一区成人| 一本色道久久综合亚洲精品按摩| 亚洲一区二区三区乱码aⅴ| 999亚洲国产精| 午夜精品一区二区三区在线视 | 欧美日产在线观看| 久久亚洲欧洲| 欧美在线日韩精品| 六月丁香综合| 久久在线91| 久久久久久久综合日本| 中国成人亚色综合网站| 91久久精品一区| 亚洲一区二区三区777| 久久精品一区蜜桃臀影院| 欧美一级网站| 欧美二区在线| 欧美成人精精品一区二区频| 国产精品成人一区二区三区夜夜夜| 欧美激情一区在线| 国产麻豆9l精品三级站| 国产精品一区二区三区成人| 亚洲成人在线| 亚洲高清在线观看一区| 亚洲尤物在线视频观看| 老司机免费视频一区二区| 蜜臀久久99精品久久久久久9| 国产精品爱久久久久久久| 国产精品裸体一区二区三区| 亚洲成色www久久网站| 亚洲高清色综合| 欧美一区二区高清| 欧美激情一区二区三区在线| 欧美久久婷婷综合色| 国产亚洲aⅴaaaaaa毛片| 国产亚洲欧美一区二区三区| av不卡在线| 老司机免费视频一区二区三区| 男女精品网站| 国产无遮挡一区二区三区毛片日本| 国产午夜亚洲精品羞羞网站| 99精品国产热久久91蜜凸| 久久久久久久999精品视频| 噜噜爱69成人精品| 国产亚洲精品久久飘花| 永久免费毛片在线播放不卡| 狠狠色狠狠色综合日日五| 美女啪啪无遮挡免费久久网站| 猛干欧美女孩| 国产一区二区精品久久99| 尤物yw午夜国产精品视频明星| 亚洲天天影视| 欧美91大片| 欧美日韩综合不卡| 在线看片日韩| 久久久999精品视频| 美女网站久久| 黑丝一区二区三区| 亚洲精品日本| 免播放器亚洲| 国产在线日韩| 亚洲精品国产系列| 久热精品在线| 国内久久婷婷综合| 最新国产乱人伦偷精品免费网站| 久久久久国产精品一区| 国产日韩在线播放| 亚洲二区在线| 免费成人av资源网| 在线不卡中文字幕| 久久久久在线| 国产精品啊啊啊| 一本色道久久综合一区| 欧美精品日韩一区| 国产一区二区三区不卡在线观看| 午夜精品视频一区| 国产精品网站在线播放| 亚洲国产精品精华液2区45| 久久只有精品| 亚洲第一成人在线| 米奇777超碰欧美日韩亚洲| 国产精品麻豆成人av电影艾秋| 亚洲特色特黄| 国产精品免费一区二区三区在线观看 | 国产精品99一区二区| 日韩天天综合| 欧美日韩精品一区二区三区| 韩国av一区二区| 久久午夜羞羞影院免费观看| 国产一区亚洲| 久久手机免费观看| 国产精品久久久久国产精品日日| 亚洲视频视频在线| 国产精品黄视频| 亚洲七七久久综合桃花剧情介绍| 免费不卡在线视频| 亚洲美女视频网| 欧美三级电影网| 亚洲激情成人网| 欧美日本久久| 国产精品99久久久久久人| 国产精品激情电影| 亚洲美女中文字幕| 欧美亚男人的天堂| 午夜在线播放视频欧美| 国产一区二区三区自拍| 久久一区中文字幕| 国产亚洲午夜| 欧美r片在线| 一本色道久久综合亚洲精品婷婷| 国产精品视频一| 久久久av水蜜桃| 国产亚洲精品一区二区| 鲁大师成人一区二区三区| 日韩一级裸体免费视频| 国产精品视频网址| 久久久精品网| 极品av少妇一区二区| 开心色5月久久精品|