美國曾經做過一次網絡調查,“如果是砍掉一個手指,或者被終生剝奪使用搜索的權力,你會選擇哪個?”近1/3的網民選擇了前者。越來越多的人已經離不開搜索,他們將自己的衣食住行、求醫問藥、教育求職等諸多需求向搜索框求助。千變萬化、紛繁復雜的請求,用戶用最習慣的語言告訴搜索,而搜索負責將最簡單、可依賴的內容反饋給用戶。
越是看似簡單的應用,背后越需要經得住嚴峻的考驗:每天數十億次檢索、全球數億網民千變萬化的需求和表達方式,考驗了百度這家中國互聯網公司過去十余年所做的技術積累。而百度的突破性理念——“框計算”,正在用充滿想象力的技術創新改變數億網民的生活,立足中文互聯網,引領全球搜索的革新。
突破性的框計算
圖書館學,全文檢索技術,倒排技術和互聯網技術的發展,推動了搜索引擎的誕生。互聯網的內容不斷的擴充和網民數量增長,使覆蓋率,檢索粒度和語義等因素逐漸被考慮到搜索引擎中。基于對用戶需求的把握,以及對搜索相關性、精準度等衡量搜索引擎最重要的技術指標的提升,2009年8月,在百度的年度技術盛會“百度世界”上,百度CEO李彥宏前瞻性地提出了“框計算”這一技術理念,以推動最優質的內容和服務,與用戶需求實現精準匹配,從而引發業界強烈關注。
“框計算是百度自己跟自己賽跑,因為整個世界上沒有跟我們做同樣東西的人。”百度框計算技術相關負責人李盈這樣評價。
在“框計算”理念指引下,百度在網民需求上改進了小小一步,而這,卻是搜索引擎進步的一大步。
隨著“框計算”的問世和逐步實現,早上起床,百度一下“今天限行號碼”,網民可看到北京市公安交通管理局發布的一周機動車尾號限行貼心提示;開車去上班時,百度一下“實時路況”,選一條車輛暢通的道路以免遲到;到了公司準備工作,百度一下“豆瓣電臺”,即可在搜索框內播放音樂,還可以選擇華語、歐美、粵語等不同頻道或者不同的音樂風格;一天工作結束,搜索一下晚上吃什么,百度一下“宮保雞丁”,圖文并茂的菜譜立即呈現在眼前,不會做飯的人也可以烹調出一頓美味菜肴;而擔心怕胖的白領朋友還可以百度一下“宮保雞丁的熱量”,一個簡單清晰的營養成分表可以告訴你這道菜中有多少熱量、碳水化合物、蛋白質和維生素;吃過晚飯,休閑一下,搜索“天龍八部”,你可以下載《天龍八部2》游戲,也有不同版本的電影電視劇供你在線觀看……在百度框計算的架構之下,網民任何對互聯網的需求,幾乎都可以通過搜素引擎得到滿足。而每一次需求的滿足,對百度而言都是“大海撈針”的任務,百度不僅要在200毫秒之內讀取人腦,還要調用最優秀的資源,以最好的方式呈現在用戶面前。
“目前已經有超過1400家產業合作伙伴對接我們的框計算開放平臺。框計算所覆蓋的搜索流量,根據本月最新的評估,在百度每天接受數十億的用戶查詢中,框計算已經影響了57%的搜索結果,平均不到兩次搜索就有一次包含框計算的結果。”李盈告訴記者。
“框”后面的技術戰
框計算下,百度中文搜索已全面領先于世界。在“框計算”為網民勾勒出的美好前景背后,帶給百度工程師們的,是一項項艱深的技術挑戰。
李盈介紹,框計算背后有四個核心技術難點,包括“需求識別和解析”、“用戶行為分析”、“檢索技術”和“特效展現”,而這是搜索引擎最具技術難度的領域。
“需求識別和解析”的核心在于自然語言處理和語義識別,即機器要判斷用戶關鍵字搜索背后真實的需求。一個簡單的天氣查詢需求,用戶也許有94種不同的表達方式;無論用戶搜索的是人民幣兌美元還是英鎊、日元,結果出現的都將是“匯率換算器”。機器如何識別千變萬化的用戶需求,是自然語言處理團隊面臨的最大挑戰。據框計算語義分析團隊負責人春光介紹,他們將用戶需求與資源提供方建立聯系,一方面分析用戶行為習慣,一方面讓機器模擬人類認知學習的過程,去理解用戶表達的內涵。
識別用戶需求之后,要通過檢索來調用最精準的信息或資源也并不容易。對于一般的信息需求,傳統大搜索技術中的“倒排檢索”即可實現,但對于更復雜的需求,就要引入單一數據值檢索、數據庫檢索、交互操作等特殊檢索方式。例如用戶搜索“計算器”時,并不想找到文本中包含“計算器”的鏈接,而是想直接進行計算,搜索“三個火念什么”時,是想找 “焱”字的讀音。
檢索完成后,框計算檢索策略團隊就要分析資源的質量、用戶的歷史行為習慣等復雜的影響因素。例如“天龍八部”這一需求,百度的搜索結果是把電影排前面,還是把游戲排前面,就要根據搜索用戶的歷史行為進行匹配;又如“2012”,以往它可以直接指向一趟南寧至張家界的火車,而《2012》電影出現之后,搜索結果排序就要發生相應的變化。
結果展現方面,框計算的展現團隊要保證用戶從點“百度一下”到他看到結果,一定不超過0.5秒。為了保證用戶最順暢的瀏覽,展現團隊還會定期到全國各地進行用戶行為調研,不斷優化各種技術細節。
框計算的每個技術點背后都有一個專門的團隊:包括測試、自動化運維、自然語言處理、排序、架構、產品、用戶行為評估、展現等,這可以將責任落實到每一個具體環節上,也能夠發揮“專注”的效力。此外,還有一個由各技術團隊派出專人組成的技術決策團隊,每個團隊中的任何人有任何新的想法,是否適合做成產品,都可以拿到這里來討論做決定。
框計算,正引領著互聯網產業進行一次徹底的技術革命。 上一頁1 2 下一頁進入論壇>>
推薦閱讀
網購行騙再出新招,犯罪分子利用網民信任支付寶的心理,開發了一種被包裝成“壓縮文件”的木馬病毒,能自動替換支付寶頁面,賣家點擊“替身網站”后,卡里的現金就會被轉走。今天,浙江省舟山市市民小黃在網購時就中>>>詳細閱讀
本文標題:探訪百度:技術創新者的樂園
地址:http://www.sdlzkt.com/a/01/20111231/229916.html