蔣鑫鵬:百度搜索算法總結(jié)—關(guān)鍵詞分詞算法

作者:Lgo100 來源:未知 2012-05-13 00:55:54 閱讀 我要評論 直達商品

  此文接上文百度算法總結(jié)詳細請點擊:蔣鑫鵬:百度算法總結(jié)

  一、關(guān)于中文分詞:

  1.中文分詞難度分析

  首先要說明下的是:普通用戶的搜索與做SEO或者更大說熟悉網(wǎng)絡(luò)搜索用戶的搜索習(xí)慣是非常不一樣的,而恰巧普通搜索用戶是百度搜索的基礎(chǔ)力量。在開頭贅述 這一點是蔣鑫鵬為了表達其對于百度搜索算法中的中文分詞的重視。因為,對于百度google這樣的第二代搜索引擎來說,采用的檢索技術(shù)主要是依靠關(guān)鍵字來 匹配的,而用戶對于關(guān)鍵詞的理解與機器程序?qū)τ陉P(guān)鍵詞的理解是有很大距離的。

  在中文分詞方面百度勝過了Google,這是baidu取勝google的關(guān)鍵因素之一,中文的分詞比英文要復(fù)雜得多(同樣與中文分詞一樣麻煩的重要語言 還有日語、韓語、俄語,這也是Google沒辦法在這幾個地區(qū)取勝的原因之一),蔣鑫鵬在這里因為篇幅不做贅述,有興趣的朋友可以研究一下拉丁語系(以英 文為例)的造句與中文造句的區(qū)別,中文造句不僅近義詞很多,而且語序變化無常,副詞太多(主謂賓之外的定狀補,嘆詞等等)。

  

關(guān)鍵詞分詞算法

 

  簡單舉個例子“百度如何排名”“百度是如何排名的”“百度怎么排名”“百度是怎么排名的”“百度如何排位”“百度怎么排位”“百度按什么排名”“百度靠什 么排名”“百度的搜索是怎么排位的”……這幾個短語短句至少都包含一個意思“百度搜索結(jié)果的排名是什么規(guī)則(原理)”,除此之外,每個句子都有其他的含 義,如這些句子還包含有“怎么做百度排名(實現(xiàn)這個目標的方法)”“百度是怎么進行搜索排名的(原理實現(xiàn)的過程)”……

  拿上面的例子來說:當用戶輸入以上短句時(大多數(shù)情況下,普通用戶把百度當做是萬能的,所以才搜索SEO開來這么不符合規(guī)則的搜索行為),百度要迅速的響應(yīng)出用戶需要的結(jié)果,這個時候,百度面臨的核心問題是:

  A.首先要知道用戶是要搜什么(語義分析,見“二”);

  B.其次因為百度的檢索方式目前仍然以關(guān)鍵詞匹配技術(shù)為主,所以要對用戶的搜索進行分詞(下一段將分析百度如何分詞);

  C.然后百度要通過分詞分出的結(jié)果,去數(shù)據(jù)庫中檢索匹配的快照;

  D.上一步只是檢索出來,還要進行第四部的排名,這個時候已經(jīng)不是挑戰(zhàn)百度的難題了(雖然在SEO看來,這一步確實是非常艱難的)

  E.第五步要將得到的結(jié)果返回到搜索頁面給用戶使用,并且要完成其廣告的投放(百度競價廣告),并要適當推廣自己的產(chǎn)品(百度知道、百度文庫……)寫的有點亂,SEO顧問蔣鑫鵬在此致歉,沒找到更好的陳述方式,望朋友們整理發(fā)揚光大。

  2.百度中文分詞方式:

  百度對于中文的分詞不僅是大量的用戶搜索(這點不同于Google,百度畢竟是植根于中國文化的,對中文更了解),而且還有龐大的中文詞典數(shù)據(jù)庫作支撐, 并且動態(tài)加入了搜索熱詞,搜索行為造詞等技術(shù),【從近期百度算法的調(diào)整看,百度比以前更加尊重用戶的搜索行為,就是用戶的輸入為首要,百度糾正次要,這點 那很重要哦】下面以實例來說,用戶搜索“百度如何排名?”時的分詞:

  A.自然分割:包括標點符號、空格引起的分割,這是首要因素,比如或者“百度 如何排名”這樣的搜索行為會被百度首先劃分為“百度”、“如何排名”,這一點是肯定的,要理解用戶搜索的行為意圖,首先是要尊重用戶的搜索行為;(這是 SEO顧問蔣鑫鵬根據(jù)實戰(zhàn)中的觀察總結(jié)出的,做SEO的很多朋友可能沒注意到,在此提個醒)

  B.中文詞庫分割:不難理解,“百度如何排名”將被分為“百度”“如何”“排名”這幾個詞,因為這是中文詞典里存在的詞,百度有龐大的中文詞典庫支撐,這個不是難度;

  C.分詞組合分詞:B中的分詞顯然是不夠的,要更能理解用戶意圖,必須保證語義連貫,那么那三個詞可以組合成“百度如何排名”;“百度如何”+“排名”; “百度排名”+“如何”;“如何排名”+“百度”以及這幾個詞顛倒的組合,重要程度按照順序優(yōu)先原則,緊接著是倒序和雙向序列的分詞組合,分析切分有個基 本的原則就是最少的切分。

  以上三點是通常意義上的分詞,除此之外,還有更麻煩的分詞需要百度處理,見后幾點。

  D.分字:如果用戶搜索“百 度 如 何 排名”的時候,百度也是無可奈何的,因為你不能判斷出來用戶就是在搜索“百度 如何 排名”,還得尊重用戶搜索行為,所以,不得不進一步將中文詞進行分字:“百”“度”“如”“何”“排名”,然后在進行組合分詞,組成不同的詞組去數(shù)據(jù)庫中 匹配。

  E.別音字/錯別字:如有人搜索“白度如何排名”實際上是誤將“百度”打成“白度”,那么百度還要糾正這種錯誤,但近期的調(diào)整看,百度不像以前通過詞庫近 義匹配來進行糾錯【而更多的是以用戶搜索后瀏覽的行為積累的數(shù)據(jù)來為糾錯做準備】(如搜索“白度”的很多用戶最后花更多時間在“百度”關(guān)鍵詞頁面上,那么 百度以后對于“白度”的搜索糾錯會偏重到“百度”上!

  當然,這個詞是蔣鑫鵬舉例說明,實際上百度搜索“白度”不是這樣的,例子可以參看百度的“美規(guī)車”查看,百度會提示或者說試探你“您要找的是不是: 美規(guī)車”),此外,百度對于糾錯通過搜索下拉框相關(guān)詞推薦、搜索頁面底部“相關(guān)搜索”、百度知道(用戶量很大,是百度搜索的重要補充)來進行糾錯數(shù)據(jù)的統(tǒng) 計與糾錯引導(dǎo)。

  F.新詞:新詞的來源一般有兩種:a.近期流行語造成,這個百度的數(shù)據(jù)庫會根據(jù)用戶搜索行為積累的數(shù)據(jù)以及網(wǎng)絡(luò)熱詞監(jiān)測數(shù)據(jù)來進行調(diào)整補充到詞庫;b.語言新詞/用戶造詞,這個主要是靠搜索行為累積的數(shù)據(jù)調(diào)整,也針對部分語言新詞人工作補充。

 1/5    1 2 3 4 5 下一頁 尾頁

  推薦閱讀

  中申科技的網(wǎng)站優(yōu)化是否采用了低級作弊手段

大家好,我是哈爾濱虛實網(wǎng)站設(shè)計,最近一直在給客戶做優(yōu)化,感覺以前用的一些方式,好像有點過時吧,過不過時大家?guī)臀铱聪掳桑抑饕褪窃跇祟}和關(guān)鍵詞描述中作弊,另外就是關(guān)鍵詞的錨文點,還有不自然的加一些關(guān)鍵>>>詳細閱讀


本文標題:蔣鑫鵬:百度搜索算法總結(jié)—關(guān)鍵詞分詞算法

地址:http://www.sdlzkt.com/a/34/20120513/59571.html

樂購科技部分新聞及文章轉(zhuǎn)載自互聯(lián)網(wǎng),供讀者交流和學(xué)習(xí),若有涉及作者版權(quán)等問題請及時與我們聯(lián)系,以便更正、刪除或按規(guī)定辦理。感謝所有提供資訊的網(wǎng)站,歡迎各類媒體與樂購科技進行文章共享合作。

網(wǎng)友點評
我的評論: 人參與評論
驗證碼: 匿名回答
網(wǎng)友評論(點擊查看更多條評論)
友情提示: 登錄后發(fā)表評論,可以直接從評論中的用戶名進入您的個人空間,讓更多網(wǎng)友認識您。
自媒體專欄

評論

熱度

主站蜘蛛池模板: 78成人精品电影在线播放| 成人午夜精品视频在线观看| 成人777777| 亚洲欧美成人一区二区三区| 成人伊人青草久久综合网破解版| 欧洲国产成人精品91铁牛tv| 91久久亚洲国产成人精品性色 | 四虎影视成人精品| 国产成人综合久久精品下载| 国产成人一区二区三区精品久久 | 国产成人精品亚洲2020| 国产成人精品无码一区二区老年人| 国产成人综合日韩精品无| 亚洲欧美成人网| 成人年无码AV片在线观看| 国产成人福利在线视频播放尤物| 四虎成人精品一区二区免费网站 | 成人片黄网站A毛片免费| 亚洲精品无码乱码成人| 成人欧美一区二区三区黑人3p | 久久久久久亚洲精品成人| 国产综合成人久久大片91| 777精品成人影院| 亚洲国产成人资源在线软件| 在线观看国产成人AV天堂| 欧美成人18性| 亚洲av成人一区二区三区在线观看 | 91亚洲国产成人精品下载| 成人免费视频国产| 久久久www成人免费精品| 国产成人小视频| 成人乱码一区二区三区AV| 成人国产在线不卡视频| 精品无码成人久久久久久| 国产成人精品999在线观看| 成人麻豆日韩在无码视频| 亚洲国产成人无码av在线影院| 国产成人福利免费视频| 国产成人精品无码播放| 国产成人午夜高潮毛片| 国产成人av在线影院|