此文接上文百度算法總結(jié)詳細請點擊:蔣鑫鵬:百度算法總結(jié)
一、關(guān)于中文分詞:
1.中文分詞難度分析
首先要說明下的是:普通用戶的搜索與做SEO或者更大說熟悉網(wǎng)絡(luò)搜索用戶的搜索習(xí)慣是非常不一樣的,而恰巧普通搜索用戶是百度搜索的基礎(chǔ)力量。在開頭贅述 這一點是蔣鑫鵬為了表達其對于百度搜索算法中的中文分詞的重視。因為,對于百度google這樣的第二代搜索引擎來說,采用的檢索技術(shù)主要是依靠關(guān)鍵字來 匹配的,而用戶對于關(guān)鍵詞的理解與機器程序?qū)τ陉P(guān)鍵詞的理解是有很大距離的。
在中文分詞方面百度勝過了Google,這是baidu取勝google的關(guān)鍵因素之一,中文的分詞比英文要復(fù)雜得多(同樣與中文分詞一樣麻煩的重要語言 還有日語、韓語、俄語,這也是Google沒辦法在這幾個地區(qū)取勝的原因之一),蔣鑫鵬在這里因為篇幅不做贅述,有興趣的朋友可以研究一下拉丁語系(以英 文為例)的造句與中文造句的區(qū)別,中文造句不僅近義詞很多,而且語序變化無常,副詞太多(主謂賓之外的定狀補,嘆詞等等)。

簡單舉個例子“百度如何排名”“百度是如何排名的”“百度怎么排名”“百度是怎么排名的”“百度如何排位”“百度怎么排位”“百度按什么排名”“百度靠什 么排名”“百度的搜索是怎么排位的”……這幾個短語短句至少都包含一個意思“百度搜索結(jié)果的排名是什么規(guī)則(原理)”,除此之外,每個句子都有其他的含 義,如這些句子還包含有“怎么做百度排名(實現(xiàn)這個目標的方法)”“百度是怎么進行搜索排名的(原理實現(xiàn)的過程)”……
拿上面的例子來說:當用戶輸入以上短句時(大多數(shù)情況下,普通用戶把百度當做是萬能的,所以才搜索SEO開來這么不符合規(guī)則的搜索行為),百度要迅速的響應(yīng)出用戶需要的結(jié)果,這個時候,百度面臨的核心問題是:
A.首先要知道用戶是要搜什么(語義分析,見“二”);
B.其次因為百度的檢索方式目前仍然以關(guān)鍵詞匹配技術(shù)為主,所以要對用戶的搜索進行分詞(下一段將分析百度如何分詞);
C.然后百度要通過分詞分出的結(jié)果,去數(shù)據(jù)庫中檢索匹配的快照;
D.上一步只是檢索出來,還要進行第四部的排名,這個時候已經(jīng)不是挑戰(zhàn)百度的難題了(雖然在SEO看來,這一步確實是非常艱難的)
E.第五步要將得到的結(jié)果返回到搜索頁面給用戶使用,并且要完成其廣告的投放(百度競價廣告),并要適當推廣自己的產(chǎn)品(百度知道、百度文庫……)寫的有點亂,SEO顧問蔣鑫鵬在此致歉,沒找到更好的陳述方式,望朋友們整理發(fā)揚光大。
2.百度中文分詞方式:
百度對于中文的分詞不僅是大量的用戶搜索(這點不同于Google,百度畢竟是植根于中國文化的,對中文更了解),而且還有龐大的中文詞典數(shù)據(jù)庫作支撐, 并且動態(tài)加入了搜索熱詞,搜索行為造詞等技術(shù),【從近期百度算法的調(diào)整看,百度比以前更加尊重用戶的搜索行為,就是用戶的輸入為首要,百度糾正次要,這點 那很重要哦】下面以實例來說,用戶搜索“百度如何排名?”時的分詞:
A.自然分割:包括標點符號、空格引起的分割,這是首要因素,比如或者“百度 如何排名”這樣的搜索行為會被百度首先劃分為“百度”、“如何排名”,這一點是肯定的,要理解用戶搜索的行為意圖,首先是要尊重用戶的搜索行為;(這是 SEO顧問蔣鑫鵬根據(jù)實戰(zhàn)中的觀察總結(jié)出的,做SEO的很多朋友可能沒注意到,在此提個醒)
B.中文詞庫分割:不難理解,“百度如何排名”將被分為“百度”“如何”“排名”這幾個詞,因為這是中文詞典里存在的詞,百度有龐大的中文詞典庫支撐,這個不是難度;
C.分詞組合分詞:B中的分詞顯然是不夠的,要更能理解用戶意圖,必須保證語義連貫,那么那三個詞可以組合成“百度如何排名”;“百度如何”+“排名”; “百度排名”+“如何”;“如何排名”+“百度”以及這幾個詞顛倒的組合,重要程度按照順序優(yōu)先原則,緊接著是倒序和雙向序列的分詞組合,分析切分有個基 本的原則就是最少的切分。
以上三點是通常意義上的分詞,除此之外,還有更麻煩的分詞需要百度處理,見后幾點。
D.分字:如果用戶搜索“百 度 如 何 排名”的時候,百度也是無可奈何的,因為你不能判斷出來用戶就是在搜索“百度 如何 排名”,還得尊重用戶搜索行為,所以,不得不進一步將中文詞進行分字:“百”“度”“如”“何”“排名”,然后在進行組合分詞,組成不同的詞組去數(shù)據(jù)庫中 匹配。
E.別音字/錯別字:如有人搜索“白度如何排名”實際上是誤將“百度”打成“白度”,那么百度還要糾正這種錯誤,但近期的調(diào)整看,百度不像以前通過詞庫近 義匹配來進行糾錯【而更多的是以用戶搜索后瀏覽的行為積累的數(shù)據(jù)來為糾錯做準備】(如搜索“白度”的很多用戶最后花更多時間在“百度”關(guān)鍵詞頁面上,那么 百度以后對于“白度”的搜索糾錯會偏重到“百度”上!
當然,這個詞是蔣鑫鵬舉例說明,實際上百度搜索“白度”不是這樣的,例子可以參看百度的“美規(guī)車”查看,百度會提示或者說試探你“您要找的是不是: 美規(guī)車”),此外,百度對于糾錯通過搜索下拉框相關(guān)詞推薦、搜索頁面底部“相關(guān)搜索”、百度知道(用戶量很大,是百度搜索的重要補充)來進行糾錯數(shù)據(jù)的統(tǒng) 計與糾錯引導(dǎo)。
F.新詞:新詞的來源一般有兩種:a.近期流行語造成,這個百度的數(shù)據(jù)庫會根據(jù)用戶搜索行為積累的數(shù)據(jù)以及網(wǎng)絡(luò)熱詞監(jiān)測數(shù)據(jù)來進行調(diào)整補充到詞庫;b.語言新詞/用戶造詞,這個主要是靠搜索行為累積的數(shù)據(jù)調(diào)整,也針對部分語言新詞人工作補充。
推薦閱讀
中申科技的網(wǎng)站優(yōu)化是否采用了低級作弊手段
大家好,我是哈爾濱虛實網(wǎng)站設(shè)計,最近一直在給客戶做優(yōu)化,感覺以前用的一些方式,好像有點過時吧,過不過時大家?guī)臀铱聪掳桑抑饕褪窃跇祟}和關(guān)鍵詞描述中作弊,另外就是關(guān)鍵詞的錨文點,還有不自然的加一些關(guān)鍵>>>詳細閱讀
本文標題:蔣鑫鵬:百度搜索算法總結(jié)—關(guān)鍵詞分詞算法
地址:http://www.sdlzkt.com/a/34/20120513/59571.html