1.其次,如果我們能夠通過(guò)對(duì)以往收集信息的分析,預(yù)先發(fā)現(xiàn)重復(fù)網(wǎng)頁(yè),在今后的網(wǎng)頁(yè)收集過(guò)程中就可以避開這些網(wǎng)頁(yè),從而提高網(wǎng)頁(yè)的收集速度。有研究表明重復(fù)網(wǎng)頁(yè)隨著時(shí)間不發(fā)生太大變化,所以這種從重復(fù)頁(yè)面集合中選擇部分頁(yè)面進(jìn)行索引是有效的。2.從另外一個(gè)角度看,如果用戶點(diǎn)擊了一個(gè)死鏈接,那么可以將用戶引導(dǎo)到一個(gè)內(nèi)容相同頁(yè)面,這樣可以有效地增加用戶的檢索體驗(yàn)。因而近似重復(fù)網(wǎng)頁(yè)的及時(shí)發(fā)現(xiàn)有利于改善搜索引擎系統(tǒng)的服務(wù)質(zhì)量。
3.另外,如果某個(gè)網(wǎng)頁(yè)的鏡像度較高,往往是其內(nèi)容比較受歡迎的一種間接體現(xiàn)也就預(yù)示著該網(wǎng)頁(yè)相對(duì)重要,在收集網(wǎng)頁(yè)時(shí)應(yīng)賦予它較高的優(yōu)先級(jí),而當(dāng)搜索引擎系統(tǒng)在響應(yīng)用戶的檢索請(qǐng)求并對(duì)輸出結(jié)果排序時(shí),應(yīng)該賦予它較高的權(quán)值。
4.首先,如果我們能夠找出這些重復(fù)網(wǎng)頁(yè)并從數(shù)據(jù)庫(kù)中去掉,就能夠節(jié)省一部分存儲(chǔ)空間,進(jìn)而可以利用這部分空間存放更多的有效網(wǎng)頁(yè)內(nèi)容,同時(shí)也提高了搜索引擎的搜索質(zhì)量和用戶體驗(yàn)。
實(shí)際工作的搜索引擎往往是在爬蟲階段進(jìn)行近似重復(fù)檢測(cè)的,下圖給出了近似重復(fù)檢測(cè)任務(wù)在搜索引擎中所處流程的說(shuō)明。當(dāng)爬蟲新抓取到網(wǎng)頁(yè)時(shí),需要和已經(jīng)建立到索引內(nèi)的網(wǎng)頁(yè)進(jìn)行重復(fù)判斷,如果判斷是近似重復(fù)網(wǎng)頁(yè),則直接將其拋棄,如果發(fā)現(xiàn)是全新的內(nèi)容,則將其加入網(wǎng)頁(yè)索引中。
推薦閱讀
企業(yè)內(nèi)刊能給企業(yè)營(yíng)銷帶來(lái)什么作用
>>>詳細(xì)閱讀
本文標(biāo)題:網(wǎng)站優(yōu)化刪除重復(fù)網(wǎng)頁(yè)有利搜索引擎爬行
地址:http://www.sdlzkt.com/a/34/20131021/291446.html