搜索引擎蜘蛛爬行規律探秘之一蜘蛛如何抓取鏈接

作者:樂購科技 來源: 2011-12-09 09:31:29 閱讀 我要評論 直達商品

  搜索引擎蜘蛛,對于我們來說非常神秘,本文的配圖使用蜘蛛俠的原因就在于此。當然我們也不是百度的也不是Google的,所以只能說探秘,而不是揭秘。本文內容比較簡單,只是給不知道的朋友一個分享的途徑,高手和牛人請繞行吧。

  傳統意義上,我們感覺搜索引擎蜘蛛(spider)爬行,應該類似于真正的蜘蛛在蜘蛛網上爬行。也就是比如百度蜘蛛找到一個鏈接,順著這個鏈接爬行到一個頁面,然后再順著這個頁面里面的鏈接繼續爬……這個類似于蜘蛛網,也類似于一棵大樹。這個理論雖然正確,但是不準確。

  搜索引擎內部是有一個網址索引庫的,所以搜索引擎蜘蛛是從搜索引擎的服務器出發,順著搜索引擎已有的網址爬行一個網頁,并將網頁內容抓取回來。頁面采集回來之后,搜索引擎會對其進行分析,將內容和鏈接分開,內容暫時先不說。分析出來鏈接之后,搜索引擎并不會馬上去派蜘蛛進行抓取,而是把鏈接和錨文本記錄下來交給網址索引庫進行分析、對比和計算,最后放入網址索引庫。進入了網址索引庫之后,才會有蜘蛛去抓取。

  也就是如果出現了某個網頁的外鏈,并不一定會立刻有蜘蛛去抓取這個頁面,而是會有一個分析計算的過程。即便是這個外鏈在蜘蛛抓取之后被刪除了,這個鏈接也有可能已經被搜索引擎記錄,以后還有抓取的可能。而且下次如果蜘蛛再去抓取這個外鏈所在頁面,發現鏈接不存在了,或者外鏈所在頁面出現了404,那么只是減少了這個外鏈的權重,應該不會去網址索引庫刪除這個鏈接。

  所以說已經不存在的頁面上的鏈接,也有作用。今天就分享這些,以后繼續跟大家分享我自己分析的內容,如果有不準確的地方,請大家批評指正。

  轉載請注明來自逍遙博客@LiboSEO,本文地址:http://liboseo.com/1060.html 除非注明,逍遙博客文章均為原創,轉載請注明出處和鏈接!


  推薦閱讀

  網站更換域名的失敗案例解析

一個真實的網站更改域名的失敗案例分析。>>>詳細閱讀


本文標題:搜索引擎蜘蛛爬行規律探秘之一蜘蛛如何抓取鏈接

地址:http://www.sdlzkt.com/a/34/20111209/18144.html

頂一下

樂購科技部分新聞及文章轉載自互聯網,供讀者交流和學習,若有涉及作者版權等問題請及時與我們聯系,以便更正、刪除或按規定辦理。感謝所有提供資訊的網站,歡迎各類媒體與樂購科技進行文章共享合作。

網友點評
我的評論: 人參與評論
驗證碼: 匿名回答
網友評論(點擊查看更多條評論)
友情提示: 登錄后發表評論,可以直接從評論中的用戶名進入您的個人空間,讓更多網友認識您。
自媒體專欄

評論

熱度

主站蜘蛛池模板: 青青草成人免费| 成人小视频在线观看免费| 久久久久成人精品一区二区| 久久久久免费看成人影片| 成人午夜视频在线播放| 成人免费乱码大片A毛片| 免费成人在线网站| 欧美成人777| 全彩成人18h漫画在线| 欧美日韩国产成人高清视频| 国产成人精品第一区二区| 亚洲av无码成人精品国产| 成人免费毛片观看| 一级毛片成人免费看免费不卡| 成人午夜精品视频在线观看| 九九精品免视看国产成人| 国产精品欧美成人| 欧美成人免费午夜影视| 六月丁香激情综合成人| 国产成人麻豆亚洲综合无码精品| 久久久久久亚洲精品成人| 国产成人综合亚洲| 成人3d动漫网址在线观看| 成人自拍视频网| 欧美成人免费公开播放欧美成人免费一区在线播放| 国产成人亚洲综合一区| 国产精品成人久久久久久久 | 成人免费无码大片a毛片软件| 久久婷婷成人综合色综合| 国产成人a人亚洲精品无码| 国产精品欧美成人| 国产成人精品日本亚洲直接| 成人性生交大片免费看午夜a| 欧美成人免费香蕉| 成人福利电影在线观看| 欧美成人精品第一区二区三区| www亚洲成人| 成人看免费一级毛片| 成人看片app| 成人免费看黄20分钟| 国内自拍成人网在线视频|