什么叫蜘蛛,蜘蛛的英文名是Spider,也稱之為爬蟲、機器人。蜘蛛其實就是搜索引擎的爬取程序,在我們?nèi)搜劭床坏降那闆r下行走于我們網(wǎng)站的各個網(wǎng)頁內(nèi)部,抓取一些他認(rèn)為有用或者有價值的網(wǎng)頁。那么蜘蛛是通過什么樣的辦法來收錄我們的網(wǎng)頁的,又是通過什么樣的方法來辨別我們站內(nèi)的內(nèi)容的呢?
相信大家都看到過大自然中的蜘蛛,自然生活中的蜘蛛通常都是在一個地方織網(wǎng),那個網(wǎng)就像一個八卦一樣,一個網(wǎng)是由很多的小節(jié)點連接起來的。那么我們的搜索引擎爬取是通過什么來連接的呢?搜索引擎蜘蛛通過站內(nèi)的鏈接從這個網(wǎng)頁爬到另一個網(wǎng)頁,只要你站內(nèi)的鏈接沒有斷開或者出現(xiàn)死鏈接,那么蜘蛛會一直在你的站內(nèi)進行爬取的。我們把鏈接分為兩種,一種是用戶可以點擊的,一種是不可以點擊的,我們很多人認(rèn)為蜘蛛跟用戶是一樣的,只有通過可以點擊的鏈接才能爬到你的網(wǎng)頁,其實這種理解是錯誤的。
蜘蛛是爬取每個網(wǎng)頁的源代碼 ,他會收集源代碼里帶有“http”或者“cn、com、net”等這樣的地址,然后再去爬取這些收集的地址。通過蜘蛛爬取的原理我們就可以理解為什么我們需要發(fā)外鏈,通過外部的鏈接讓蜘蛛爬取到我們的站內(nèi),又通過我們站內(nèi)的鏈接爬取我們整個網(wǎng)站。所以說站內(nèi)跟站外鏈接都是很重要的,不得不說的是,蜘蛛更喜歡網(wǎng)站首頁的鏈接。
蜘蛛爬取與百度快照的關(guān)系
一、蜘蛛爬取網(wǎng)站頁面不等于該頁面就會被收錄
蜘蛛爬取后還需要經(jīng)過一系列的審核程序,當(dāng)他爬取的頁面達到搜索引擎的最低收錄要求的時候就會被允許收錄,達不到的話這個頁面就會被丟棄或者暫時保存,但并不會放出來。
二、百度快照更新快說明蜘蛛爬取該網(wǎng)站的頻率非常高
網(wǎng)站的快照更新頻率越快,那就可以肯定蜘蛛的爬取頻率也是非常高的,因為快照是必須要蜘蛛爬取審核通過之后才能夠?qū)崿F(xiàn)的。
三、蜘蛛的爬取頻率越高,網(wǎng)站的權(quán)重越高
一般來說搜索引擎對于某一個網(wǎng)站的爬取頻率越高的話代表這個網(wǎng)站本身獲得了搜索引擎很高的信用度或者有大量的反向鏈接指向該網(wǎng)站從而引導(dǎo)該網(wǎng)站進行爬取跟蹤。所以提升網(wǎng)站的蜘蛛爬取頻率有利于提升我們整個網(wǎng)站的權(quán)重,這就需要我們多做鏈接誘餌,穩(wěn)定增加反向鏈接,保持固有的網(wǎng)站內(nèi)容更新頻率。
以上由常州102骨科醫(yī)院—腰椎間盤突出癥的治療方法http://www.102guke.net/ 網(wǎng)站運營人員整理發(fā)布。轉(zhuǎn)載請注明!
推薦閱讀
筆者一直很疑惑:seo是平庸還是高深?剛接觸seo的朋友們都會感覺到seo很“神秘莫測”。原因是不知道為什么自己的網(wǎng)站關(guān)鍵詞排名就出現(xiàn)在百度或google的第一頁了,事實上很多的高手也說不清自己的排名為什么就上去了吧>>>詳細(xì)閱讀
本文標(biāo)題:分析蜘蛛爬取原理,讓蜘蛛愛上你
地址:http://www.sdlzkt.com/a/shousuo/20120425/54907.html