做網站的基本都知道蜘蛛是什么,其實蜘蛛就是一個搜索引擎的爬取程序,用來收錄網站,然后在搜索引擎里面搜索呈現出來的頁面。利用搜索引擎蜘蛛的爬取跟蹤我們可以從中得到很多意想不到的信息從而更利于我們優化網站。
1、 利用蜘蛛告訴我們死鏈接
死鏈接對于網站的危害是非常大的,我們都知道,可以使用robots.txt來對其進行屏蔽,但如何找出這些鏈接成為我們很頭疼的問題,而搜索引擎蜘蛛會告訴我們哪些是真正的死鏈接,當蜘蛛爬取到一個死鏈接網頁的時候,會在IIS日志里返回一個404狀態碼,這個時候就是告訴我們,這個網面是不可訪問的,是一個死鏈接,所以我們只要查看IIS日志我們就知道搜索引擎蜘蛛提示我們網站有哪些死鏈接,然后我們再用robots.txt屏蔽掉即可,這樣就不會讓死鏈接對我們的網站造成影響了。
2、利用蜘蛛爬取的數量詳細分析網站整體情況
我們可以通過IIS日志查詢每天搜索引擎蜘蛛訪問我們網站的次數,并且可以知道它訪問了我們哪些頁面,我們可以根據蜘蛛每天的爬取量就可以算出每個月蜘蛛的平均抓取量,這樣我們就可以進行對比。
提升蜘蛛爬取量有以下兩個因素
1)外部鏈接質量和數量增加
外鏈數量越多,蜘蛛爬取次數也就越多,同樣外鏈的質量和權重越高,蜘蛛抓取網站的次數也就會越多了。
2)網站文章質量和更新頻率
網站文章質量越好,蜘蛛來爬取后放出文章的通過率就會越高,蜘蛛爬取的次數就會增加,同樣的道理,更新頻率越快,蜘蛛爬取的頻率也會增加。
從以上可以得出,如果網站每個月蜘蛛的爬取量是增加的,那我們就可以判斷出來是由哪個因素引起的,也可以肯定網站權重也是隨著蜘蛛爬取量上長而上升的,反之,蜘蛛的爬取量減少了,也可以確定,網站權重會隨之下降。所以每天都要記錄IIS日志的蜘蛛爬取量,然后根據這個來做網站優化的調整。
3、根據IIS日志的蜘蛛爬取分析服務器的穩定性
蜘蛛爬取我們的網站,如果網站不穩定,訪問出了問題,蜘蛛就會返回503或500這樣的狀態碼,并且也會出現200 0 64 這樣的狀態碼,如果出現這種情況,首先要確定是什么時間產生的,需要馬上聯系服務器商或空間商,這樣就可以馬上解決我們所存在的問題。
4、 利用IIS日志蜘蛛爬取深入分析
搜索引擎在爬取我們網站內容的時候,經常會出現有一些目錄他在爬取之后就不再去重復爬取了,而有些目錄甚至一些內頁會重復的不斷爬取,對于此我們可以根據IIS日志中蜘蛛的爬取情況作珍上整體分析或是對比,看那些爬取差的頁面是因為什么原因造成的。比如有一個案例,用IIS日志發現蜘蛛喜歡不斷抓取網站的新聞目錄,而產品目錄抓取得少,究其原因,發現這兩個頁面之間的相似程度達到了90%以上,像這樣的重復性很高的頁面就要注意了,一定要添加原創性內容,避免頁面的相似程度過高而導致蜘蛛不來抓取。
從以上我們可以看出,我們非常有必要每天都要下載網站的IIS日志進行查看,以及時的發現問題并解決問題,以保證我們的優化不受影響。
以上由 http://www.102guke.cn/ 網站運營人員整理發布。轉載請注明!
推薦閱讀
各類seo站長工具可能是泛博站長天天都要去訪謁和操作的一個工具。我們都知道使用seo工具一般來說會輔佐站長完成以下的工作: 1. 監控網站數據情形,以便做到seo過程中的有的放矢; 2. 刷外鏈,發生一些緩存外鏈,而這>>>詳細閱讀
本文標題:利用蜘蛛爬取跟蹤分析網站整體信息
地址:http://www.sdlzkt.com/a/34/20120425/54852.html