<b>小蘇:由淺到深再談網站原始訪問日志分析</b>

作者: 來源:未知 2012-04-18 19:06:47 閱讀 我要評論 直達商品

  近期筆者對年夜約50多位剛年夜事或已經年夜事1-2年的seoer做了個小發芽拜訪,其中搜羅良多面試者,真正在工作中能剖析到日志的seoer比例很是很是的少,在問到訪謁日志在seo所起到的浸染,良多seoer都直搖頭,或者僅僅知道一些皮短處未親手操作過,其首要原因仍是在公司平臺中并文暌剮機緣去實踐,下面筆者分享下自己對網站原始訪謁日志的熟悉:

  什么是訪謁日志

  網站訪謁日志是記實web處事寡領受措置請求以及運行時錯誤等各類原始信息的以.log結尾的文件,切當的講,應該是處事器日志。它的浸染是讓我們seoer可以清囂張的得知用戶在什么IP、什么時刻、用什么操作系統、什么瀏覽器、什么分辯率顯示器的情形下訪謁了你網站的哪個頁面,是否訪謁成功。

  什么時辰我們需要去剖析日志及日志特征

  我們會天天都去剖析日志嗎?不會的,因為日志剖析斗勁死板,一般都是每月或者半月剖析一次。這種剖析屬于日常剖析,如不美觀您的網站一向都斗勁正常那可以每月剖析一次,或者可以簡單的剖析一次。

  其實日志更多是在網站呈現異常的時辰,會不雅察看半個月日志,集平剖析蜘蛛的動向。好比會剖析是不是網站404,robots設置異常或者掛馬等問題造成蜘蛛消逝蹤,逐兒去查找解決問題。

  下面是年夜筆者日常剖析的日志中取的一條訪謁記實:

  119.254.22.200 - - [10/Apr/2012:00:04:54 +0800] "GET /bbjk/index.html HTTP/1.0" 200 25269 "-" "Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07)"

  119.254.22.200 為用戶訪謁ip

  10/Apr/2012:00:04:54 +0800 為訪謁日期 -時區

  GET /bbjk/index.html HTTP/1.0 按照HTTP/1.1 和談 抓取(域名下)/bbjk/index.html 這個頁面(GET暗示處事器動作)

  200 處事器響應狀況碼

  25269 為頁面字節數。

  Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07) 為搜狗蜘蛛特征。

  注重:任何蜘蛛都僅僅為網站的通俗用戶。不要覺得蜘蛛很是的強年夜,良多人還認為網站若禁止登錄查看內容,蜘蛛都能爬取上岸后的頁面內容,這是不成能的。除非網站做了蜘蛛專屬手段。

  怎么去剖析網站訪謁日志

  曾記得在幾年前,筆者剛接觸seo的時辰,工具稀少的年月,標識表記標幟一向都喜歡手工

  去剖析訪謁日志,當然手工剖析很費時吃力,再這里只講解下筆者最喜歡手工剖析日志中的幾點。

  筆者此刻手工剖析一般都集中在研究每日蜘蛛在網站上爬行紀律與網站更新數據之間的關系。當然每個網站需按照自己來不雅察看,最后會有一個很是完美的紀律。

  筆者會把每日的蜘蛛訪謁時刻按時刻段排序統計成報表,

  好比:2012-4-18 1-2點爬行5次

  2-3點爬行3次

  3-4點爬行10次

  如不美觀你細心的話可以做個走勢圖就很是直不美觀。這種統計一般都是在網站剛成立后和網站出異常后增強剖析日志,日常運營中,更多注重的是剖析出蜘蛛每日的爬行紀律然后按時的放出充量文章,增添收錄。

  手工剖析日志都是斗勁死板的,有時會影響神色,不外此刻工具興旺的年月,我們也借助工具來達到事半功倍。

  筆者斗勁舉薦的是光年日志剖析工具。該工具很是簡單,筆者不在此演示,有樂趣的自己百度,它的利益在于能在生成的陳述中清楚的告訴我們蜘蛛爬行異常,與頁面抓取痕跡。好比404. 獨一遺憾的是今朝筆者還未找到一款工具帶有剖析蜘蛛爬行紀律生成走勢圖的工具。

  注重:在日志剖析中,良多時辰我們都是想年夜日志中尋找到問題,以便改良我們的自身的問題,所以需要出格關注404,301等狀況碼。

  真假蜘蛛分辯

  為什么會呈現真假蜘蛛,主若是因為此刻信息興旺,良多采集工具為不讓對方發現自己的痕跡都模擬蜘蛛的痕跡來下載數據源。所以會造成良多seoer誤認為蜘蛛年夜量的抓取頁面卻發現收錄并未增添的現象。下面筆者告訴巨匠斗勁輕易辨當真假蜘蛛和一些出格注重的處所。

  1, 真蜘蛛

  220.181.108.96 - - [07/Apr/2012:01:22:21 +0800] "GET /site/sex/index.php HTTP/1.1" 302 20 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"

  這是筆者某網站的日志片段,我拿出ip,在win系統下cmd登錄dos框下輸入nslookup 220.181.108.96 查看回顯:

  

 

  如上圖,若是百度蜘蛛,他會直接回顯百度的域名。

  2, 假蜘蛛

  假蜘蛛斗勁經典的就是chinaz的發芽工具了,他就是模擬百度蜘蛛的,他的ip為125.90.88.96 我們反查后并未呈現百度域名。有樂趣的可以nslookup 125.90.88.96下,筆者就一直圖了。

  一般假蜘蛛的存在形式為:XXX.XXX.XXX.XXX - - [07/Apr/2012:01:22:21 +0800] "GET /site/sex/index.php HTTP/1.1" 302 20 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"

  看著跟真的一樣,唯獨ip就是貓膩!

  3, 奸細作況的蜘蛛

  1) cdn加速后,造成ip雜亂。

  此類情形呈現一般是網站在做了cdn加速后,再去查看apache處事器的訪謁日志的時辰發現良多蜘蛛的痕跡ip都很是的近似,如不美觀按照百度官方出的分辯手法nslookup ip 后必定為匿名,因為這些ip都是cdn節點ip,所以會造成曲解。若開啟cdn后,蜘蛛現實訪謁次數一般都<=日志中蜘蛛總數值。

  2) 百度匿名蜘蛛的存在性談判。

  匿名蜘蛛?百度工程師lee一向強調百度蜘蛛是不會匿名去訪謁網站的,但筆者年夜網上查閱資料,加上筆者某個站的數據猜測,筆者認為會有兩種情形:

  第一種:假如真的存在匿名蜘蛛,這很較著與lee的話有悖。所以這點我們可以去辯證的去理解,假如存在,匿名蜘蛛會做什么,良多seoer包短文者都猜測可能會存在用此類蜘蛛去驗證網站是否對蜘蛛與用戶做了分歧的待遇。所以此種情形,做賊就不要心虛嘛,老誠懇實做站吧。


  推薦閱讀

  信用卡非法套現約7成發生在第三方支付平臺

>>>詳細閱讀


本文標題:<b>小蘇:由淺到深再談網站原始訪問日志分析</b>

地址:http://www.sdlzkt.com/a/22/20120418/52246.html

樂購科技部分新聞及文章轉載自互聯網,供讀者交流和學習,若有涉及作者版權等問題請及時與我們聯系,以便更正、刪除或按規定辦理。感謝所有提供資訊的網站,歡迎各類媒體與樂購科技進行文章共享合作。

網友點評
我的評論: 人參與評論
驗證碼: 匿名回答
網友評論(點擊查看更多條評論)
友情提示: 登錄后發表評論,可以直接從評論中的用戶名進入您的個人空間,讓更多網友認識您。
自媒體專欄

評論

熱度

主站蜘蛛池模板: 992tv成人影院| 欧美成人三级一区二区在线观看| 成人a毛片在线看免费全部播放| 爱情岛永久地址www成人| 欧美成人精品福利在线视频| 青青草成人免费| 成人国产激情福利久久精品| 国产成人免费a在线资源| 一级毛片成人午夜| 成人综合婷婷国产精品久久蜜臀 | 国产新疆成人a一片在线观看| 成人在线不卡视频| 亚洲欧美成人网| 成人国产精品2021| 中文国产成人精品久久久| 国产成人综合色视频精品| 五月天国产成人AV免费观看| 天堂成人一区二区三区| 黄色成人在线网站 | 国产成人免费a在线视频色戒| 精品亚洲国产成人| 亚洲欧美成人一区二区三区| 成人毛片免费视频| av成人免费电影| 亚洲成人福利在线观看| 国产成人精品一区二三区在线观看| 久久久久亚洲av成人网| 四虎影视成人永久在线播放| 国产精品成人四虎免费视频| 欧美成人免费一区二区| 四虎成人精品在永久免费| 国产成人久久精品区一区二区| 成人精品一区久久久久| 黑人粗长大战亚洲女2021国产精品成人免费视频 | 四虎影院成人在线观看| 国产综合成人久久大片91| 我的初次内射欧美成人影视| 日韩国产欧美成人一区二区影院| 亚洲精品成人区在线观看| 久久综合欧美成人| 欧美成人精品第一区二区三区|