前段時刻寫了篇robots.txt文件怎么寫,可是經(jīng)由過程現(xiàn)實(shí)不雅察看,有些伴侶對于robots.txt文件的軌則仍是有必然的誤區(qū)。
好比有良多人這樣寫:
User-agent: *
Allow: /
Disallow: /mulu/
不知道巨匠有沒有看出來,這個軌則其實(shí)是不起浸染的,第一句Allow: / 指的是許可蜘蛛爬行所有內(nèi)容,第二句Disallow: /mulu/指的是禁止/mulu/下面的所有內(nèi)容。
概況上看這個軌則想達(dá)到的目的是:許可蜘蛛爬行除了/mulu/之外的網(wǎng)站所有頁面。
可是搜索引擎蜘蛛執(zhí)行的軌則是年夜上到下,這樣會造成第二句呼吁失蹤效。
正確的軌則應(yīng)該是:
User-agent: *
Disallow: /mulu/
Allow: /
也就是先執(zhí)行禁止呼吁,再執(zhí)行許可呼吁,這樣就不會失蹤效了。
此外對于百度蜘蛛來說,還有一個輕易犯的錯誤,那就是Disallow呼吁和Allow呼吁之后要儀筧?/開首,所以有些人這樣寫:Disallow: *.html 這樣對百度蜘蛛來說是錯誤的,應(yīng)該寫成:Disallow: /*.html 。
有時辰我們寫這些軌則可能會有一些沒有注重到的問題,此刻可以經(jīng)由過程百度站長工具(zhanzhang.baidu.com)和Google站長工具來測試。
相對來說百度站長工具robots工具相對簡陋一些:



百度Robots工具只能檢測每一行呼吁是否合適語犯罪則,可是不檢測現(xiàn)實(shí)效不美觀和抓取邏輯軌則。
相對來說Google的Robots工具好用良多,如圖:

在谷歌站長工具里的名稱是抓取工具的權(quán)限,并陳述Google抓取網(wǎng)站頁面的時辰被阻擋了若干好多個網(wǎng)址。

還可以在線測試Robots改削后的效不美觀,當(dāng)然這里的改削只是測試用,如不美觀沒有問題了,可以生成robots.txt文件,或者把呼吁代碼復(fù)制到robots.txt文本文檔中,上傳到網(wǎng)站根目錄。

Google的測試跟百度有很年夜的區(qū)別,它可以讓你輸入某一個或者某些網(wǎng)址,測試Google蜘蛛是否抓取這些網(wǎng)址。

測試結(jié)不美觀是這些網(wǎng)址被Google蜘蛛抓取的情形,這個測試對于Robots文件對某些特定url的軌則是否有用。
而兩個工具連系起來當(dāng)然更好了,這下應(yīng)該徹底年夜白robots應(yīng)該怎么寫了吧。
轉(zhuǎn)載請注明來自逍遙博客,本文地址:http://liboseo.com/1170.html
除非注明,逍遙博客文章均為原創(chuàng),轉(zhuǎn)載請注明出處和鏈接!