在线视频亚洲一区,www.久久99,亚洲一区二区久久久久久久,精品视频一区二区三区四区五区

作家
登錄

如何使用robots.txt及其詳解

作者: 來源: 2014-09-22 14:07:16 閱讀 我要評(píng)論 直達(dá)商品

在國(guó)內(nèi),網(wǎng)站管理者似乎對(duì)robots.txt并沒有引起多大重視,應(yīng)一些朋友之請(qǐng)求,今天想通過這篇文章來簡(jiǎn)單談一下robots.txt的寫作。

 

robots.txt基本介紹

robots.txt是一個(gè)純文本文件,在這個(gè)文件中網(wǎng)站管理者可以聲明該網(wǎng)站中不想被robots訪問的部分,或者指定搜索引擎只收錄指定的內(nèi)容。

當(dāng)一個(gè)搜索機(jī)器人(有的叫搜索蜘蛛)訪問一個(gè)站點(diǎn)時(shí),它會(huì)首先檢查該站點(diǎn)根目錄下是否存在robots.txt,如果存在,搜索機(jī)器人就會(huì)按照該文件中的內(nèi)容來確定訪問的范圍;如果該文件不存在,那么搜索機(jī)器人就沿著鏈接抓取。

另外,robots.txt必須放置在一個(gè)站點(diǎn)的根目錄下,而且文件名必須全部小寫。

robots.txt寫作語法

首先,我們來看一個(gè)robots.txt范例:robots.txt

訪問以上具體地址,我們可以看到robots.txt的具體內(nèi)容如下:

# Robots.txt file from http://www.seovip.cn
# All robots will spider the domain

User-agent: *
Disallow:

以上文本表達(dá)的意思是允許所有的搜索機(jī)器人訪問站點(diǎn)下的所有文件。

具體語法分析:其中#后面文字為說明信息;User-agent:后面為搜索機(jī)器人的名稱,后面如果是*,則泛指所有的搜索機(jī)器人;Disallow:后面為不允許訪問的文件目錄。

下面,我將列舉一些robots.txt的具體用法:

允許所有的robot訪問

User-agent: *
Disallow:

或者也可以建一個(gè)空文件 "/robots.txt" file

禁止所有搜索引擎訪問網(wǎng)站的任何部分

User-agent: *
Disallow: /

禁止所有搜索引擎訪問網(wǎng)站的幾個(gè)部分(下例中的01、02、03目錄)

User-agent: *
Disallow: /01/
Disallow: /02/
Disallow: /03/

禁止某個(gè)搜索引擎的訪問(下例中的BadBot)

User-agent: BadBot
Disallow: /

只允許某個(gè)搜索引擎的訪問(下例中的Crawler)

User-agent: Crawler
Disallow:

User-agent: *
Disallow: /

另外,我覺得有必要進(jìn)行拓展說明,對(duì)robots meta進(jìn)行一些介紹:

Robots META標(biāo)簽則主要是針對(duì)一個(gè)個(gè)具體的頁面。和其他的META標(biāo)簽(如使用的語言、頁面的描述、關(guān)鍵詞等)一樣,Robots META標(biāo)簽也是放在頁面的<head></head>中,專門用來告訴搜索引擎ROBOTS如何抓取該頁的內(nèi)容。

Robots META標(biāo)簽的寫法:

Robots META標(biāo)簽中沒有大小寫之分,name=”Robots”表示所有的搜索引擎,可以針對(duì)某個(gè)具體搜索引擎寫為name=”BaiduSpider”。 content部分有四個(gè)指令選項(xiàng):index、noindex、follow、nofollow,指令間以“,”分隔。

INDEX 指令告訴搜索機(jī)器人抓取該頁面;

FOLLOW 指令表示搜索機(jī)器人可以沿著該頁面上的鏈接繼續(xù)抓取下去;

Robots Meta標(biāo)簽的缺省值是INDEX和FOLLOW,只有inktomi除外,對(duì)于它,缺省值是INDEX,NOFOLLOW。

這樣,一共有四種組合:

<META NAME="ROBOTS" CONTENT="INDEX,FOLLOW">
<META NAME="ROBOTS" CONTENT="NOINDEX,FOLLOW">
<META NAME="ROBOTS" CONTENT="INDEX,NOFOLLOW">
<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">

其中

<META NAME="ROBOTS" CONTENT="INDEX,FOLLOW">可以寫成<META NAME="ROBOTS" CONTENT="ALL">;

<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">可以寫成<META NAME="ROBOTS" CONTENT="NONE">

目前看來,絕大多數(shù)的搜索引擎機(jī)器人都遵守robots.txt的規(guī)則,而對(duì)于Robots META標(biāo)簽,目前支持的并不多,但是正在逐漸增加,如著名搜索引擎GOOGLE就完全支持,而且GOOGLE還增加了一個(gè)指令“archive”,可以限制GOOGLE是否保留網(wǎng)頁快照。例如:

<META NAME="googlebot" CONTENT="index,follow,noarchive">

表示抓取該站點(diǎn)中頁面并沿著頁面中鏈接抓取,但是不在GOOLGE上保留該頁面的網(wǎng)頁快照。

如何使用robots.txt

robots.txt 文件對(duì)抓取網(wǎng)絡(luò)的搜索引擎漫游器(稱為漫游器)進(jìn)行限制。這些漫游器是自動(dòng)的,在它們?cè)L問網(wǎng)頁前會(huì)查看是否存在限制其訪問特定網(wǎng)頁的 robots.txt 文件。如果你想保護(hù)網(wǎng)站上的某些內(nèi)容不被搜索引擎收入的話,robots.txt是一個(gè)簡(jiǎn)單有效的工具。這里簡(jiǎn)單介紹一下怎么使用它。

如何放置Robots.txt文件


robots.txt自身是一個(gè)文本文件。它必須
位于域名的根目錄中并 被命名為"robots.txt"。位于子目錄中的 robots.txt 文件無效,因?yàn)槁纹髦辉谟蛎母夸浿胁檎掖宋募。例如,http://www.example.com/robots.txt 是有效位置,http://www.example.com/mysite/robots.txt 則不是。

這里舉一個(gè)
robots.txt的例子:

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~name/

使用 robots.txt 文件攔截或刪除整個(gè)網(wǎng)站 

要從搜索引擎中刪除您的網(wǎng)站,并防止所有漫游器在以后抓取您的網(wǎng)站,請(qǐng)將以下 robots.txt 文件放入您服務(wù)器的根目錄:

User-agent: *
Disallow: /

要只從 Google 中刪除您的網(wǎng)站,并只是防止 Googlebot 將來抓取您的網(wǎng)站,請(qǐng)將以下 robots.txt 文件放入您服務(wù)器的根目錄:
User-agent: Googlebot
Disallow: /

每個(gè)端口都應(yīng)有自己的 robots.txt 文件。尤其是您通過 http 和 https 托管內(nèi)容的時(shí)候,這些協(xié)議都需要有各自的 robots.txt 文件。例如,要讓 Googlebot 只為所有的 http 網(wǎng)頁而不為 https 網(wǎng)頁編制索引,應(yīng)使用下面的 robots.txt 文件。

對(duì)于 http 協(xié)議 (http://yourserver.com/robots.txt):

User-agent: *
Allow: /

對(duì)于 https 協(xié)議 (https://yourserver.com/robots.txt):

User-agent: *
Disallow: /

允許所有的漫游器訪問您的網(wǎng)頁
User-agent: *
Disallow:
(另一種方法: 建立一個(gè)空的 "/robots.txt" 文件, 或者不使用robot.txt。)

使用 robots.txt 文件攔截或刪除網(wǎng)頁

您可以使用 robots.txt 文件來阻止 Googlebot 抓取您網(wǎng)站上的網(wǎng)頁。 例如,如果您正在手動(dòng)創(chuàng)建 robots.txt 文件以阻止 Googlebot 抓取某一特定目錄下(例如,private)的所有網(wǎng)頁,可使用以下 robots.txt 條目: 
User-agent: Googlebot
Disallow: /private
要阻止 Googlebot 抓取特定文件類型(例如,.gif)的所有文件,可使用以下 robots.txt 條目:
User-agent: Googlebot
Disallow: /*.gif$
要阻止 Googlebot 抓取所有包含 ? 的網(wǎng)址(具體地說,這種網(wǎng)址以您的域名開頭,后接任意字符串,然后是問號(hào),而后又是任意字符串),可使用以下條目:
User-agent: Googlebot
Disallow: /*?
盡管我們不抓取被 robots.txt 攔截的網(wǎng)頁內(nèi)容或?yàn)槠渚幹扑饕,但如果我們(cè)诰W(wǎng)絡(luò)上的其他網(wǎng)頁中發(fā)現(xiàn)這些內(nèi)容,我們?nèi)匀粫?huì)抓取其網(wǎng)址并編制索引。因此,網(wǎng)頁網(wǎng)址及其他公開的信息,例如指 向該網(wǎng)站的鏈接中的定位文字,有可能會(huì)出現(xiàn)在 Google 搜索結(jié)果中。不過,您網(wǎng)頁上的內(nèi)容不會(huì)被抓取、編制索引和顯示。

作為網(wǎng)站管理員工具的一部分,Google提供了robots.txt分析工具。它可以按照 Googlebot 讀取 robots.txt 文件的相同方式讀取該文件,并且可為 Google user-agents(如 Googlebot)提供結(jié)果。我們強(qiáng)烈建議您使用它。 在創(chuàng)建一個(gè)robots.txt文件之前,有必要考慮一下哪些內(nèi)容可以被用戶搜得到,而哪些則不應(yīng)該被搜得到。 這樣的話,通過合理地使用robots.txt, 搜索引擎在把用戶帶到您網(wǎng)站的同時(shí),又能保證隱私信息不被收錄。

 


       誤區(qū)一:我的網(wǎng)站上的所有文件都需要蜘蛛抓取,那我就沒必要在添加robots.txt文件了。反正如果該文件不存在,所有的搜索蜘蛛將默認(rèn)能夠訪問網(wǎng)站上所有沒有被口令保護(hù)的頁面。

 

  每當(dāng)用戶試圖訪問某個(gè)不存在的URL時(shí),服務(wù)器都會(huì)在日志中記錄404錯(cuò)誤(無法找到文件)。每當(dāng)搜索蜘蛛來尋找并不存在的robots.txt文件時(shí),服務(wù)器也將在日志中記錄一條404錯(cuò)誤,所以你應(yīng)該做網(wǎng)站中添加一個(gè)robots.txt。

 
誤區(qū)二:在robots.txt文件中設(shè)置所有的文件都可以被搜索蜘蛛抓取,這樣可以增加網(wǎng)站的收錄率。
 
網(wǎng)站中的程序腳本、樣式表等文件即使被蜘蛛收錄,也不會(huì)增加網(wǎng)站的收錄率,還只會(huì)浪費(fèi)服務(wù)器資源。因此必須在robots.txt文件里設(shè)置不要讓搜索蜘蛛索引這些文件。
 
具體哪些文件需要排除, 在robots.txt使用技巧一文中有詳細(xì)介紹。
 
誤區(qū)三:搜索蜘蛛抓取網(wǎng)頁太浪費(fèi)服務(wù)器資源,在robots.txt文件設(shè)置所有的搜索蜘蛛都不能抓取全部的網(wǎng)頁。
 
如果這樣的話,會(huì)導(dǎo)致整個(gè)網(wǎng)站不能被搜索引擎收錄。

 

robots.txt使用技巧

   1. 每當(dāng)用戶試圖訪問某個(gè)不存在的URL時(shí),服務(wù)器都會(huì)在日志中記錄404錯(cuò)誤(無法找到文件)。每當(dāng)搜索蜘蛛來尋找并不存在的robots.txt文件時(shí),服務(wù)器也將在日志中記錄一條404錯(cuò)誤,所以你應(yīng)該在網(wǎng)站中添加一個(gè)robots.txt。

 

  2. 網(wǎng)站管理員必須使蜘蛛程序遠(yuǎn)離某些服務(wù)器上的目錄——保證服務(wù)器性能。比如:大多數(shù)網(wǎng)站服務(wù)器都有程序儲(chǔ)存在“cgi-bin”目錄下,因此在robots.txt文件中加入“Disallow: /cgi-bin”是個(gè)好主意,這樣能夠避免將所有程序文件被蜘蛛索引,可以節(jié)省服務(wù)器資源。一般網(wǎng)站中不需要蜘蛛抓取的文件有:后臺(tái)管理文件、程序腳本、附件、數(shù)據(jù)庫文件、編碼文件、樣式表文件、模板文件、導(dǎo)航圖片和背景圖片等等。

 

  下面是VeryCMS里的robots.txt文件:

 

  User-agent: *

 

  Disallow: /admin/ 后臺(tái)管理文件

 

  Disallow: /require/ 程序文件

 

  Disallow: /attachment/ 附件

 

  Disallow: /images/ 圖片

 

  Disallow: /data/ 數(shù)據(jù)庫文件

 

  Disallow: /template/ 模板文件

 

  Disallow: /css/ 樣式表文件

 

  Disallow: /lang/ 編碼文件

 

  Disallow: /script/ 腳本文件

 

  3. 如果你的網(wǎng)站是動(dòng)態(tài)網(wǎng)頁,并且你為這些動(dòng)態(tài)網(wǎng)頁創(chuàng)建了靜態(tài)副本,以供搜索蜘蛛更容易抓取。那么你需要在robots.txt文件里設(shè)置避免動(dòng)態(tài)網(wǎng)頁被蜘蛛索引,以保證這些網(wǎng)頁不會(huì)被視為含重復(fù)內(nèi)容。

 

  4. robots.txt文件里還可以直接包括在sitemap文件的鏈接。就像這樣:

 

  Sitemap: sitemap.xml

 

  目前對(duì)此表示支持的搜索引擎公司有Google, Yahoo, Ask and MSN。而中文搜索引擎公司,顯然不在這個(gè)圈子內(nèi)。這樣做的好處就是,站長(zhǎng)不用到每個(gè)搜索引擎的站長(zhǎng)工具或者相似的站長(zhǎng)部分,去提交自己的sitemap文件,搜索引擎的蜘蛛自己就會(huì)抓取robots.txt文件,讀取其中的sitemap路徑,接著抓取其中相鏈接的網(wǎng)頁。

 

  5. 合理使用robots.txt文件還能避免訪問時(shí)出錯(cuò)。比如,不能讓搜索者直接進(jìn)入購物車頁面。因?yàn)闆]有理由使購物車被收錄,所以你可以在robots.txt文件里設(shè)置來阻止搜索者直接進(jìn)入購物車頁面。



  推薦閱讀

  公司上市需滿足什么條件?

  一、公司的主體資格  從公司的組織形式上看,公司分為有限責(zé)任公司和股份有限公司。只有股份公司才有具備上市的基礎(chǔ)條件因此,如果有限責(zé)任公司有上市的發(fā)展需要,首>>>詳細(xì)閱讀


本文標(biāo)題:如何使用robots.txt及其詳解

地址:http://www.sdlzkt.com/jishu/zhishi/20140922/294323.html

樂購科技部分新聞及文章轉(zhuǎn)載自互聯(lián)網(wǎng),供讀者交流和學(xué)習(xí),若有涉及作者版權(quán)等問題請(qǐng)及時(shí)與我們聯(lián)系,以便更正、刪除或按規(guī)定辦理。感謝所有提供資訊的網(wǎng)站,歡迎各類媒體與樂購科技進(jìn)行文章共享合作。

網(wǎng)友點(diǎn)評(píng)
我的評(píng)論: 人參與評(píng)論
驗(yàn)證碼: 匿名回答
網(wǎng)友評(píng)論(點(diǎn)擊查看更多條評(píng)論)
友情提示: 登錄后發(fā)表評(píng)論,可以直接從評(píng)論中的用戶名進(jìn)入您的個(gè)人空間,讓更多網(wǎng)友認(rèn)識(shí)您。
自媒體專欄

評(píng)論

熱度

在线视频亚洲一区,www.久久99,亚洲一区二区久久久久久久,精品视频一区二区三区四区五区
欧美日韩在线亚洲一区蜜芽 | 日韩亚洲精品电影| 免费不卡在线观看av| 亚洲成人资源| 国产毛片精品视频| 久久不射中文字幕| 精品动漫3d一区二区三区| 国产精品国产三级国产专播精品人 | 红桃视频国产一区| 国产精品成人aaaaa网站 | 欧美伦理91i| 一区二区欧美视频| 国产酒店精品激情| 欧美视频在线视频| 久久久国产精品亚洲一区| 亚洲国产精品高清久久久| 国产在线视频欧美| 欧美成人情趣视频| 久久一二三区| 日韩一级片网址| 国产精品午夜在线观看| 欧美视频在线免费看| 久久激情中文| 一本色道久久99精品综合| 亚洲二区免费| 国产精品免费福利| 欧美视频观看一区| 久久久综合网| 一区二区三区四区在线| 亚洲精品一线二线三线无人区| 国产精品久久久久久久久久ktv| 欧美日韩国产一区精品一区 | 亚洲第一黄色网| 国产主播喷水一区二区| 欧美精品日韩一区| 欧美成人午夜激情在线| 午夜一区二区三视频在线观看| 亚洲成人在线免费| 在线观看亚洲视频| 国产精品羞羞答答| 国产精品一区一区三区| 欧美国产日韩精品| 欧美韩日一区二区三区| 先锋影音久久久| 亚洲美女视频| 亚洲桃花岛网站| 亚洲大胆人体视频| 亚洲国产精品久久| 国产偷国产偷精品高清尤物| 国产亚洲视频在线观看| 国产精品igao视频网网址不卡日韩| 欧美日韩精品系列| 狂野欧美激情性xxxx| 久久视频一区| 亚洲欧美日韩综合aⅴ视频| 亚洲欧洲日本在线| 一个色综合av| 亚洲国产欧洲综合997久久| 91久久中文| 曰韩精品一区二区| 亚洲欧洲一区二区三区在线观看| 国内成人精品一区| 91久久精品美女高潮| 狠狠色狠狠色综合日日91app| 18成人免费观看视频| 国产婷婷一区二区| 亚洲第一毛片| 激情综合视频| 亚洲老司机av| 亚洲人线精品午夜| 亚洲女人天堂成人av在线| 99精品视频一区| 欧美一区二区在线视频| 久久色在线播放| 久久久久久噜噜噜久久久精品 | 夜色激情一区二区| 亚洲电影免费在线| 日韩亚洲精品电影| 亚洲精品在线观看免费| 亚洲免费在线精品一区| 一区二区三区四区五区视频| 欧美伊久线香蕉线新在线| 欧美不卡在线| 欧美成人精品h版在线观看| 欧美日韩激情网| 欧美片网站免费| 国产欧美精品xxxx另类| 国产美女精品视频| 亚洲激情影院| 亚洲人成人一区二区在线观看| 亚洲一区二区三区四区五区午夜 | 激情六月婷婷综合| 国产一区二区三区无遮挡| 在线看日韩欧美| 在线观看中文字幕不卡| 亚洲小说欧美另类社区| 久久一区二区三区av| 美女网站在线免费欧美精品| 欧美性生交xxxxx久久久| 欧美午夜精品理论片a级按摩| 经典三级久久| 亚洲电影毛片| 午夜精品一区二区三区四区| 欧美不卡激情三级在线观看| 欧美精品电影| 国模精品娜娜一二三区| 精品二区视频| 亚洲欧美日韩视频一区| 女同一区二区| 欧美国产综合| 亚洲精品综合精品自拍| 欧美制服丝袜第一页| 欧美日韩国产首页在线观看| 欧美三级电影网| 在线成人国产| 亚洲三级视频在线观看| 久久国产精品高清| 欧美亚洲成人网| 国产日韩综合一区二区性色av| 亚洲精品视频二区| 久久久另类综合| 欧美精彩视频一区二区三区| 国内外成人免费激情在线视频网站| 黄网站色欧美视频| 亚洲欧美日本伦理| 欧美日韩一区二区三区在线看| 国产精品视频1区| 亚洲精品永久免费精品| 看欧美日韩国产| 欧美日韩一级大片网址| 亚洲日本va在线观看| 久久蜜臀精品av| 欧美日韩精品福利| 亚洲人成艺术| 裸体歌舞表演一区二区| 欧美日本国产| 亚洲精品孕妇| 欧美极品一区| 国产亚洲精品久| 亚洲欧美综合一区| 国产精品美女久久久久久免费| 激情视频一区| 久久久久国色av免费看影院 | 国产精品久久波多野结衣| 国产一区二区剧情av在线| 亚洲午夜伦理| 欧美日韩免费在线视频| 国产日韩欧美综合| 午夜在线视频一区二区区别| 国产精品久久久久aaaa| 亚洲国产经典视频| 久久这里有精品视频| 狠狠色伊人亚洲综合成人| 一本大道久久a久久精品综合| 欧美激情一区二区三级高清视频| 影音先锋久久| 久久综合中文字幕| 国产精品久久77777| 一区二区三区精品在线| 欧美日韩一区二区三区在线看| 国产自产高清不卡| 久久久精品一区| 激情欧美国产欧美| 看欧美日韩国产| 国产日韩在线看| 久久日韩粉嫩一区二区三区| 黄色成人在线| 免费一区二区三区| 国产日韩欧美在线| 久久精品国产第一区二区三区最新章节 | 麻豆av福利av久久av| 在线视频成人| 欧美精品九九| 在线精品视频一区二区| 嫩草影视亚洲| 亚洲精选91| 欧美色综合网| 亚洲三级网站| 国产精品99免费看| 欧美一区不卡| 在线观看视频免费一区二区三区| 蜜月aⅴ免费一区二区三区 | 欧美亚洲综合久久| 黄色成人av在线| 欧美高清自拍一区| 精品二区视频| 欧美欧美天天天天操| 亚洲天堂网在线观看| 国产精品自在在线| 久久久精品国产免大香伊| 国产日韩av一区二区| 免费高清在线一区| 亚洲午夜在线观看| 国内免费精品永久在线视频| 欧美国产大片| 亚洲欧洲日产国码二区| 国产精品久久久久永久免费观看| 欧美亚洲综合久久| 亚洲国产网站| 国产精品久久久久影院亚瑟|