说起 robots.txt 文件,很多网站的站长都非法的熟悉,尤其是一些专门研究SEO的从业者们。今天借助这篇博文,详细介绍一下 robots.txt 文件的作用与书写方法。

robots.txt是一个写有 robots 协议的文件,它被放置于网站的根目录下,通过网址的形式就可以被访问到。别看它小,但它的作用可不小。

robots.txt怎么写,robots.txt作用,robots.txt写法

robots.txt文件的作用

1、用来告诉搜索引擎的蜘蛛哪些页面能被抓取,哪些页面不能被抓取;

2、屏蔽一些网站中比较大的文件,如:图片,音乐,视频等,节省服务器带宽;

3、屏蔽站点的一些死链接。方便搜索引擎抓取网站内容;

4、设置网站地图连接,方便引导蜘蛛爬取页面。

Robots 协议中的几个参数

1、自定义搜索引擎

User-agent:来定义搜索引引擎的。如下面代码:

User-agent: Baiduspider  //百度蜘蛛
User-agent: Googlebot   //谷歌蜘蛛
User-agent: *       //*为通配符,表示所有的蜘蛛

注意:以上代码中,出现的汉字为注释说明,在实际的写法中,不能出现。

2、禁止抓取

Disallow:用来指示,要禁止抓取的目录,或文件。

Disallow: /a/       //禁止抓去a目录下的任何文件
Disallow: /b/c/      //禁止抓取b目录中c目录下的任何文件 
Disallow: index.html   //禁止抓取 index.html 文件

可使用通配符来表示要禁止抓取的目录或文件

Disallow: /*.css$   //禁止抓取所有CSS文件
Disallow: /*.js$   //禁止抓取所有js文件
Disallow: /*.php$   //禁止抓取所有php文件
Disallow: /*?*     //禁止抓取所有还有参数的文件,比如动态文件
Disallow: /        //禁止抓取所有目录以及文件

注意:*表示所有,$表示结尾

3、允许抓取

Allow:用来表示,允许要抓取的文件或者目录(一般是配合 Disallow 使用)

Allow: /    //允许抓取所有目录及文件
Allow: /a/   //允许抓取a目录

robots.txt 写法举例

1、禁止百度抓取网站所有内容

User-agent: Baiduspider
Disallow:/

2、禁止所有搜索引擎访问

User-agent: *
Disallow: /

3、只允许某个搜索引擎访问,如下,只允许百度蜘蛛抓取

User-agent: *
Disallow: /
User-agent: Baiduspider
Disallow:

补充资料:

1、以下为淘宝的 robots.txt 中协议的写法,

User-agent:  Baiduspider
Allow:  /article
Allow:  /oshtml
Allow:  /ershou
Allow: /$
Disallow:  /product/
Disallow:  /

User-Agent:  Googlebot
Allow:  /article
Allow:  /oshtml
Allow:  /product
Allow:  /spu
Allow:  /dianpu
Allow:  /oversea
Allow:  /list
Allow:  /ershou
Allow: /$
Disallow:  /

User-agent:  Bingbot
Allow:  /article
Allow:  /oshtml
Allow:  /product
Allow:  /spu
Allow:  /dianpu
Allow:  /oversea
Allow:  /list
Allow:  /ershou
Allow: /$
Disallow:  /

User-Agent:  360Spider
Allow:  /article
Allow:  /oshtml
Allow:  /ershou
Disallow:  /

User-Agent:  Yisouspider
Allow:  /article
Allow:  /oshtml
Allow:  /ershou
Disallow:  /

User-Agent:  Sogouspider
Allow:  /article
Allow:  /oshtml
Allow:  /product
Allow:  /ershou
Disallow:  /

User-Agent:  Yahoo!  Slurp
Allow:  /product
Allow:  /spu
Allow:  /dianpu
Allow:  /oversea
Allow:  /list
Allow:  /ershou
Allow: /$
Disallow:  /
User-Agent:  *

Disallow:  /

淘宝的 robots.txt 文件中,对一些常用的搜索引擎做了个性化的设置,并利用 Allow 参数 规定了其可以访并抓取的目录文件

2、京东商城的 robots.txt 中协议的写法

User-agent: * 
Disallow: /?* 
Disallow: /pop/*.html 
Disallow: /pinpai/*.html?* 
User-agent: EtaoSpider 
Disallow: / 
User-agent: HuihuiSpider 
Disallow: / 
User-agent: GwdangSpider 
Disallow: / 
User-agent: WochachaSpider 
Disallow: /