robots.txt文件的作用与写法
墨初 前端设计 2877阅读
说起 robots.txt 文件,很多网站的站长都非法的熟悉,尤其是一些专门研究SEO的从业者们。今天借助这篇博文,详细介绍一下 robots.txt 文件的作用与书写方法。
robots.txt是一个写有 robots 协议的文件,它被放置于网站的根目录下,通过网址的形式就可以被访问到。别看它小,但它的作用可不小。
robots.txt文件的作用
1、用来告诉搜索引擎的蜘蛛哪些页面能被抓取,哪些页面不能被抓取;
2、屏蔽一些网站中比较大的文件,如:图片,音乐,视频等,节省服务器带宽;
3、屏蔽站点的一些死链接。方便搜索引擎抓取网站内容;
4、设置网站地图连接,方便引导蜘蛛爬取页面。
Robots 协议中的几个参数
1、自定义搜索引擎
User-agent:来定义搜索引引擎的。如下面代码:
User-agent: Baiduspider //百度蜘蛛 User-agent: Googlebot //谷歌蜘蛛 User-agent: * //*为通配符,表示所有的蜘蛛
注意:以上代码中,出现的汉字为注释说明,在实际的写法中,不能出现。
2、禁止抓取
Disallow:用来指示,要禁止抓取的目录,或文件。
Disallow: /a/ //禁止抓去a目录下的任何文件 Disallow: /b/c/ //禁止抓取b目录中c目录下的任何文件 Disallow: index.html //禁止抓取 index.html 文件
可使用通配符来表示要禁止抓取的目录或文件
Disallow: /*.css$ //禁止抓取所有CSS文件 Disallow: /*.js$ //禁止抓取所有js文件 Disallow: /*.php$ //禁止抓取所有php文件 Disallow: /*?* //禁止抓取所有还有参数的文件,比如动态文件 Disallow: / //禁止抓取所有目录以及文件
注意:*表示所有,$表示结尾
3、允许抓取
Allow:用来表示,允许要抓取的文件或者目录(一般是配合 Disallow 使用)
Allow: / //允许抓取所有目录及文件 Allow: /a/ //允许抓取a目录
robots.txt 写法举例
1、禁止百度抓取网站所有内容
User-agent: Baiduspider Disallow:/
2、禁止所有搜索引擎访问
User-agent: * Disallow: /
3、只允许某个搜索引擎访问,如下,只允许百度蜘蛛抓取
User-agent: * Disallow: / User-agent: Baiduspider Disallow:
补充资料:
1、以下为淘宝的 robots.txt 中协议的写法,
User-agent: Baiduspider Allow: /article Allow: /oshtml Allow: /ershou Allow: /$ Disallow: /product/ Disallow: / User-Agent: Googlebot Allow: /article Allow: /oshtml Allow: /product Allow: /spu Allow: /dianpu Allow: /oversea Allow: /list Allow: /ershou Allow: /$ Disallow: / User-agent: Bingbot Allow: /article Allow: /oshtml Allow: /product Allow: /spu Allow: /dianpu Allow: /oversea Allow: /list Allow: /ershou Allow: /$ Disallow: / User-Agent: 360Spider Allow: /article Allow: /oshtml Allow: /ershou Disallow: / User-Agent: Yisouspider Allow: /article Allow: /oshtml Allow: /ershou Disallow: / User-Agent: Sogouspider Allow: /article Allow: /oshtml Allow: /product Allow: /ershou Disallow: / User-Agent: Yahoo! Slurp Allow: /product Allow: /spu Allow: /dianpu Allow: /oversea Allow: /list Allow: /ershou Allow: /$ Disallow: / User-Agent: * Disallow: /
淘宝的 robots.txt 文件中,对一些常用的搜索引擎做了个性化的设置,并利用 Allow 参数 规定了其可以访并抓取的目录文件
2、京东商城的 robots.txt 中协议的写法
User-agent: * Disallow: /?* Disallow: /pop/*.html Disallow: /pinpai/*.html?* User-agent: EtaoSpider Disallow: / User-agent: HuihuiSpider Disallow: / User-agent: GwdangSpider Disallow: / User-agent: WochachaSpider Disallow: /