你现在的位置:首页 > PHP网站建设知识库 > WordPress > 正文

WordPress网站robots.txt协议详解

国内很多站长都在用wordpress开发网站,Wordpress确实是一个非常不错的内容管理系统。搭建好网站后,还需要做很多事情,其中非常重要的当然是搜索引擎优化(SEO)了,SEO中有一项非常重要的协议,叫做robots协议,也就是通常说的robots.txt文件。

我们先来了解一下什么是robots协议,robots协议(也称为爬虫协议、机器人协议等)的英文全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。当然robots协议可以说是一个君子协议,主流的搜索引擎都支持robots协议。

\

下面以wordpress自带的robots.txt来讲解一下robots的协议:

User-agent: *
#开始配置 所有引擎
Disallow: /comments/feed/
#禁止所有引擎抓取网站comments目录下的feed目录
Disallow: /*/trackback
#禁止所有引擎抓取网站包含和的目录下的trackback目录(包含子目录)
Disallow: /wp-admin/
#禁止所有引擎抓取网站wp-admin目录
Disallow: /wp-includes/
#禁止所有引擎抓取网站wp-includes目录
Disallow: /wp-content/plugins/
#禁止所有引擎抓取网站wp-content目录下的plugins目录
Disallow: /wp-content/themes/
#禁止所有引擎抓取网站wp-content目录下的themes目录
Disallow: /*?replytocom=
#禁止所有引擎抓取网站所有参数以replytocom=开头的动态页面
Disallow: /*/comment-page-*
#禁止所有引擎抓取网站包含和的目录下的前缀为comment-page-并且包含的目录(包含子目录)
Disallow: /?r=*
#禁止所有引擎抓取网站以?开头的并且参数前缀为r=并且包含的动态页面
Disallow: /?p=*
#禁止所有引擎抓取网站以?开头的并且参数前缀为p=并且包含的动态页面
Disallow: /page/
#禁止所有引擎抓取网站page目录
Sitemap: http://www.phpstudio.info/sitemaps.xml
#Sitemap地址:http://www.phpstudio.info/sitemaps.xml
Sitemap: http://www.phpstudio.info/sitemap_baidu.xml
#Sitemap地址:http://www.phpstudio.info/sitemap_baidu.xml

当然,这份协议并不是最佳实践,在实际应用当中,是需要根据网站的情况进行一些修改的。一般来说个人配置都是允许所有爬虫,接着就开始配置不希望抓取的目录,最后就是指明自己的网站地图,一个谷歌地图,最后是百度地图。google和baidu也可以使用同一个。