robots.txt写法

2017年3月9日22:40:49 发表评论


一、robots.txt文件是网站和搜索引擎之间的协议,搜索引擎蜘蛛爬行网站的第一个文件就是要访问robots.txt协议。

二、robots.txt屏蔽不想被搜索引擎抓取的隐私内容,例如后台、数据库文件、模板、插件或者做了伪静态就屏蔽动态路径。

三、robots.txt禁止搜索引擎抓取以下常见的文件名称
1、后台文件(如,admin、dede)
2、数据库信息(如, data)
3、include(安装目录)
4、templets(模板)
5、plus(插件文件)
6、member(会员)
7、.js/ .css/ .php/

四、需要屏蔽以下网站路径
1、网站搜索框
2、中文路径
3、一个页面出现多个路径
4、动态、静态都存在的话,选择其中一个屏蔽
5、检查源代码死链接屏蔽掉

五、robots.txt语法
1、User-agent    定义搜索引擎类型
百度蜘蛛:Baiduspider
谷歌蜘蛛:Googlebot
360蜘蛛:360Spider
SOSO蜘蛛:Sosospider
有道蜘蛛:YoudaoBot
搜狗蜘蛛:Sogou News Spider
2、Disallow    定义禁止抓取收录地址(禁止整站、禁止一个文件夹、禁止路径关键词、禁止动态路径、禁止文件)
3、Allow    定义允许抓取收录地址
4、语法符合(/  单个符合搜索引擎认为是根目录、*  能匹配0或者所有英文字符、$  结束符)

六、注意事项
1、/(斜杠)
2、:(冒号)
3、$(结束符)
4、关键词的匹配
5、生效时间  几天或者两个月以内
6、Sitemap    网站地图

七、举例标准写法
User-Agent: *  (User-Agent注意第一个字母需要大写,冒号空一格星号 这是标准写法,星号代表所有搜索引擎可以抓取)
Disallow: /(Disallow冒号空一格斜杠,斜杠是屏蔽所有这个文件内容)
Disallow: /admin(屏蔽搜索引擎抓取后台)
Disallow: /a  (a是关键词,网站路径凡是带有a的都是被屏蔽所有,广泛)
Disallow: /a/ (这是精确屏蔽路径,/a/只屏蔽这个路径,如果是/ab/的话不会被屏蔽,精确)
Disallow: /*= (星号等于所有、星号是通配符,路径凡是带有=全部被屏蔽,)
Disallow: /*.php$ (屏蔽所有.php,$是结束符)
Disallow: /binwushi/(禁止抓取binwushi文件)
Allow: /binwsuhi/img/ (禁止抓取binwushi文件,但又允许抓取binwushi里面的img文件)

weinxin
我的微信
分享SEO交流经验与技术

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: