robots.txt是一个协议,而不是一个命令。搜索引擎机器人在访问一个网站时,会首先检查该网站的根目录下是否有一个叫做robots.txt的纯文本文件。如果有,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。
robots.txt写法指南
User-agent:定义搜索引擎。如果想定义所有搜索引擎用*
Disallow:禁止搜索引擎抓取的路径,注意:/表示根目录,代表网站所有目录
Allow:允许搜索引擎抓取,一般都是结合Disallow,意思是,禁止爬取那个内容加上Allow后就是,除了可以爬取内容意外其余的都禁止。
例如:
User-agent: *
Disallow: /
屏蔽所有搜索引擎爬取网站
User-agent: *
Disallow:
允许所有搜索引擎爬取网站所有内容
robots.txt写法所需要注意的细节:
语法的第一个字母需要大写、冒号后面要有空格。
User-agent:放在第一,其意思是之后的语法是针对User-agent定义的搜索引擎有效。
Disallow: /seo/与Disallow: /seo的区别
Disallow: /seo/ 意思是禁止搜索引擎爬取网站的SEO目录
Disallow: /seo 意思是不但禁止搜索引擎爬取网站的SEO目录,还禁止所有以SEO开头的目录,和文件名。
加与不加斜杠的区别是很大的,单一的斜杠代表根目录,辅助试用后就是具体的一个目录了。
匹配符 $ *
$是结束符,所有以$结尾的都能够进行匹配。
*表示所有的,匹配零或者多个任意字符
例如:
User-agent: *
Disallow: /.html$
屏蔽网站所有以html结尾的路径。
robots协议的作用。
屏蔽死链接
死链接是网站永远都不能避免的难题,如果搜索引擎收录了网站的路径,却又爬取不到这个路径,这样的死链接必然影响用户体验,那么这个时候我们就可以对这个页面进行Robots屏蔽,网站死链过多有可能会导致网站被降权甚至K站。我们不能完全避免死链接,但是可以尽量的减少死链接。
屏蔽无内容页面和重复页面
重复页面和无内容页面会严重影响网站页面质量,站中大量存在这种页面会导致网站降权
屏蔽多路径的同一页面
因为程序及路径不统一的原因,很多网站首页都存在多路径同一页面的问题。造成首页有两三个路径都被收录。网站路径不统一而分散网站的权重。例如:http://www.yuanxuneng.com/和http://www.yuanxuneng.com/index.html这两路径都被收录的情况下可以用robots对www.yuanxuneng.com/index.html进行屏蔽
来源:袁绪能微信公众号:yxnsem,分享搜索引擎营销,整合营销,实战案例等诸多干货内容。欢迎分享,转载请保留版权信息!
最新评论
了解网站制作的相关技术,学会做一个网站
很帮的博客 支持一下
说实话视频号一直没搞明白
有钱人的世界我不懂,还是我太穷了
任何营销手段都是有用的,只分做的好不好
boke henba博客很棒
那是很少很少的一部分而已
能不能活下去另说了呢