什么是robots文件?robots.txt写法指南

robots.txt是一个协议,而不是一个命令。搜索引擎机器人在访问一个网站时,会首先检查该网站的根目录下是否有一个叫做robots.txt的纯文本文件。如果有,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。

robots.txt写法指南

User-agent:定义搜索引擎。如果想定义所有搜索引擎用*

Disallow:禁止搜索引擎抓取的路径,注意:/表示根目录,代表网站所有目录

Allow:允许搜索引擎抓取,一般都是结合Disallow,意思是,禁止爬取那个内容加上Allow后就是,除了可以爬取内容意外其余的都禁止。

例如:

User-agent: *

Disallow: /

屏蔽所有搜索引擎爬取网站

User-agent: *

Disallow:

允许所有搜索引擎爬取网站所有内容

robots.txt写法所需要注意的细节:

语法的第一个字母需要大写、冒号后面要有空格。

User-agent:放在第一,其意思是之后的语法是针对User-agent定义的搜索引擎有效。

Disallow: /seo/与Disallow: /seo的区别

Disallow: /seo/ 意思是禁止搜索引擎爬取网站的SEO目录

Disallow: /seo 意思是不但禁止搜索引擎爬取网站的SEO目录,还禁止所有以SEO开头的目录,和文件名。
加与不加斜杠的区别是很大的,单一的斜杠代表根目录,辅助试用后就是具体的一个目录了。

匹配符 $ *

$是结束符,所有以$结尾的都能够进行匹配。

*表示所有的,匹配零或者多个任意字符

例如:

User-agent: *

Disallow: /.html$

屏蔽网站所有以html结尾的路径。

robots协议的作用。

屏蔽死链接

死链接是网站永远都不能避免的难题,如果搜索引擎收录了网站的路径,却又爬取不到这个路径,这样的死链接必然影响用户体验,那么这个时候我们就可以对这个页面进行Robots屏蔽,网站死链过多有可能会导致网站被降权甚至K站。我们不能完全避免死链接,但是可以尽量的减少死链接。

屏蔽无内容页面和重复页面

重复页面和无内容页面会严重影响网站页面质量,站中大量存在这种页面会导致网站降权

屏蔽多路径的同一页面

因为程序及路径不统一的原因,很多网站首页都存在多路径同一页面的问题。造成首页有两三个路径都被收录。网站路径不统一而分散网站的权重。例如:http://www.yuanxuneng.com/和http://www.yuanxuneng.com/index.html这两路径都被收录的情况下可以用robots对www.yuanxuneng.com/index.html进行屏蔽

来源:袁绪能微信公众号:yxnsem,分享搜索引擎营销,整合营销,实战案例等诸多干货内容。欢迎分享,转载请保留版权信息!

赞 (0) 打赏

评论 0

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址

您的打赏是最好的支持!

支付宝扫一扫打赏

微信扫一扫打赏