SEO首页 > SEO基础篇 > 什么是robots文件?robots.txt写法指南
201309月19

什么是robots文件?robots.txt写法指南

栏目:SEO基础篇 Tag:, 浏览:1,336 0 Comments 发表评论

robots.txt是一个协议,而不是一个命令。搜索引擎机器人在访问一个网站时,会首先检查该网站的根目录下是否有一个叫做robots.txt的纯文本文件。如果有,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。

robots.txt写法指南

User-agent:定义搜索引擎。如果想定义所有搜索引擎用*

Disallow:禁止搜索引擎抓取的路径,注意:/表示根目录,代表网站所有目录

Allow:允许搜索引擎抓取,一般都是结合Disallow,意思是,禁止爬取那个内容加上Allow后就是,除了可以爬取内容意外其余的都禁止。

例如:

User-agent: *

Disallow: /

屏蔽所有搜索引擎爬取网站

User-agent: *

Disallow:

允许所有搜索引擎爬取网站所有内容

robots.txt写法所需要注意的细节:

语法的第一个字母需要大写、冒号后面要有空格。

User-agent:放在第一,其意思是之后的语法是针对User-agent定义的搜索引擎有效。

Disallow: /seo/与Disallow: /seo的区别

Disallow: /seo/ 意思是禁止搜索引擎爬取网站的SEO目录

Disallow: /seo 意思是不但禁止搜索引擎爬取网站的SEO目录,还禁止所有以SEO开头的目录,和文件名。
加与不加斜杠的区别是很大的,单一的斜杠代表根目录,辅助试用后就是具体的一个目录了。

匹配符 $ *

$是结束符,所有以$结尾的都能够进行匹配。

*表示所有的,匹配零或者多个任意字符

例如:

User-agent: *

Disallow: /.html$

屏蔽网站所有以html结尾的路径。

robots协议的作用。

屏蔽死链接

死链接是网站永远都不能避免的难题,如果搜索引擎收录了网站的路径,却又爬取不到这个路径,这样的死链接必然影响用户体验,那么这个时候我们就可以对这个页面进行Robots屏蔽,网站死链过多有可能会导致网站被降权甚至K站。我们不能完全避免死链接,但是可以尽量的减少死链接。

屏蔽无内容页面和重复页面

重复页面和无内容页面会严重影响网站页面质量,站中大量存在这种页面会导致网站降权

屏蔽多路径的同一页面

因为程序及路径不统一的原因,很多网站首页都存在多路径同一页面的问题。造成首页有两三个路径都被收录。网站路径不统一而分散网站的权重。例如:http://www.yuanxuneng.com/和http://www.yuanxuneng.com/index.html这两路径都被收录的情况下可以用robots对www.yuanxuneng.com/index.html进行屏蔽

文章来源:袁绪能博客(微信/QQ:18960460),欢迎分享,转载请保留出处!

更多
本文地址:http://www.yuanxuneng.com/jichu/216.html
版权所有 © 转载时必须以链接形式注明作者和原始出处!

发表评论

*

* (保密)

😉 😐 😡 😈 🙂 😯 🙁 rolleyes.png 😛 😳 😮 mrgreen.png 😆 💡 😀 👿 😥 😎 ➡ 😕 ❓ ❗

Ctrl+Enter 快捷回复

会员登录关闭

记住我 忘记密码

注册会员关闭

小提示: 您的密码会通过填写的"电子邮箱"发送给您.