• 绍兴SEO服务联系方式 【电话/微信:13186936775 】 【QQ:2621228281】
  • 授人以鱼不如授人以渔,欢迎大家访问微趣味博客,微趣味博客提供绍兴网站SEO优化服务
  • 绍兴网站优化服务联系方式 【电话/微信:13186936775 】 【QQ:2621228281】
  • 微趣味博客提供SEO网站优化方案,为绍兴企业提供更好的网络营销方法!
  • 微趣味博主联系方式 【电话/微信:13186936775 】 【QQ:2621228281】

robots.txt是什么?robots.txt对SEO来说有什么重要的意义?

robots.txt是什么?robots.txt对SEO来说有什么重要的意义?搜索引擎使用spider程序自动访问互联网上的网页并获取网页信息。spider在访问一个网站时,会首先会检查该网站的根域下是否有一个叫 做robots.txt的纯文本文件,这个文件用于指定spider在您网站上的抓取范围。接下来就由Steven为大家详细的讲解一下robots.txt。

 

robots.txt是什么?

搜索引擎通过一种程序robot(又称spider),自动访问互联网上的网页并获取网页信 息。您可以在您的网站中创建一个纯文本文件robots.txt,在这个文件中声明该网站中不想被robot 访问的部分,这样,该网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜 索引擎只收录指定的内容。

从SEO的角度,robots.txt文件是一定要设置的原因

 

网站上经常存在这种情况:不同的链接指向相似的网页内容。这不符合SEO上讲的“网页内容互异性原则”。采用robots.txt文件可以屏蔽掉次要的链接。

网站改版或URL重写优化时原来不符合搜索引擎友好的链接需要全部屏蔽掉。采用robots.txt文件删除旧的链接符合搜索引擎友好。

一些没有关键词的页面,屏蔽掉更好。

一般情况下,站内的搜索结果页面屏蔽掉更好。

robots.txt写法

robots是站点与spider沟通的重要渠道,站点通过robots文件声明该网站中不想被搜索引擎收录的部分或者指定搜索引擎只收录特定的部分。请注意,仅当您的网站包含不希望被搜索引擎收录的内容时,才需要使用robots.txt文件。如果您希望搜索引擎收录网站上所有内容,请勿建立robots.txt文件。

robots文件往往放置于根目录下,包含一条或更多的记录,这些记录通过空行分开(以CR,CR/NL, or NL作为结束符),每一条记录的格式如下所示:

“<field>:<optional space><value><optionalspace>”

在该文件中可以使用#进行注解,具体使用方法和UNIX中的惯例一样。该文件中的记录通常以一行或多行User-agent开始,后面加上若干Disallow和Allow行,详细情况如下:

User-agent:该项的值用于描述搜索引擎robot的名字。在”robots.txt”文件中,如果有多条User-agent记录说明有多个robot会受到”robots.txt”的限制,对该文件来说,至少要有一条User-agent记录。如果该项的值设为*,则对任何robot均有效,在”robots.txt”文件中,”User-agent:*”这样的记录只能有一条。如果在”robots.txt”文件中,加入”User-agent:SomeBot”和若干Disallow、Allow行,那么名为”SomeBot”只受到”User-agent:SomeBot”后面的 Disallow和Allow行的限制。

Disallow:该项的值用于描述不希望被访问的一组URL,这个值可以是一条完整的路径,也可以是路径的非空前缀,以Disallow项的值开头的URL不会被 robot访问。例如”Disallow:/help”禁止robot访问/help.html、/helpabc.html、/help/index.html,而”Disallow:/help/”则允许robot访问/help.html、/helpabc.html,不能访问/help/index.html。”Disallow:”说明允许robot访问该网站的所有url,在”/robots.txt”文件中,至少要有一条Disallow记录。如果”/robots.txt”不存在或者为空文件,则对于所有的搜索引擎robot,该网站都是开放的。

Allow:该项的值用于描述希望被访问的一组URL,与Disallow项相似,这个值可以是一条完整的路径,也可以是路径的前缀,以Allow项的值开头的URL 是允许robot访问的。例如”Allow:/hibaidu”允许robot访问/hibaidu.htm、/hibaiducom.html、/hibaidu/com.html。一个网站的所有URL默认是Allow的,所以Allow通常与Disallow搭配使用,实现允许访问一部分网页同时禁止访问其它所有URL的功能。

使用”*”and”$”:Baiduspider支持使用通配符”*”和”$”来模糊匹配url。

“*” 匹配0或多个任意字符

“$” 匹配行结束符。

最后需要说明的是:百度会严格遵守robots的相关协议,请注意区分您不想被抓取或收录的目录的大小写,百度会对robots中所写的文件和您不想被抓取和收录的目录做精确匹配,否则robots协议无法生效。

 

以上就是robots.txt的定义、对搜索引擎的重要性与robots.txt的写法。当我们的网站有一些内容不想被搜索引擎收录,我们可以通过设置robots.txt文件告知搜索引擎机器人。更多的SEO知识点大家可以访问SEO基础教程板块进行学习查看


微趣味博客, 版权所有丨如未注明 , 均为原创丨本网站大量内容均采集与网络,如侵犯版权请联系博主|协议进行授权 , 转载请注明robots.txt是什么?robots.txt对SEO来说有什么重要的意义?
喜欢 (0)
[940834918@qq.com]
分享 (0)
Steven
关于作者:
一个互联网草根站长,曾经在2013年开创pps视频联盟平台风潮,2014年制作不报毒操作CPA广告产品静默包,培训CPA广告联盟的操作方式,2015年制作十五套CPA广告操作教程,影响人数上万。在网络营销推广上面有三年以上的经验,精通QQ、微信、贴吧、论坛等社交平台和社区引流。精通博客,论坛和单页的网站建立,熟知SEO优化和推广。拥有多年的网络营销的经验,精通视频营销推广的视频软推广和视频硬推广。拥有大型B2B网站SEO优化经验与企业网站优化经验。 目前是某网络科技公司SEO顾问及SEO项目负责人。 联系方式:QQ:2621228281 微信:hushaonan1206
发表我的评论
取消评论

表情 贴图 加粗 删除线 居中 斜体 签到

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址