网站SEO最常用的 robots.txt使用教程

首先,我来介绍一下什么是robots.txtrobots.txt是搜索引擎中访问网站的时候要查 看的第一个文件。Robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是 否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有 被口令保护的页面。最后,robots.txt必须放置在一个站点的根目录下。

  大家可以参考一下谷歌百度腾讯的robots写法:

  http://www.google.com/robots.txt

  http://www.baidu.com/robots.txt

  http://www.qq.com/robots.txt

  大家了解完robots.txt后,那么我们可以用robots.txt来做什么?

  1、用robots.txt屏蔽相似度高的页面或没内容的页面。

  我们知道,搜索引擎收录网页后,会对网页进行“审核”,而当两个网页的相似度很高时,那么搜索引擎就会删除掉其中一个,并且会降低一点你网站的得分。

  假设以下这两个链接,内容其实差不多,那么第一个链接就应该屏蔽掉。

  /XXX?123

  /123.html

  像第一个的链接这样的链接非常多,那么我们要怎么屏蔽呢?其实只要屏蔽/XXX?就可以屏蔽所有的链接了。

  代码如下:

  Disallow: /XXX?

  同理,一些没有内容的页面我们也可以利用相同的办法将其屏蔽掉。

  2、用robots.txt屏蔽多余的链接,一般保留静态的链接(既HTML、htm、shtml等)。

  由于网站中经常会出现多个链接指向同一个页面的情况,而这样会让搜索引擎对网站的友好度降低。为了避免这一个情况,我们就可以通过 robots.txt把 非主要的链接去掉。

  比如以下两个链接指向同样的页面:

  /OOO?123

  /123.html

  那么我们就应该去掉第一个垃圾,代码如下:

  Disallow: /OOO?123