1. 论坛系统升级为Xenforo,欢迎大家测试!
    排除公告

神奇的robots见证网站的兴衰

本帖由 萨科奇2011-08-02 发布。版面名称:软文发布区

  1. 萨科奇

    萨科奇 New Member

    注册:
    2011-05-13
    帖子:
    1,031
    赞:
    0
     很早就答应给啊彬写一篇文章的,感谢他对我的一个帮助,但是一直到现在也没有写出来,前几天看到卓少问了一个问题关于robots的问题,给大家整理了一下robots的一些情况。robots.txt文件放在网站根目录下,是搜索引擎中访问网站的时候要查看的第一个文件。当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。每个网站都应该有一个robots,它告诉搜索引擎我的网站里有哪些东西是不允许抓取的,有哪些页面是欢迎爬行与抓取。

      robots的几种作用:

      1.屏蔽所有的搜索引擎抓取信息,如果你的网站只是你的私密性的网站,不想太多的人知道的话,可以利用robots屏蔽掉所有的搜索引擎,例如你写的私人博客。你就可以把搜索引擎全都屏蔽掉

      User-agent: *

      Disallow: /

      2.如果你只想某一个搜索引擎抓取你的信息,这个时候就可以用robots进行设置,例如:我只想我的网站被百度这个收录,而不想被别的搜索引擎收录。就可以利用robots进行设置

      User-agent: Baiduspider

      Allow:

      User-agent: *

      Disallow: /

      3.可以利用各种通配符对网站进行相对应的调配,例如我不想网站抓取我的所有图片,这个时候就可以运用$来进行设置。一般我们常见的图片的格式是BMP、JPG、GIF、JPEG等格式。这个时候设置就是:

      User-agent: *

      Disallow: /.bmp$

      Disallow: /.jpg$

      Disallow: /.gif$

      Disallow: /.jpeg$

      4.还可以利用*来屏蔽掉相关的URL,有些网站不允许搜索引擎抓取动态地址的时候可以利用这个*通配符来进行匹及时雨配设置。一般情况下动态URL的有一个特点就是有“?”这个时候我们就可以利用这个特性来进行匹配的屏蔽:
    www.zgad.net
      User-agent: *

      Disallow: /*?*

      5.如果网站改版了,整个文件夹都没有了的时候,这个情况下就要考虑屏蔽掉整个文件夹。我们可以运用robots来对这整个的文件夹进行屏蔽,例如网站里的ab文件夹因改版全都给删掉了,这个时热血传奇加速器候就可以这样子设置:

      User-agent: * www.lzcj.net

      Disallow: /ab/

      6.如果网站里有一个文件夹不想被收录,但是在这个文件夹里面有一个信息是允许被收录。那可以运用robots的allow进行设置。例如我网站里ab文件夹不允许搜索引擎抓取,但是在ab文件夹里面又有一个信息cd是允许被抓取的,这个时候就可以运用robots进传奇加速器行设置:

      User-agent: *

      Disallow: /ab/

      Allow:/ab/cd

      7.可以在robots里定义出网站地图的位置,有利于网站的收录。

      sitemap:<网站地图的位置>

      8.有的时候你会发现我的网站里设置了robots但是还发现其收录了这个URL地址,这个的原因是因为这个搜索传奇外传私服[/引擎的蜘蛛是通过URL爬行到网页的一般 google抓取这样子的URL的时候是不带title与描述的,但是百度抓取这个URL会带上title与描述,所以有很多有人会说我设置了 robots但是没有效果。实际情况是抓取了这个链接而没有收录这个页面内容。
     
  2. 877813751

    877813751 New Member

    注册:
    2011-07-23
    帖子:
    176
    赞:
    0
    谢谢你的分享