1. 论坛系统升级为Xenforo,欢迎大家测试!
    排除公告

简单robots.txt规则编写及应用

本帖由 萨达姆2011-10-05 发布。版面名称:软文发布区

  1. 萨达姆

    萨达姆 New Member

    注册:
    2011-04-11
    帖子:
    801
    赞:
    0
    在网站优化系列中,一个网站的robots.txt文件是必不可少的。很多seo会忽略了robots.txt的重要性,网站上出现了一些404页面或者不想让搜索引擎了解的内容的时候,就会运用到它了。我们下面就谈谈robots.txt一些最实用、最简单的应用。

    常见搜索引擎名称:

    Baiduspider 百度;

    Scooter Vista;

    ia_archiver Alexa;

    Googlebot 谷歌;

    FAST-WebCrawler Fast;

    MSNBOT Msn

    我们常见的语法中:Disallow该项定义域用来描述希望不被索引的URL路径;allow该项定义域用来描述可以被索引的URL路径,但是由于缺省值是允许索引所以该项定义域会很少使用到。例如我们如果要禁止百度指数抓取,那么我们该怎么写呢?如下:

    User-agent:Baiduspider

    Disallow:/

    讲解:这里user-agent是针对百度蜘蛛的,而谷歌是没有蜘蛛的,谷歌的搜索引擎叫机器人,而disallow禁止了所有“/”目录下的文件,这里的斜杠是根目录(一般是wwwroot下的文件)。

    我们如果禁止所有搜索引擎,唯独百度可以抓取改怎么写呢?如下:

    User-agent:Baiduspider

    Disallow:

    User-agent: *

    Disallow: /

    讲解:这里网站主要针对百度说,我对你是开放的,而对其他所有的除百度意外的搜索引擎都对他们不开放我的目录。这里的“*”是指所有,接下来的disallow禁止了所有根目录的索引。

    我们如果禁止搜索引擎读取某个文件夹,如何写呢?如下:

    User-agent:*

    Disallow:/a/

    Disallow:/abc/

    Disallow:/data/

    讲解:这里网站说明了针对所有的搜索引擎禁止访问我的a文件里面的任何文件,以及abc文件和data文件。这是如果你想禁止包含该文件名以及以该文件名为路径的话,将后面的斜杠去掉,如下:

    User-agent:*

    Disallow:/a

    Disallow:/abc

    Disallow:/data

    讲解:这里不光禁止了该文件,同时也禁止以该文件命名的url路径对搜索引擎的索引。一般情况下很少运用到。

    现在我们有很多网站不能实现静态,很多网站都做了伪静态,但是有部分的动态路径仍被搜索引擎索引了怎么办sf123.com呢?我们可以添加如下规则:

    User-agent:*

    Disallow:/*?*

    讲解:这里的“*”代表所有带1.76卓越大极品有“?”的路径将会被禁止索引,有的可能变量不是“?”而是“$”,同样道理将“?”替换成“$”就能实现了。

    以上我说的这几种都是我们最常见以及最容易忽略的问题。一个好robots.txt规则就能为网站加分,如果没有王者传奇写好很可能会搜索引擎不抓取。只要我们做好每个小细节的优化,网站的用户体验将会越来越好。
     
  2. zhihui42585

    zhihui42585 New Member

    注册:
    2011-06-29
    帖子:
    1,089
    赞:
    0
    感觉很好哦,我过来支持一下。