1. 论坛系统升级为Xenforo,欢迎大家测试!
    排除公告

robots.txt与sitemap的运用

本帖由 tangkai2011-04-09 发布。版面名称:软文发布区

  1. tangkai

    tangkai New Member

    注册:
    2011-02-09
    帖子:
    529
    赞:
    0
    首先我先讲解一下什么是robots.txt,robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。Robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。



      然而很多人都知道有robots这回事,却不知道应该如何下手,今天我说下如何来写robots.txt 首先你要想一下那些网站目录是不想被搜索蜘蛛给抓取的,哪些是需要被抓取的,这个很重要,如果乱写robots有可能会把屏蔽网站给搜索引擎收录的。



      robots.txt文件一定要写在网站的根目录上面,例如:



      www.***com/robots.txt

      而不能这样

      www.***.com/seo/robots.txt

      记得一定要在根目录就对了,然后里面的写法有两条

      User-Agent: 适用下列规则的漫游器

      Disallow: 要拦截的网页

      User-Agent: Googlebot(baiduspider)这个就是谷歌(百度)的蜘蛛

      Disallow: /seo



      这样写的意思就是说我不想google或者百度的蜘蛛来抓取我seo这个文件夹里面的东西,*的话就代表全部。如果你建立一个空的或者不建立robots的话,该网站的全部内容都会搜索引擎所收录,然后很多人就会问了,网站不是被收录的越多越好吗?



      我就打个比方吧,你的网站生成静态,然而之前的动态又还在,蜘蛛就是抓取两个同时收录,然后搜索引擎就会认为两个标题相同的文章出现在同一网站的话就会认为你是在作弊了,有可能会被降权。



      sitemap(网站地图)



      主要是因为很多网站的内容都没有其他链接,为了把这些链接更好的连接起来,让蜘蛛能抓取更多的资源。如果是谷歌的话,大家可以注册个管理员工具,生成的XML文件自己提交给谷歌,百度没有管理员工具的话就可以通过在robots.txt里面写Sitemap



      写法如下:

      Sitemap:http://www.***.com/sitemap.xml

      Sitemap:http://www.***.com/sitemap.txt

      Sitemap:http://www.***.com/sitemap.html

      这三种形式都可以,一般自动都会生成xml,如果不会生成sitemap可以去网上找下工具或者使用一些开源的cms都会有自带的!