王大君：搜索引擎蜘蛛什么时候来过你的网站

ajun380 · 2010-11-23

网站的排名、收录都要经常关注搜索引擎，大家经常会谈到蜘蛛抓取，那么怎么确定蜘蛛有没有来过你的网站呢？

通常网站的日志会告诉我们这些信息，这里以王大君网络营销博客为例。笔者使用的是虚拟空间，在笔者网站根目录下的log文件夹里面有一些ex日期.log文本文件。在这里王大君提醒大家，如果在你的log文件夹里没有文件，可能需要你到虚拟空间后台先下载日志文件到FTP空间，也就是下载到你的网站根目录的log文件夹时里。我们选择ex101116.log下载到本地，这个文件就是王大君网络营销博客网站2010年11月16日的日志，用记事本打开，在日志文件中搜索“spider”这个词，也就是蜘蛛的意思。有可能会发现以下的代码：

google蜘蛛： googlebot

百度蜘蛛：baiduspider

yahoo蜘蛛：slurp

soso蜘蛛：sosospider

msn蜘蛛：msnbot

有道蜘蛛：YodaoBot和OutfoxBot

搜狗蜘蛛：sougouspider

当然，前提是这些蜘蛛来过你的网站，否则是没有这些代码的。

我们选择一条百度蜘蛛代码“baiduspider”的记录，看下里面的代码：

下面我来解释下这段代码：

1、2010-11-15 18:18:10 是百度蜘蛛来的日期和时间。

2、 GET /post/5.html是百度蜘蛛访问的页面 get表示获取的意思。

3、80是端口

4、220.181.108.166是百度蜘蛛的ip地址

7、200表示抓取成功，这是百度蜘蛛爬行后返回的代码。

另外还有一些其他的代码：

2xx 成功

200 正常;请求已完成。

201 正常;紧接 POST 命令。

202 正常;已接受用于处理，但处理尚未完成。

203 正常;部分信息 — 返回的信息只是一部分。

204 正常;无响应 — 已接收请求，但不存在要回送的信息。

3xx 重定向

301 已移动 — 请求的数据具有新的位置且更改是永久的。

302 已找到 — 请求的数据临时具有不同 URI。

303 请参阅其它 — 可在另一 URI 下找到对请求的响应，且应使用 GET 方法检索此响应。

304 未修改 — 未按预期修改文档。

305 使用代理 — 必须通过位置字段中提供的代理来访问请求的资源。

306 未使用 — 不再使用;保留此代码以便将来使用。

4xx 客户机中出现的错误

400 错误请求 — 请求中有语法问题，或不能满足请求。

401 未授权 — 未授权客户机访问数据。

402 需要付款 — 表示计费系统已有效。

403 禁止 — 即使有授权也不需要访问。

404 找不到 — 服务器找不到给定的资源;文档不存在。

407 代理认证请求 — 客户机首先必须使用代理认证自身。

410 请求的网页不存在（永久）;

415 介质类型不受支持 — 服务器拒绝服务请求，因为不支持请求实体的格式。

5xx 服务器中出现的错误

500 内部错误 — 因为意外情况，服务器不能完成请求。

501 未执行 — 服务器不支持请求的工具。

502 错误网关 — 服务器接收到来自上游服务器的无效响应。

503 无法获得服务 — 由于临时过载或维护，服务器无法处理请求。

关于日志的分析今天我们就说到这里，如果大家有其他的见解，欢迎交流讨论。

本文作者：王大君。

door2002 · 2010-11-23

是的啊，大概就能知道你的网站什么时候来过啦

wb117500438 · 2010-11-23

没有来过我的。

chinaflightcase · 2010-11-23

瞧瞧看看咯

door2002 · 2010-11-23

我的好像还没有来过的呢，真的啊

论坛

王大君：搜索引擎蜘蛛什么时候来过你的网站

ajun380 New Member

door2002 New Member

wb117500438 New Member

chinaflightcase New Member

door2002 New Member

快捷检索

王大君：搜索引擎蜘蛛什么时候来过你的网站

ajun380 New Member

door2002 New Member

wb117500438 New Member

chinaflightcase New Member

door2002 New Member