1. 论坛系统升级为Xenforo,欢迎大家测试!
    排除公告

判断冒充Baiduspider、Googlebot的抓取

本帖由 乐伯2011-12-07 发布。版面名称:软文发布区

  1. 乐伯

    乐伯 New Member

    注册:
    2011-06-08
    帖子:
    183
    赞:
    0
    我们要对日志文件进行分析,为了保证数据的准确性,在进行分析之前我们要对数据进行去噪,现在有的采集软件都会冒充百度或者Googlebot来抓取,这样数据会干扰到我们分析研究准确性,在分析之前把这些冒充的爬虫去掉。

    验证百度
    方法1——Linux环境下
    您可以使用host ip命令反解ip来判断Baiduspider的抓取是否冒充。Baiduspider的hostname以*.baidu.com的格式命名,非*.baidu.com即为冒充。

    $ host 123.125.66.120
    120.66.125.123.in-addr.arpa domain name pointer baiduspider-123-125-66-120.crawl.baidu.com.

    方法2——windows环境下
    开始->运行->tracert 123.456.78.90(即抓取您网站的IP地址)
    或者开始->运行->nslookup 123.456.78.90
    查看name信息,未标识为Baiduspider即为冒充。

    验证 Googlebot

    您可以验证实际访问您服务器的漫游器是否是 Googlebot,只要使用反向 DNS 查找,验证该名称是否在 googlebot.com 域名中,然后使用该 Googlebot 名称执行正向 DNS 查找就可以了。 如果您担心垃圾邮件发送者或其他捣乱者(虽然声称是 Googlebot)访问您的网站,那么此验证会很有用。
    例如: > host 66.249.66.1
    1.66.249.66.in-addr.arpa domain name pointer
    crawl-66-249-66-1.googlebot.com.
    > host crawl-66-249-66-1.googlebot.com
    crawl-66-249-66-1.googlebot.com has address 66.249.66.1
    Google 不会张贴供网站管理员添加到白名单的公共 IP 地址列表。 这是因为这些 IP 地址的范围可能发生变化,从而导致对这些地址进行硬编码的任何网站管理员遇到问题。 确定访问来自 Googlebot 的最好办法是使用 User-agent (Googlebot)。

    以上两个方法分别来自百度和谷歌官方,都是同个道理。

    补充一下,假爬虫的一般特征(个人观点,希望高手补充。)
    首先可以从IP地址的特点上来判断,
    1、如国平老师说过“爬虫对某一个站的访问,特定时间内的IP段都会集中在某一个C段。这是由搜索引擎的原理决定的,感兴趣的朋友可以查询相关书籍。知道这个特征有时候可以用得着。”,根据这个特点来判断。
    2、从IP地址上来判断,如百度爬虫的IP是属于美国或者俄罗斯等,那么这个就有很大嫌疑了。

    如果觉得有嫌疑那就直接用上面的命令进行检验,马上就可以得出结果。

    本文由www.huojugaokeji.com整理发布
     
  2. wangzhuan2011

    wangzhuan2011 效益NO1

    注册:
    2011-11-16
    帖子:
    87
    赞:
    0
    看看看啊··················
     
  3. 623diantai

    623diantai New Member

    注册:
    2011-12-06
    帖子:
    160
    赞:
    0
    路过,,不了解。。