判断冒充Baiduspider、Googlebot的抓取

乐伯 · 2011-12-07

我们要对日志文件进行分析，为了保证数据的准确性，在进行分析之前我们要对数据进行去噪，现在有的采集软件都会冒充百度或者Googlebot来抓取，这样数据会干扰到我们分析研究准确性，在分析之前把这些冒充的爬虫去掉。

验证百度
方法1——Linux环境下
您可以使用host ip命令反解ip来判断Baiduspider的抓取是否冒充。Baiduspider的hostname以*.baidu.com的格式命名，非*.baidu.com即为冒充。

$ host 123.125.66.120
120.66.125.123.in-addr.arpa domain name pointer baiduspider-123-125-66-120.crawl.baidu.com.

方法2——windows环境下
开始->运行->tracert 123.456.78.90(即抓取您网站的IP地址)
或者开始->运行->nslookup 123.456.78.90
查看name信息，未标识为Baiduspider即为冒充。

验证 Googlebot

您可以验证实际访问您服务器的漫游器是否是 Googlebot，只要使用反向 DNS 查找，验证该名称是否在 googlebot.com 域名中，然后使用该 Googlebot 名称执行正向 DNS 查找就可以了。如果您担心垃圾邮件发送者或其他捣乱者（虽然声称是 Googlebot）访问您的网站，那么此验证会很有用。
例如： > host 66.249.66.1
1.66.249.66.in-addr.arpa domain name pointer
crawl-66-249-66-1.googlebot.com.
> host crawl-66-249-66-1.googlebot.com
crawl-66-249-66-1.googlebot.com has address 66.249.66.1
Google 不会张贴供网站管理员添加到白名单的公共 IP 地址列表。这是因为这些 IP 地址的范围可能发生变化，从而导致对这些地址进行硬编码的任何网站管理员遇到问题。确定访问来自 Googlebot 的最好办法是使用 User-agent (Googlebot)。

以上两个方法分别来自百度和谷歌官方，都是同个道理。

补充一下，假爬虫的一般特征（个人观点，希望高手补充。）
首先可以从IP地址的特点上来判断，
1、如国平老师说过“爬虫对某一个站的访问，特定时间内的IP段都会集中在某一个C段。这是由搜索引擎的原理决定的，感兴趣的朋友可以查询相关书籍。知道这个特征有时候可以用得着。”，根据这个特点来判断。
2、从IP地址上来判断，如百度爬虫的IP是属于美国或者俄罗斯等，那么这个就有很大嫌疑了。

如果觉得有嫌疑那就直接用上面的命令进行检验，马上就可以得出结果。

本文由www.huojugaokeji.com整理发布

wangzhuan2011 · 2011-12-07

看看看啊··················

623diantai · 2011-12-07

路过，，不了解。。

论坛

判断冒充Baiduspider、Googlebot的抓取

乐伯 New Member

wangzhuan2011 效益NO1

623diantai New Member

快捷检索

判断冒充Baiduspider、Googlebot的抓取

乐伯 New Member

wangzhuan2011 效益NO1

623diantai New Member