我们要对日志文件进行分析,为了保证数据的准确性,在进行分析之前我们要对数据进行去噪,现在有的采集软件都会冒充百度或者Googlebot来抓取,这样数据会干扰到我们分析研究准确性,在分析之前把这些冒充的爬虫去掉。 验证百度 方法1——Linux环境下 您可以使用host ip命令反解ip来判断Baiduspider的抓取是否冒充。Baiduspider的hostname以*.baidu.com的格式命名,非*.baidu.com即为冒充。 $ host 123.125.66.120 120.66.125.123.in-addr.arpa domain name pointer baiduspider-123-125-66-120.crawl.baidu.com. 方法2——windows环境下 开始->运行->tracert 123.456.78.90(即抓取您网站的IP地址) 或者开始->运行->nslookup 123.456.78.90 查看name信息,未标识为Baiduspider即为冒充。 验证 Googlebot 您可以验证实际访问您服务器的漫游器是否是 Googlebot,只要使用反向 DNS 查找,验证该名称是否在 googlebot.com 域名中,然后使用该 Googlebot 名称执行正向 DNS 查找就可以了。 如果您担心垃圾邮件发送者或其他捣乱者(虽然声称是 Googlebot)访问您的网站,那么此验证会很有用。 例如: > host 66.249.66.1 1.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-1.googlebot.com. > host crawl-66-249-66-1.googlebot.com crawl-66-249-66-1.googlebot.com has address 66.249.66.1 Google 不会张贴供网站管理员添加到白名单的公共 IP 地址列表。 这是因为这些 IP 地址的范围可能发生变化,从而导致对这些地址进行硬编码的任何网站管理员遇到问题。 确定访问来自 Googlebot 的最好办法是使用 User-agent (Googlebot)。 以上两个方法分别来自百度和谷歌官方,都是同个道理。 补充一下,假爬虫的一般特征(个人观点,希望高手补充。) 首先可以从IP地址的特点上来判断, 1、如国平老师说过“爬虫对某一个站的访问,特定时间内的IP段都会集中在某一个C段。这是由搜索引擎的原理决定的,感兴趣的朋友可以查询相关书籍。知道这个特征有时候可以用得着。”,根据这个特点来判断。 2、从IP地址上来判断,如百度爬虫的IP是属于美国或者俄罗斯等,那么这个就有很大嫌疑了。 如果觉得有嫌疑那就直接用上面的命令进行检验,马上就可以得出结果。 本文由www.huojugaokeji.com整理发布