1. 论坛系统升级为Xenforo,欢迎大家测试!
    排除公告

引起网站流量统计的偏差-cookie删除

本帖由 IT豪侠2009-04-20 发布。版面名称:网站运营

  1. IT豪侠

    IT豪侠 New Member

    注册:
    2009-04-14
    帖子:
    4
    赞:
    0
    站长到底该如何看待不同原理的统计数量?我无意间发现了以下这篇白皮书,觉得非常有用,和站长朋友们一起分享


    于Cookie 进行网站流量统计和广告服务统计,已经成为现代在线业务管理的重要手段。本文阐述了Cookie的基于原理和实际应用,比较了第一方Cookie和第三方Cookie存在的差别,并通过讯实网络对网路用户的实际研究,着重阐明了用户的Cookie删除行为会对网站独立用户分析及广告服务效果分析造成的统计偏差,进而提出仅仅依赖服务器端采集数据并不准确的观点。

    为了更好地理解如何评估Cookie管理,有必要解释一下Cookie的工作原理。
    1.1. 什么是Cookie?
    简单来说,Cookie就是服务器暂存在用户电脑里的资料(采用.txt格式的文本文件),这样可以方便服务器识别用户电脑的唯一性。

    当用户浏览网页时,网站Web服务器会在用户电脑的硬盘上植入一个非常小的Cookie文件。由于单个网站的所有信息,通常就被存储在一个特定的Cookie文件中(它可以记录用户的ID、密码、浏览过的网页、停留的时间等信息),因此,当用户再次访问同一网站时,Web服务器就会马上检查用户上次保留的Cookie资料,并依据Cookie里的信息识别出使用该浏览器的用户是否是重复用户。有些用户或许会注意到,当使用同一台电脑同一个浏览器再次登陆某网站时,会发现不必输入用户名和密码就已经登录了,这其实就是cookie的功用了。
    Cookie浏览器应用管理
    Cookie是被浏览器使用的文件,它与操作系统、ISP提供商和互联网没有直接的关联。Cookie一般保存在IE 浏览器和Firefox浏览器的信息存储文件夹中。

    值得一提的是,每个浏览器只有一个Cookie存储文件夹。而IE和Firefox采用不同路径的Cookie存放文件夹。因此,某一访问同一网站但采用不同类型浏览器的用户,会在电脑中存放两个不同路径的Cookie。此外,每次Windows登录的Cookie也不同。例如,共享同一台XP电脑的两个独立登录的用户,会得到不同的Cookie存放文件夹。
    Cookie是一个事件处理对象
    Cookie是一个动态的事件处理对象,每当用户与网站发生交互动作的时候,它都会被网站实时的读取并修改。一旦出现用户的页面需求,网站服务器都会要求浏览器上传相应的Cookie信息,这通常叫做“Cookie获取”事件。当网站发起“Cookie获取”事件时,一般会有三种浏览器响应方式:
    • 第一种方式:如果一个Cookie处在被开启的Cookie文件夹内且没有过期,那么,浏览器就会返回该Cookie文件存储的所有信息(Cookie 通常会关联某个特定的域名,但也有被设置成关联一个特定的页面或者网址,而这种情况并不常见)。一般来讲,这个动作会保留通过浏览器上传给网站服务器的唯一识别符。
    • 第二种方式:如果一个Cookie不在被开启的Cookie文件夹内或者已经过期了,那么Cookie存储的信息就不会从浏览器传递到网站服务器。于是,网站服务器就会要求浏览器设置一个全新的Cookie(“Cookie设置”事件),而新的Cookie也会要求网站建立一个与之对应的新的唯一识别符。
    • 第三种方式:如果浏览器被设置为拒绝接收Cookie状态,那么就不会有Cookie信息被网站服务器发现。这时,尽管网站可能会再一次发出要求浏览器设置新的Cookie的指令,但浏览器将不予理会。
    Cookie应用
    Cookie是构建在HTTP协议之上的一个应用,但目前没有出台具体针对Cookie设置、跟踪等问题的标准,这就导致Cookie应用的多样性和随意性。目前,最为典型的Cookies应用是,网站保留用户的初次登录信息,并在用户每次返回时,能自动“记住”用户,免去用户再次输入ID、密码的麻烦。 另一个重要应用是,网站保留用户的浏览行为,如浏览过的网页、停留的时间等信息,这样,当用户再次来到该网站时,网站通过读取Cookies,得知用户的相关信息,就可以做出相应的动作。
    Cookie还可以跨网站应用。比如,用户登录某一网站浏览信息,而在该网站上同时还有许多来自各广告网站推送的广告信息。这些广告信息由第三方网站提供,当你点击某广告时,与该广告相关联的第三方网站就会通知你的浏览器设置与该网站相联系的Cookie,第三方网站通过Cookie跟踪用户行为,进而可以找到最佳的广告投放站点。
    Cookie删除
    Cookie删除,是指从用户电脑中删除Cookie。Cookie删除方式包括:
    • 用户手工删除Cookie(从该用户的Cookie文件夹中);
    • 使用诸如IE浏览器的“Internet选项”来删除Cookie;
    • 使用安全保护程序来清除Cookie.
    用户可以通过设置浏览器让其处于“拒绝接收Cookie”状态。互联网广告管理局(IAB)发布的相关研究显示,全球有12%的用户拒绝接受Cookie。由于我们讨论的是这个动态的服务在服务器日志中如何夸大了独立用户,所以浏览器设置为拒绝接收Cookie的用户不包含在我们的研究范畴之内。

    以基于服务器的统计方法来看,Cookie删除的重要影响是,单个用户可能被误认为是多个访问者。下面的例子是说一个月内访问了某网站四次,但这期间重设了两次Cookie的用户在服务器中可能被计数了三次,故网站将这个独立用户当作了三个独立用户来看待。
    第一方Cookie vs. 第三方Cookie
    与某一网站直接传送页面请求相联系的Cookies被认为是第一方Cookie,这样的Cookie通常被用来改善某网站的用户体验。有时,用户明知存在第一方Cookie,但他仍然会浏览该网站。

    第三方Cookie通常在不引人注意的地方起作用,它常与另一网站Web页面内的某个目标相联系,并不是通过用户直接请求。这些Cookie可能与广告,嵌入式内容等者丰富的媒体应用相联系。

    第三方Cookie可能在网页浏览的中间活动过程中被设置,比如在浏览由第三方提供的呈现于某页面的广告的过程中就很有可能设置了一个第三方Cookie。第三方Cookie的很多应用为在广泛的网络中进行用户追踪提供了手段。很多第三方Cookie被认为是“跟踪Cookie”,这个词带有一点侵犯隐私的意味。这因为如此很多第三方Cookie应用管理程序会自动标记或者清除起跟踪作用的Cookie。
    讯实网络的研究方法论
    研究概述
    本研究旨在确定:用Cookie的唯一识别符来测量某个网站的用户数量,会存在多大的统计偏差?

    本研究的目的是为了得到重设Cookie用户的总体比例,研究对象是独立用户,而不是某个网站或Cookie。

    一般来讲,有两种类型的Cookies识别方式:
    • Cookie登录识别:用户须登录验证,Cookies才可识别出用户的唯一识别符
    • Cookie被动识别:用户无须登陆验证,Cookies即可识别出用户的唯一识别符
    以上两种方式的主要区别在于,一旦发现没有Cookies信息对应用户的页面需求,网站服务器会做出如何反应?
    • 对于登陆Cookie识别来讲,网站会发送一个通用的表格,或者提示用户重新登录,之后网站会重设用户的Cookies唯一识别符。
    • 对于被动Cookie识别来讲,由于缺少有效的登录验证来重建用户的唯一识别符,因此,假如网站未发现对应用户网页需求的识别符,那么网站将会重设一个新的唯一识别符。
    本研究通过评估被动Cookie 识别的一致性来估计Cookie重设所造成的统计偏差。需要强调的是,那些设置成拒绝接收Cookies的电脑不在本次研究对象范围内。
    研究假设
    为了评估每个Cookie的“唯一性”,讯实网络对被测对象进行了长时间的跟踪观测。

    本次研究基于的基本假设是,被测对象最初的Cookie识别符一直存在,观测的第一个值应该等于观测的最后一个值。但如果一个新的观测出现在这段时间内,并且在接下来的观测期间一直出现,则认为最初的cookie没有被保存下来。

    据此,将调查对象分为两组:一组是Cookie标识被保存的那些调查对象,另一组是没有被保存的调查对象。
    Cookie删除行为分析
    第一方Cookie删除
    以讯实网络的样本库为基础,发现每台电脑平均有2.5个不同的Cookie。此数据表明,根据站服务器日志所统计的独立用户数可能是实际的2.5倍,即夸大了150%。实际的高估程度依赖于访问该网站的频率。访问该网站越频繁,夸大的程度就越高。
    数据来源:© 2009 讯实网络 ComRatings

    由上表可以看出,大约有31%的网民重设过第一方Cookie。在这部分用户中,平均每个站点有4.7个不同的Cookie。在那些重设Cookie的电脑中,重设一次的用户最多(占总数的16%)。然而,重设次数超过4次的用户尽管只占7%,但其重设Cookies数量的占比却高达35.3%。也就是说,这一小部分用户的行为是夸大网站独立用户数的主要原因。
    第三方Cookie删除
    通过对第三方Cookie的分析发现,平均每台电脑有2.6个不同的Cookies,这个结果和第一方Cookie结果差不多。这一发现也彻底颠覆了先前的观念。过去,人们多以为第三方Cookie的删除率应该比第一方Cookie的删除率高。这是因为第三方Cookie更具隐私侵犯性,因此,用户更倾向于开启安全保护程序删除第三方Cookie。

    为进一步分析此问题,讯实网络比较了开启安全保护程序的电脑的第一方Cookie和第三方Cookie的删除率。
    安全保护程序对Cookie删除的影响
    在所监测的样本PC中,尽管第一方Cookie和第三方Cookie的删除率相近,讯实网络对开启安全保护程序(SPP)电脑的Cookie的解释揭示了第一方Cookie和第三方Cookie的区别。

    开启SPP后,平均每台电脑有2.5个第一方Cookie,重设次数超过4次的用户电脑仅占7.0%,却包含了近36%的第一方Cookie
    然而,从开启SPP的电脑中又可以看出,第三方Cookie的删除率明显高得多,平均每台电脑大约有3个Cookie。如此高的删除率,原因之一是由于用户的重度删除(4次以上重设Cookie)行为所致。

    结论
    讯实网络的研究揭示了如下关键发现:
    • 约有30%左右的用户在一个月内重设过他们的第一方Cookie。
    • 第一方cookie和第三方cookie删除率非常相似,一个月内平均每台电脑中有2.5个第一方Cookie,而第三方Cookie有2.6个。
    • 在安装了安全保护程序的电脑中,第三方Cookie删除率要比第一方Cookie删除率高一些。
    • 用户的重度Cookie删除行为(4次以上重设Cookie)对夸大服务器日志的用户数统计有重大影响。
    • 由于较高的Cookie删除率,如果用由以网站服务器日志端测量一个网站的独立用户,其统计结果将是实际的2.5倍。类似的,用于跟踪用户到达率和频次的在线营销广告服务系统统计出的结果可能是实际的2.6倍。
    Cookie删除的影响是深远的,它对网站用户分析及广告服务效果分析都有影响,这些影响最终导致了仅仅依赖从服务器端采集数据而产生的统计偏差。

    Cookie删除导致了下述网站用户度量的不精确:
    • 夸大了独立用户数
    • 低估了重复访问人数
    • 低估了转换率
    Cookie删除导致了下述广告服务度量的不精确:
    • 高估了到达率
    • 低估了访问频次


    具体请参考www.comratings.com
     
  2. xiao524zhang

    xiao524zhang New Member

    注册:
    2009-03-19
    帖子:
    20
    赞:
    0
    介绍的比较全面哈,分享下!
     
  3. xunlei

    xunlei New Member

    注册:
    2008-09-22
    帖子:
    526
    赞:
    0
    真的是这样吗?