1. 论坛系统升级为Xenforo,欢迎大家测试!
    排除公告

《浅谈互联网页面价值》

本帖由 乐伯2011-12-19 发布。版面名称:软文发布区

  1. 乐伯

    乐伯 New Member

    注册:
    2011-06-08
    帖子:
    183
    赞:
    0
    《浅谈互联网页面价值》这是一篇很有意思的文章,此文是百度工程师所写,讲述百度自己对于页面价值的判断,发布之初就有人预言早晚会删掉,果不其然,今天一看,原文已经没有了。

    目前来说,百度和SEOer是比较对立的,是否还记的百度站长俱乐部中,lee(吧主)不断的说,要重视用户体验,把所有问题都归结到用户体验上。

    那是因为百度还不能过多透露信息给SEOer们,只能引导人们避开这个话题。

    这么说是没错,可这所谓的体验,并不是真实用户的体验,而是百度自己的百度体验。而这个体验又是由诸多技术因素来实现的,做为SEOer来说,也必须将实际的操作落实到有理有据上,不能说什么提升用户体验就完事了。


    节选片段:
    一个页面的检索价值,大致受以下四个要素的影响:

    感兴趣的受众群大小
    该页面的稀缺程度(可替代性)
    该页面的质量高低
    该页面的时效性特征强弱

    这四种要素,简称受众,稀缺,质量和时效性。
    1. 受众
    受众群体的大小,即代表了用户检索需求的大小。评价受众的大小主要依据信息发布源的受众和信息内容本身受众两大方面。具体因素包括且不限于:
    网站忠实用户群大小

    资源分布规律

    访问热门度

    超链

    内容特征

    2. 稀缺
    对于主体内容重复的页面,我们应该评价其是否存在站点增益和内容增益,只有对于大量完全无增益的重复页面,我们才应该认为其稀缺度较低。

    3. 质量
    不能是死链、网站要有一定的稳定性、访问速度要令人满意。
    访问速度快(页面加载快/资源下载速度快)

    页面整洁干净,主体内容在显著位置。
    页面信息完整。
    页面元素丰富(文字、图片、评论、相关推荐等)

    4. 时效性
    判断页面的时效性价值,主要通过下面一些途径:

    页面本身受众是否有短时间的突增,比如超链爆发。贾君鹏的帖子就是一个典型的例子。
    描述相同事物的互联网页面是否有段时间的突增。贾君鹏事件短时间内爆发出大量相关讨论、报道,和这一事件相关的所有内容都具有了时效性属性。
    根据一个集合内的页面是否具有上述两种特征,推测该集合的时效性价值。比如魔兽世界吧经常爆出一些热门帖子,公众话题,我们推测出自魔兽世界吧的帖子其时效性“潜在价值”比较高。

    ———————————-分割线——————————————–———————–———————–

    我们发现,百度在页面价值方面有四个大方向。

    1、感兴趣的受众大小
    2、页面稀缺程度(可替代性)
    3、页面价值的高低(布局、速度、广告)
    4、该页面的实效性特征强弱

    挨个来分析,第一个感兴趣的受众大小,那么我们可以分解为以下各项结果:


    品牌性关键词搜索量(猜测,辅助性因素)–搜索引擎日志
    网址型搜索(猜测,辅助性因素)–搜索引擎日志
    用户点击数据(中等因素)–搜索引擎日志
    关键词着陆页处于整个网站的什么层级(辅助因素,是否被特别对待)–目录树
    从百度统计、百度工具条收集用户访问模式(有哪些页面时被访问的),这里举个例子,某中型门户,流量20万左右,有一半是图片频道带来的。该页面在百度site:domain.com中排第一,超过了其他重点操作的频道。(重要因素)
    外链(前期辅助因素,后期重要因素)–目前被信任的获得链接的方式越来越少,值得注意不要和“坏邻居”在一起。
    内容本身有权值(重要因素)–内容的权值,和搜索引擎基础的 向量空间算法(VSM)以及词频-逆向文件频率(TF-IDF)算法有关。

    这其中,123是用户行为,457是网站内部结构、内容因素,6是站外因素。

    用户因素是最有意思的,用过百度司南的朋友肯定知道,百度收集的数据是很全面的,包括用coolies以及搜索引擎日志(非网站日志)记录了用户前后都访问了哪些网站,记录了用户搜索某个关键词之前,还搜索过什么词。再通过百度数据中心公布的一些数据,又能够说明,百度必定是对各个领域做过分类的,那么这个领域有多少搜索需求,而某个网站在什么层级,应该给于什么权重,这个算法是必须有的。百度对站点的基础权重很看重,就是所谓的权威站点和信任页面,用户行为更多的是反映一种统计上的规模。另外由于是通过搜索引擎日志进行分析,所以基本可以确认每次百度例行更新才会采用这个参数,因为日志实际与大规模的运算的,如果运算是实时的,那么也就没必要有所谓的例行更新了(例如谷歌目前的咖啡因)。

    另外可以肯定的是,百度的词库本身肯定是经过TF-IDF计算的,不同的词汇有不同的权重。

    思路拓展:黑帽肉鸡+cookies模拟,甚至是病毒感染,以及刷流量工具(这一块是有陷阱的),伪造用户群。白帽突出品牌性的营销活动,优化网站内容本身(出发点要大致了解向量空间算法以及TF-IDF算法)。

    第二个稀缺性,稀缺性其实是容易理解的。百度既然已经在词库上做了加权和分类,内容增益是个很有意思的概念,增益体现在:1、内容经过转载更加相关。 2、网站更加被信任。 百度并不在乎原创作者是谁,因为现阶段读者关注原创作者的本来就不多,他们更关注信息本身的价值。根据实际观察,站点被信任是比较明显的内容增益类型,因为大多数站点在内容更相关上没有太多作为。(有人说采集有害,有人说采集无害,内容增益和站点增益告诉你答案:无所谓,我看的是页面价值)

    第三个页面质量的高低,这个是大家都听得较多的。


    访问速度快(页面加载快/资源下载速度快)

    页面整洁干净,主体内容在显著位置。
    页面信息完整。
    页面元素丰富(文字、图片、评论、相关推荐等)

    第四个该页面的实效性特征强弱,也是具有很大的站点属性,经常暴出实效性新闻的站点被特别针对,例如被原文中提到的魔兽世界贴吧。当然这个算法不可能是永久性的,肯定是有一个加权周期的。
    本文由最新扑克分析仪整理发布
     
  2. qindw

    qindw New Member

    注册:
    2011-03-28
    帖子:
    805
    赞:
    0
    谢谢分享学习啦。。
     
  3. 琴帝

    琴帝 New Member

    注册:
    2011-12-03
    帖子:
    55
    赞:
    0
    页面价值不错!!