1. 论坛系统升级为Xenforo,欢迎大家测试!
    排除公告

简化的HITS算法与原理示例

本帖由 qingqing37212011-10-06 发布。版面名称:网站运营

  1. qingqing3721

    qingqing3721 New Member

    注册:
    2011-02-04
    帖子:
    394
    赞:
    0
    HITS算法,网上有比拟详细介绍的文章并不多。思亿欧(seo)之前有一篇关于HITS算法的文章是,HITS搜索引擎算法的研究。回到主题,从如今搜索引擎算法来看,HITS算法扮演着很重要的地位。是比拟威望和运用广泛的算法之一。HITS算法要比PageRank算法复杂些,但可以用简单的方式描述其实质,同时也会给出其工作原理的示例。


    HITS算法,首先要做的是判别与主题相关的网页集合,要区分为每个提交给搜索引擎的用户查询判定出一个主题相关网页集。如果网页满足上面的条件,便可判定它们是与主题相关的:


    a)这些网页属于一个网页集合,且网页集合中含有与用户查询最相关的文本。


    b)这些网页链向满足a条件的网页,或是满足a条件的网页链向该网页。


    这里有一个重要的链接假设是局部基于链接内容假设的。也就是说,如果一个网页与主题相关的网页有链接关系,即便它并不含有与主题相婚配的文本信息(至多从用户查询文本来看是这样的),该网页也可能是与主题相关的。


    即便是依据文本内容判定出来的相关网页,有些时候也并不相关,因为在理论中很难判定主题相关性,尤其是那些本身就有歧义的查询。一个经典的例子就是美洲虎。用户可能是想要查询动物,或以该词命名的汽车的相关信息。结果,返回的与主题相关的网页却是不全的,且只是局部相关的。但Kleinberg的实验标明,这并不是一个严重问题。


    算法的第二局部是为主题相关集合中的每个页面算出其中心度和威望度。算法运用了与PageRank算法中相似的投票办法,同时也采用了逆向投票机制,使得每个网页都可以给链向它的网页投票。HITS算法的结果是为每个网页赋予一个中心度和一个威望度,而不是像前面所说的那样,只是将它们区分为中心网页和威望网页。


    简化的HITS算法:


    第一阶段:找出与查询相关或主题相关的网页集合


    1.依据搜索引擎中用户输入的文本查询,找出t个与该查询最为相关的文本网页,其中t是预先设定的参数;


    2.向集合中添加一切与婚配网页存在着链接关系(链向或许被链向)的网页;


    3.移除一切的站内链接;


    第二阶段:初始化每个网页的中心度和威望度


    4.为每个网页赋予一个威望权重X和中心权重y,如X=y=1;


    第三阶段:重复投票过程


    5.统计每个网页的入链网页的中心度之和,计算出每个网页的威望权重;


    6.统计每个网页的出链网页的威望度之和,计算出每个网页的中心权重;


    7.将一切网页的中心度都除以最高中心度以将其标准化,将一切网页的威望度都除以最高威望度以将其标准化;


    8.重复第5步到第7步n次,而Kleinberg在一些言论当中是建议重复20次;


    第四阶段:报告结果


    9.返回一张排好序的网页列表,列表中的网页有些具有较高的中心度,有些则具有较高的威望度,这样用户自己就可以选出他们认为是最好的那品种型的网页(Kleinberg建议选择前510个中心网页和前5-10个威望网页)。
    文章由 feishixiaopu.jar5.cn 菲诗小铺旗舰店 整理,收集辛苦,希望能保留出处,谢谢斑竹大哥。
     
  2. bjxl002

    bjxl002 涵轩子

    注册:
    2010-11-26
    帖子:
    232
    赞:
    0
    这个比较复杂啦
     
  3. hjm1992

    hjm1992 New Member

    注册:
    2011-08-11
    帖子:
    780
    赞:
    0
  4. xiaoxue168

    xiaoxue168 New Member

    注册:
    2011-06-29
    帖子:
    1,383
    赞:
    0
    很不错,过来看看。