1. 论坛系统升级为Xenforo,欢迎大家测试!
    排除公告

对搜索结果排序的两种算法

本帖由 qingqing37212011-09-06 发布。版面名称:软文发布区

  1. qingqing3721

    qingqing3721 New Member

    注册:
    2011-02-04
    帖子:
    394
    赞:
    0
    任何一个搜索引擎的目的就是更疾速的响运用户的搜索,把满足用户需求的搜索结果反馈给搜索用户。能否把与用户检索需求最相关的高质量文档纳入结果排序的后面是权衡搜索引擎功用的关键技术之一。Google最成功的地方在于应用PageRank对Google排名结果排序,让好的结果排在后面,从而提高了检索质量。


    目前,不同的搜索引擎运用了不同的相关度排序方法。比拟流行的有两类:词频统计法,即网页文档中出现查询词的频率越高,其排序就越靠前;超链接分析法,即一个网页被链接的次数越多而且链接的站点越威望就说明此网页的质量越高。此外,还有点击率法,即网页被点击的次数越多,相关度越高;付费竞价法,以网站付费的多少来决议排序前后。


    1.词频统计法


    词频统计法也就是向量空间模型采用的相似度计算方法。许多搜索引擎都以索引项的词频和位置作为相关度的判定标准,采用前述的词频加权方法来计算相关度。一个词在网页文档中出现的频率越高,它代表该文档主题的水平就越大,其作为索引项的精确性也就越高,权值就越大。在与查询词匹配时,它所代表的文档与查询恳求的相关度就越高。除词频外,一个词在文档中的位置也对索引器选词和计算词的权值发生影响。例如在网页title标签、链点标签、Meta keyword标签、Meta description标签中选词并按词频计算权值时,或索引项出如今网页标题、文章前几段、段首等位置时,其权值会加大。虽然大少数搜索引擎都以词频和词的位置来计算相关度,但在细节上又各有不同。在计算网页的相关度时,其中各词的关系和词间的相对位置也是影响要素。网页中各词的相互距离越近则结果排序越靠前。以词频和词位置计算相关度的方法是较为客观精确的,它是运用最为广泛也是最成熟的方法,各大搜索引擎迄今仍以它作为计算相关度的基本方法。但它较易为人应用来完成不良竞争,轻易地把其网页设计修改成含有关键词的网页,从而在搜索引擎结果中排在后面。这使搜索引擎结果的客观性和精确性遭到损害,检索的查准率遭到影响。各大搜索引擎于是实施了各种反操纵技术和惩罚措施,特别是在网页自身之外另辟蹊径,寻觅相关度的判定标准,其中最主要的就是下面所述的链接分析法。


    2.链接分析法


    面对网络这个新的环境,必需运用新的排序技术才干达到较好的检索效果。由此,基于超链分析的各种排序算法被搜索引擎界提出。绝大局部超链分析算法都有共同的动身点:更多地被其他页面链接的页面是质量更好的页面,并且从更重要的页面动身的链接有更大的权重。最著名的链接分析法是Brin.s和Page.L于1998年提出并运用到Google搜索引擎中的PageRank,以及IBM用于CLEVER搜索引擎的HITS(Hypertext InducedTopic Selection)。
    文章由 blog.163.com/ojsep_312 . 整理,收集辛苦,希望能保留出处,谢谢斑竹大哥。