1. 论坛系统升级为Xenforo,欢迎大家测试!
    排除公告

网页净化

本帖由 kexuanwan20112011-08-24 发布。版面名称:软文发布区

  1. kexuanwan2011

    kexuanwan2011 New Member

    注册:
    2011-07-13
    帖子:
    839
    赞:
    0
    网页净化与消重是大规模搜索引擎系统预处理环节的重要组成部分。

    网页净化(noise reduction):识别和清除网页内的噪声内容(如广告、版权信息等),并提取网页 主题以及与主题相关的内容。

    网页消重 (replicas or near—replicas detection):去除所搜集网页集合中主题内容重复的网页。

    在主题搜索领域,大量的广告、导航条等噪声内容会导致主题漂移(topicdrift)。这说明传统的主题搜索算法中以网页为粒度构造的web图不够准确,必须深入到网页内部将处理单元的粒度缩小,才能提高内容分析的准确性。在(Chakrabarti et al. 2001)中提出了一套解决方法,首先讲网页表示为一颗DOM数结构并找到与主题一致性较高的子树,然后对这些子树做特别的处理,从而提高主题的提炼的效果。
     
  2. qindw

    qindw New Member

    注册:
    2011-03-28
    帖子:
    805
    赞:
    0
    很好很不错学习啦。。