网页净化与消重是大规模搜索引擎系统预处理环节的重要组成部分。 网页净化(noise reduction):识别和清除网页内的噪声内容(如广告、版权信息等),并提取网页 主题以及与主题相关的内容。 网页消重 (replicas or near—replicas detection):去除所搜集网页集合中主题内容重复的网页。 在主题搜索领域,大量的广告、导航条等噪声内容会导致主题漂移(topicdrift)。这说明传统的主题搜索算法中以网页为粒度构造的web图不够准确,必须深入到网页内部将处理单元的粒度缩小,才能提高内容分析的准确性。在(Chakrabarti et al. 2001)中提出了一套解决方法,首先讲网页表示为一颗DOM数结构并找到与主题一致性较高的子树,然后对这些子树做特别的处理,从而提高主题的提炼的效果。