百度专利:网页结构相似性确定方法 (2009 年申请,下面的一些标注我会用红字) 摘要: 该方法包括:根据网页的DOM树确定网页的模板特征向量;对模板特征向量计算网页结构相似性,并进行查找或类聚。通过上述处理,克服了现有技术中不能够计算网页结构相似性的缺陷,当人工发现其中某个作弊网站时,可以通过查找具有相似的模板特征向量的网站首页,找到所有具有相同网页结构的作弊网站。此外,还可以通过对所有网站首页模板的模板特征向量进行类聚和查找来自动快速发现作弊网站的集合。 感觉百度这个专利是用来对付站群的,原来 09 年百度就开始注意站群了。 确定网页结构相似性的主要步骤: 1.根据网页的DOM树确定网页模板特征向量; 2.对所述模板特征向量计算网页结构相似性,并进行查找或类聚。 第一条比较好理解,第二条包含太多具体的运算和不为人知的公式 (如国平老大所言,这些东西适当看看,不必死钻)...本人能力有限,就说说第一条: 根据网页的DOM树确定网页的模板特征向量包括: 1.将所述DOM树中的节点或节点的组合划分为不同的特征单元; 百度在肢解你的网页,拆分为title节点,body节点,body下又包含着众多的子节点,每个div,每个img,等等,都有可能被拆分为一个节点。 2.确定所述特征单元映射到高维特征向量后所在的维数; 百度这里采用的是哈希计算。哈希计算中就包含大家都猜想搜索引擎可能用来识别为原创的MD5函数。不过在这不是用来识别伪原创的,而是用来确定某一个节点在下面的特征向量中所处于的维数的。比如 div id=abc 这个节点,假设通过哈希函数计算出的数值等于123,那么这个节点所代表的特征单元将位于最终的模板特征向量的第123个维数上。 3.根据所述特征单元在所述DOM树中的权重值确定所述特征单元在所述维数上的实数值,得到高维特征向量值; 在2中我们确定了维数,也就是这个特征单元在这个模板特征向量上的位置了,而在这一步中,百度在计算这个维数的实数值。 4.将所述高维特征向量进行压缩,得到最终的所述模板特征向量。 通过2和3,我们即得出了维数,又得出了位于这个维数上的实数值。可以说是已经完成了。第四步我觉得只不过是搜索引擎一个比较常规的,对于数据的压缩处理。 本文由www.huojugaokeji.com/trend.asp 整理发布