搜索引擎预处理分析介绍

wangman · 2011-04-04

搜索引擎通过蜘蛛对互联网中的网页进行索引下载，然后在预先处理对网页内容进行分析筛选，最后在通过索引查询算法才能展示在我们眼前，我们不难发现预处理在其中站着非常重要的一部分，它包括关键词提起、去重、链接分析、重要度计算4部分，下面我们就对这4部分进行一个介绍。

1.关键词提取

我们随便取一篇网页的源代码进行查看，我们可以发现代码纷乱繁杂。除了我们平常通过浏览器能够正常看到的文字内容外，还有大量的HTML标记。据统计，网页文档源文件的大小（字节量）通常大约是其中内容大小的4倍。另外，由于HTML文档产生来源的多样性，许多网页在内容上比较随意，不仅文字不讲究规范、完整，而且还可能包含许多和主要内容无关的信息。而为了支持后面的查询服务，这时我们就需要从网页源文件中提取出能够代表它的内容的一些特征。而从网名的认识和实践来看，所含的关键词即为这种特征最好的代表。于是，作为预处理阶段的一个基本任务，就是要提取出网页源文件的内容部分所含的关键词。对于中文搜索引擎来说，就是要根据一个词典Σ，用一个所谓“切词软件”，从网页文字中切出Σ所含的词语来。在那之后，一篇网页主要就由一组词来近似代表了，p = {t1, t2, …, tn}。一般来讲，我们可能得到很多词，同一个词可能在一篇网页中多次出现。从效果(effectiveness)和效率（efficiency）考虑，不应该让所有的词都出现在网页的表示中，要去掉诸如“的”，“在”等没有内容指示意义的词，称为“停用词”(stop word)。这样，对一篇网页来说，有效的词语数量大约在200个左右。

注：百度之所以强大，就是因为百度拥有非常强大的词典Σ。

2. 消重

与生俱来的数字化和网络化给网页的复制以及转载和修改再发表带来了便利，因此我们经常看到Web上的信息存在着大量的重复内容。据统计分析表明，网页的重复率平均大约为4。也就是说，当你通过一个URL在网上看到一篇网页的时候，平均还有另外3个不同的URL也给出相同或者基本相似的内容。这种现象对于广大的网民来说是有正面意义的，因为有了更多的信息访问机会。但对于搜索引擎来说，则主要是负面的；它不仅在搜集网页时要消耗机器时间和网络带宽资源，而且如果在查询结果中出现，无意义地消耗了计算机显示屏资源，也会引来用户的抱怨，对于搜索引擎来说“这么多重复的，给我一个就够了”。因此，消除内容重复或主题内容重复的网页是预处理阶段的一个重要任务。

注：搜索引擎分析内容是否重复的方法即为我们关键词提取中得到的关键词集p，然后分析p下关键词出现的频率与位置。

3. 链接分析

前面提到，大量的HTML标记既给网页的预处理造成了一些麻烦，也带来了一些新的机遇。从信息检索的角度讲，如果系统面对的仅仅是内容的文字，我们能依据的就是“共有词汇假设”（shared bag of words），即内容所包含的关键词集合，最多加上词频（term frequency 或tf、TF）和词在文档集合中出现的文档频率（document frequency 或df、DF）之类的统计量。而TF和DF这样的频率信息能在一定程度上指示词语在一篇文档中的相对重要性或者和某些内容的相关性，这是有意义的。有了HTML标记后，情况还可能进一步改善，例如在同一篇文档中，<H1>和</H1>之间的信息很可能就比在<H4>和</H4>之间的信息更重要。而HTML文档中所含的指向其他文档的链接信息又是非常重要的，搜索引擎认为它们不仅给出了网页之间的关系，而且还对判断网页的内容重要度有很重要的作用。

注：详见pr算法与链接原理

4. 网页重要程度的计算

搜索引擎返回给用户的，是一个和用户查询相关的结果列表。列表中条目的顺序是很重要的一个问题。由于面对各种各样的用户，加之查询的自然语言风格，对同样的q0返回相同的列表肯定是不能使所有提交q0的用户都满意的（或者都达到最高的满意度）。因此搜索引擎实际上追求的是一种统计意义上的满意。做我们这行的都认为google比百度好，是因为在多数情况下前者返回的内容要更符合用户的需要，而不是所有情况下都如此。那么如何来判断一篇网页比另外一篇网页重要？参照科技文献重要性的评估方式，核心想法就是“被引用多的就是重要的”。“引用”这个概念恰好可以通过HTML超链在网页之间体现得非常好，作为Google创立核心技术的PageRank就是这种思路的成功体现。除此以外，人们还注意到网页和文献的不同特点，即一些网页主要是大量对外的链接，其本身基本没有一个明确的主题内容，而另外有些网页则被大量的其他网页链接。从某种意义上讲，这形成了一种对偶的关系，这种关系使得人们可以在网页上建立另外一系列种重要性指标。这些指标有的可以在预处理阶段计算，有的则要在查询阶段计算，但都是作为在查询服务阶段最终形成结果排序的部分参数。

kitydeng4 · 2011-04-05

谢谢楼主分享

173782322 · 2011-04-05

谢谢楼主分享

论坛

搜索引擎预处理分析介绍

wangman New Member

kitydeng4 New Member

173782322 New Member

快捷检索

搜索引擎预处理分析介绍

wangman New Member

kitydeng4 New Member

173782322 New Member