1. 论坛系统升级为Xenforo,欢迎大家测试!
    排除公告

谈谈百度和谷歌的中文分词技术

本帖由 阿道夫希特勒2011-08-21 发布。版面名称:软文发布区

  1. 阿道夫希特勒

    阿道夫希特勒 New Member

    注册:
    2011-04-08
    帖子:
    1,390
    赞:
    0
      中文分词是百度和谷歌的核心技术之一,因此不会将细节公之于。中华论文联盟只能利用黑盒方法进行推导,也即通过输入检索提问,查看结果情况,并通过两个搜索引擎都具备的网页快照功能查看各自对检索提问的分词情况。

      表1 检索提问在百度和谷歌中的分词情况*

      




      第一,推导百度的中文分词技术

      第1个例子说明,如果对检索提问用引号做精确检索,百度对其不进行分词运算。例2说明,如果输入用空格进行分割的若干个子字符串,百度对其自动做分词处理(如果用标点符号分割,也会做自动分词处理)。例3、6、7、8、10等都说明百度对检索词会进行多种切分方式,并且首先是不进行切分,直接匹配,如果有结果则返回,并排在检索结果最前面;然后再按照不同形式切分之后再去匹配。

      例4对“比尔盖茨”的检索表明,百度有专有名词库,例5对“旭日阳刚”的检索表明,百度对新词收录较快。例9“旭日阳刚才”的分词结果为“旭日阳刚/才”也说明,百度对新词能够识别。

      例11“大长今天天向上”,百度能够识别出“大长今/天天向上”,“大长今”为一韩剧名,“天天向上”为一综艺节目,百度均能正确地识别,表明其词库收词范围很广,收词量很多。例7、8说明,百度对在分词时不会忽略“的”、“和”这些意义不大的字(即禁用词),可以做更多的尝试,百度对“了”、“吗”等都不会忽略,仍作为检索词进行分词。

      再探讨百度是正向最大匹配还是逆向最大匹配。例7中,对“走路和气质”可以分出“走路/和/气质”,这种结果像是逆向最大匹配法,再看例12,“分居民生活水平”,如果逆向最大匹配法的话应该是应该分为“分/居民/生活水平”,但事实上百度对这个检索提问的分词结果并不如此,在这个例子上看似为正向分词。因此,百度的分词不是单纯的正向最大匹配或者逆向最大匹配,采用的应该是双向最大匹配法。

      通过有多种划分方式的例子(比如例8),可以看出,百度首先是不进行分词,得到“朱德的母亲”,然后再识别出专有名词或新词,剩余部分又按照先不切分的方式,得到“朱德/的母亲”,然后用最少切分法原则,并且用到了3元交叉切分法得到了“朱德的/的母亲”。

      第二,推导谷歌的中文分词技术

      例1说明,对于引号中的检索提问,谷歌不进行拆分;例2说明,用空格分开的子字符串,谷歌自动做分词处理(如果用标点符号分割,效果也一样)。

      例3、4、5、6表明,谷歌对于专有名词和新词识别能力较差,对“比尔盖茨”、“旭日阳刚”等都进行了分词处理,甚至连“忐忑”都划分为了“忐/忑”,“图书馆”划分为“图书/馆”,“中医药”划分为“中/医药”,说明谷歌的词库较小。

      例7、8说明,谷歌在分词时,会对检索提问中意义不大的字如“的”、“和”忽略,当作禁用词,然后再进行分词。

      例9、10、11、12都印证了谷歌采取的是逆向最大匹配法,并印证了对专有名词和新词识别能力差。在12个例子中涉及的专刺客归来传奇有名词和新词中,只有“朱德”被正确识别。

      总结

      通过上述分析,中华论文联盟 对百度和谷歌中文分词技术做一比较,主要有以下四点: (1)百度和谷歌对引号中的检索提问以及空格等分割的检索提问的分词规则相同; (2)对未登录词的识别能力上,百度明显占优势; (3)谷歌有禁用词消除功能,会忽略掉那些没有检索意义的常见连词、介词,这样可以提高检索速度,但是有时会去掉可能有检索意义的词的情况,百度则会将这些字符统一作为检索传奇归来私服词进行分词; (4)谷歌采用的是较为单一的逆向最大匹配法则,而百度则同时做出多种分词方式,首先不拆分进行查找,然后先识别专有名词和新词,再对其余部分进行拆分,采用双向最大匹配方式。
    1.85复古传奇
      判断一个系统的中文分词功能好坏,主要在于消歧功能和对未登录词识别功能。并且优秀的分词策略应该是尽量不拆分,需要拆分时,先把长的拆成中的,如果结果还是少,再把中的拆成短的。基于这些因素,可得出结论,百度的中文分词技术要优于谷歌。