ITPub博客

首页 > Linux操作系统 > Linux操作系统 > 摆平中文搜索引擎的分词错误(转)

摆平中文搜索引擎的分词错误(转)

原创 Linux操作系统 作者:jcszjswkzhou 时间:2019-06-14 16:15:07 0 删除 编辑
搜索结果不理想,有很多原因,其中一种是中文搜索引擎特有的,叫分词(或切词)。

举例来说,你搜索关键词“品行”可能搜到大量“商品行情”,又如搜索关键词“和会”,得到的搜索结果可能大量包含“展览和会议”“吉祥物和会歌”“商务中心和会务”“被物化和会过期的”“亚太经和会议”。它们文字中都有“和会”,但不是你要找的“巴黎和会”“中东和会”。这是中文本身特点导致的搜索缺陷,中文搜索引擎技术人员在努力改善它,但不会完全解决。

在这里,我不谈分词原理,想了解更多的自己去搜。
今天,我只想教你一点小技巧,帮你摆平这个搜索中常见的挫折。

方法很简单:减去错误分词的衍生词。

比如刚才的“和会”,你可以改用以下这个关键词来搜索:
“和会 -和会议 -防御和会 -和会歌 -和会务 -物化和会 -和会员 -和会计 -音乐和会”
这个关键词的意义是:要求网页中含有“和会”,但不含有跟“和会”连在一起的那些错误分词的网页。

这是个示范,一般情况下不用减那么多,减去几个曝光率高的就行了。

需要被减去的,“和会”旁边的字或词,选择原则是:
1、本应连在一起的,如会议、会员、会计本应连在一起的,那么就选择和会议、和会员、和会计。
2、独立的常见词组,如防御、物化、音乐。

这是一个完美的搜索技巧,因为无论加法还是减法,它们的缺陷之一是可能被你用的关键词屏蔽了不应该屏蔽的网页,但这种减去含主关键词的衍生关键词,则几乎没有这个问题。你放心减吧,那些含有被减去词中独立单字或词组(如歌、议、防御、务、物化、员、计、音乐)的网页,都好好在呢,你可以用如“和会 -和会歌 歌”找出来。

这个技巧,也可以对付一些有衍生词的关键词,如搜索关键词“曹溪”,你发现有个版主叫曹溪、有个地方叫曹溪镇、有个派别叫曹溪宗、有个庙叫曹溪寺、有条路叫曹溪路。
如果你只想搜索版主曹溪,你可以用加法,找一个跟版主曹溪相关的关键词一起搜;你也可以用普通减法,寻找跟曹溪镇、曹溪宗、曹溪寺、曹溪路相关的一个关键词,但以上两种方法都容易屏蔽部分你想找的网页。
如果你减去的是含有曹溪的这些衍生词,则几乎不会屏蔽合理网页,除了一种网页。哪一种网页?当然是象我这一篇文章一样,莫名其妙的把曹溪、曹溪镇、曹溪寺、曹溪路扯到一起的网页了!不过如果你确定这种网页是你需要的,你也可以很容易的直接搜出这种网页。

另外,如果你输入的关键词多了,google只会搜一部分,并提示说搜索框中只能支持最多10个字词(10个字词是google现在的规矩,可能也是专对中文或双字节语言的规矩,英文搜索支持的关键词要长一点。google以前甚至曾对汉字搜索只支持最多6个,差点没把我气晕了,不过不到一周它就醒悟了),我不明白它的10个字词是怎么计算的,用不用语法,用什么语法和词组长短差别很大,反正我既碰到过超过10个字词就不能查的,也查过21个字的。以我的经验,用空格能搜的关键词多一点,用减法能搜的关键词就少一点,10个多不了多少的。所以如果要减的衍生关键词超过10个字,可以选用baidu,baidu的搜索框支持最多三十几个字词。


“我们若能更妥善地搜寻资料,实在已经改变世界。”

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/10294527/viewspace-126538/,如需转载,请注明出处,否则将追究法律责任。

请登录后发表评论 登录
全部评论

注册时间:2007-08-29

  • 博文量
    2990
  • 访问量
    2208352