关键词搜索
关系网介绍:从事IT行业人的家园,希望大家畅所欲言!!!
上象首页图片影集 博客贴吧比赛活动
子关系网关系网信息管理入口申请加入
IT联盟”欢迎您的到来!
当前位置: 关系网:IT联盟 >> 关系网贴吧:java技术交流 >> 关于亚洲语言的的切分词问题(Word Segment)
贴子回复     帖主: 亨利 
浏览[] 回复[0]

对于中文来说,全文索引首先还要解决一个语言分析的问题,对于英文来说,语句中单词之间是天然通过空格分开的,但亚洲语言的中日韩文语句中的字是一个字挨一个,所有,首先要把语句中按“词”进行索引的话,这个词如何切分出来就是一个很大的问题。

首先,肯定不能用单个字符作(si-gram)为索引单元,否则查“上海”时,不能让含有“海上”也匹配。

但一句话:“北京天安门”,计算机如何按照中文的语言习惯进行切分呢?
“北京 天安门” 还是“北 京 天安门”?让计算机能够按照语言习惯进行切分,往往需要机器有一个比较丰富的词库才能够比较准确的识别出语句中的单词。

另外一个解决的办法是采用自动切分算法:将单词按照2元语法(bigram)方式切分出来,比如:
"北京天安门" ==> "北京 京天 天安 安门"。

这样,在查询的时候,无论是查询"北京" 还是查询"天安门",将查询词组按同样的规则进行切分:"北京","天安安门",多个关键词之间按与"and"的关系组合,同样能够正确地映射到相应的索引中。这种方式对于其他亚洲语言:韩文,日文都是通用的。

基于自动切分的最大优点是没有词表维护成本,实现简单,缺点是索引效率低,但对于中小型应用来说,基于2元语法的切分还是够用的。基于2元切分后的索引一般大小和源文件差不多,而对于英文,索引文件一般只有原文件的30%-40%不同

作者:亨利 2007-12-13 14:06:04.0  
[投诉]  [收藏贴吧]  [推荐为精华]  
当前共回复 0
我要回复此贴子
用户名: 您当前是匿名发表 登录 | 注册
关于上象 | 使用帮助 | 联系我们
Copyright 2006-2007 sangxang.com All rights reserved. www.sangxang.com
版权所有:北京四方智远科技有限公司 京ICP证 060627号