收藏本站
《中国科学院研究生院(计算技术研究所)》 2006年
收藏 | 手机打开
二维码
手机客户端打开本文

面向大规模信息检索的中文分词技术研究

王思力  
【摘要】:中文分词是中文信息处理的一个基础环节。在中文信息检索的文本处理阶段,也常用到这项技术。学术界关于分词技术的研究一直比较多,但是目前的研究大多是通用的分词算法,专门针对信息检索应用的分词技术研究相对较少。 本文首先介绍了中文分词的难点,以及目前常用的一些切分算法。然后综合分析了分词技术对中文信息检索的影响,在此基础上系统地提出了适用于信息检索应用的分词技术的特点,并且根据这些特点给出我们自己的分词算法。 由于面向大规模信息检索的分词算法对时间性能要求较高,我们的词典算法采用了双数组Trie树优化算法。该算法查询一个词语最多只需要进行n-1次整数相加,时间复杂度是O(n),n为查询词长度。我们的实验显示,无论是单纯的词语查询速度还是最大匹配切分速度,双数组Trie树算法都要比目前词典机制中常用的普通Trie树算法和双字Hash算法快。 歧义消除和未登录词识别是分词的两大技术难点。考虑到信息检索应用的特点,在歧义消除部分,对于交叉歧义和覆盖歧义这两类歧义,我们只处理前者,并在歧义位置用双字耦合度和t-测试差的线性迭加值来判断是否切分;对于后者,我们提出一种在查询扩展时处理的方法。未登录词识别部分我们则利用单字的成词位置概率,同时结合局部二元串频统计对所有命名实体和新词进行统一识别。 实验表明,该分词算法切分速度在CPU3.2G,内存512M的环境下能达到2MB/秒,比当前一些切分精度较高的分词算法如ICTCLAS要快很多;在同样检索系统下,和信息检索中常用的交叉二元切分法、分词中常用的最大匹配法和ICTCLAS相比,使用该算法后检索出的前10篇文档的准确率P@10分别提高了9%、11.4%和8.8%,前20篇文档的准确率P@20提高了13.2%、12.7%和7.5%。
【学位授予单位】:

知网文化
【相似文献】
中国期刊全文数据库 前20条
1 张民朝;;面向课程信息的专题搜索引擎的设计[J];制造业自动化;2011年06期
2 王冬;;中文信息检索关键技术分析[J];电脑知识与技术(学术交流);2007年15期
3 王冬;张运波;黄应红;;中文信息检索关键技术分析[J];电脑知识与技术(学术交流);2007年17期
4 张文慧;张冉;;基于中文分词的农业信息检索平台设计[J];安徽农业科学;2011年20期
5 王思力;王斌;;基于双字耦合度的中文分词交叉歧义处理方法[J];中文信息学报;2007年05期
6 李海丰;;基于Lucene的企业搜索引擎研究及应用[J];电脑知识与技术;2009年04期
7 周锦程;王丹;;基于Lucene的全文搜索引擎研究与应用[J];黔南民族师范学院学报;2009年03期
8 彭波;;大规模搜索引擎检索系统框架与实现要点[J];计算机工程与科学;2006年03期
9 徐远超;刘江华;刘丽珍;关永;;基于Web的网络爬虫的设计与实现[J];微计算机信息;2007年21期
10 刘建培;;基于Delphi的中文分词设计[J];计算机系统应用;2009年03期
11 丁洁;;基于最大概率分词算法的中文分词方法研究[J];科技信息;2010年21期
12 刘秋梅;;智能化数字参考服务系统实现初探[J];图书情报工作;2006年07期
13 李建伟;;基于协作学习模式的远程答疑系统设计[J];北京邮电大学学报(社会科学版);2008年01期
14 张小刚;杨凯;冉天保;;中文WEB文档自动分类系统的设计与实现[J];微计算机信息;2008年30期
15 廖敏;褚颖娜;宋继华;;双数组Trie树索引的可操作性研究[J];计算机系统应用;2009年10期
16 刘杨;陈晖;陈远江;;中文文本信息过滤技术研究[J];船电技术;2010年07期
17 王永成;郑友德;;自动化信息检索中的若干研究课题[J];图书情报知识;1984年04期
18 舒宁;庞大的在线知识贮存处[J];图书馆学研究;1988年01期
19 ;电力工业部信息研究所综合信息检索网[J];中国电力;1995年05期
20 杨廷成;发明课题与信息检索[J];发明与革新;1995年07期
中国重要会议论文全文数据库 前10条
1 王思力;王斌;;基于双字耦合度的中文分词交叉歧义处理方法[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
2 石子夜;;置信分词——面向中分信息检索的分词模式[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
3 孙金立;李路路;王栋;;生物信息检索教学网的建设[A];向数字化转型的图书馆工作[C];2004年
4 姚树宇;赵少东;;一种使用分布式技术的搜索引擎[A];2005年全国开放式分布与并行计算学术会议论文集[C];2005年
5 秦鹏;李恒训;张华平;刘金刚;;基于关键词提取的搜索结果聚类研究[A];第五届全国信息检索学术会议论文集[C];2009年
6 田田;马军;李跃军;;应用多本体进行信息检索的研究[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
7 孙金立;李路路;董明强;;建立生物信息检索教学网的研究[A];中华医学会第十次全国医学信息学术会议论文汇编[C];2004年
8 吴立德;黄萱菁;;前言[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
9 ;编者的话[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
10 王敬成;;HNC农村智能信息检索系统[A];2006年首届ICT大会信息、知识、智能及其转换理论第一次高峰论坛会议论文集[C];2006年
中国重要报纸全文数据库 前10条
1 希安;微软试水信息检索[N];经济日报;2004年
2 叶静;开辟信息检索的新天地[N];人民邮电;2001年
3 本报记者 潘永花;组件化平台提升信息检索效率[N];网络世界;2003年
4 刘静一;个人档案信息检索[N];建筑报;2000年
5 柏荣;国家973项目在因特网大规模信息检索领域取得突破[N];中国高新技术产业导报;2003年
6 清华大学IT可用性实验室;2005中文搜索引擎质量对比[N];计算机世界;2005年
7 本报记者 张彤;让计算机说中国话[N];网络世界;2004年
8 刘光强;搜索个人、企业、垂直三大搜索新进展[N];中国计算机报;2007年
9 微软中国研究院 陈正 李明镜 马维英;互联网上图像信息检索[N];计算机世界;2001年
10 常燕杰;商用搜索 须打智慧牌[N];中国计算机报;2006年
中国博士学位论文全文数据库 前10条
1 张友华;面向智能服务的Web内容计算研究与应用[D];中国科学技术大学;2006年
2 左家莉;信息检索中Markov网络图模型研究[D];江西财经大学;2011年
3 吴定峰;基于本体的语义搜索模型研究[D];中国农业科学院;2012年
4 董道国;高维数据索引结构研究[D];复旦大学;2005年
5 翟海军;面向Web信息检索的知识挖掘[D];中国科学技术大学;2010年
6 林建方;词搭配抽取及在信息检索中的应用研究[D];哈尔滨工业大学;2010年
7 郭永明;XML文档交互式信息检索技术研究[D];东华大学;2010年
8 李广建;个性化网络信息检索系统的研究与实现[D];中国科学院研究生院(文献情报中心);2002年
9 马马杜 桑卡雷;基于多智能体的流体动力行业虚拟联盟信息检索的研究[D];浙江大学;2002年
10 张毅波;史文结构化信息检索系统的研究与实现[D];中国科学院研究生院(软件研究所);2001年
中国硕士学位论文全文数据库 前10条
1 陈默;基于神经网络的元搜索引擎[D];浙江大学;2006年
2 王思力;面向大规模信息检索的中文分词技术研究[D];中国科学院研究生院(计算技术研究所);2006年
3 白晓梅;校园网中文搜索引掣系统的设计与实现[D];吉林大学;2006年
4 张维勤;基于SQL Server2000的中文全文检索[D];西安建筑科技大学;2007年
5 冯斌;基于Lucene小型搜索引擎的研究与实现[D];武汉理工大学;2008年
6 褚敬年;面向企业信息检索的中文分词系统的研究与实现[D];东北大学;2008年
7 乔智勇;Web数据挖掘系统的设计及关键技术研究[D];西安电子科技大学;2002年
8 管玉娟;基于智能Agent的个性化信息检索技术研究[D];西安建筑科技大学;2005年
9 杭月芹;基于文档查询信息的检索系统研究与实现[D];扬州大学;2005年
10 刘壁松;策略可扩展的搜索引擎研究和实现[D];清华大学;2005年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978