收藏本站
《东北大学》 2008年
收藏 | 手机打开
二维码
手机客户端打开本文

面向企业信息检索的中文分词系统的研究与实现

褚敬年  
【摘要】:随着企业信息的飞速增长,企业信息检索逐渐成为信息检索领域研究的热点,中文分词作为信息检索的文本处理阶段一个重要步骤,直接影响着检索结果的准确性。学术界关于分词技术的研究一直比较多,但是目前的研究大多是通用的分词算法,专门针对企业检索应用的分词技术研究相对较少。因此,研究中文分词技术在企业信息检索中的应用有重要的理论和现实意义。 本文研究了中文分词的关键技术及难点,分析了分词对大规模信息检索的影响,在此基础上结合企业信息检索中分词技术的特点,设计了中文分词系统(EIRCWS)。由于面向企业信息检索的分词算法对时间性能要求较高,本文设计了一种新的多字哈希结构的词典,改善了词典查询算法,提高了分词效率。歧义消除和未登录词识别是分词的两大技术难点。考虑到企业信息检索应用的特点,在歧义消除部分,本文重点解决交叉歧义问题,利用双向匹配结果进行比较来检测歧义,采用自定义规则来消除歧义。在未登录词识别部分,本文提出了一种新的未登录词识别方法,利用数量词识别规则和虚字辅助切分分词碎片,通过局部词频统计结合单字非词概率,使得算法在不依赖大型语料库的前提下可以有效地识别多个领域中各种类型的未登录词。 实验结果表明,本文设计的分词系统,分词速度快,准确率高,而且对未登录词具有很强的识别能力,符合企业信息检索对中文自动分词的要求。
【学位授予单位】:东北大学
【学位级别】:硕士
【学位授予年份】:2008
【分类号】:TP391.1

手机知网App
【引证文献】
中国期刊全文数据库 前1条
1 梁友珍;;我国企业信息检索存在的通病与对策[J];重庆与世界(学术版);2012年07期
中国硕士学位论文全文数据库 前2条
1 李巍;企业信息搜索引擎的设计与关键技术的研究[D];内蒙古农业大学;2011年
2 邵星星;基于Lucene的中文分词技术研究[D];西安电子科技大学;2012年
【参考文献】
中国期刊全文数据库 前10条
1 蒋斌;杨超;赵欢;;基于二字词位图表的汉语自动分词词典机制[J];湖南大学学报(自然科学版);2006年01期
2 马光志,李专;基于特征词的自动分词研究[J];华中科技大学学报(自然科学版);2003年03期
3 翟凤文;赫枫龄;左万利;;基于统计规则的交集型歧义处理方法[J];吉林大学学报(理学版);2006年02期
4 苏菲,王丹力,戴国忠;基于标记的规则统计模型与未登录词识别算法[J];计算机工程与应用;2004年15期
5 费洪晓,康松林,朱小娟,谢文彪;基于词频统计的中文分词的研究[J];计算机工程与应用;2005年07期
6 陈平;刘晓霞;李亚军;;基于字典和统计的分词方法[J];计算机工程与应用;2008年10期
7 张华平,刘群;基于角色标注的中国人名自动识别研究[J];计算机学报;2004年01期
8 马玉春,宋瀚涛;Web中文文本分词技术研究[J];计算机应用;2004年04期
9 曹倩,丁艳,王超,潘金贵;汉语自动分词研究及其在信息检索中的应用[J];计算机应用研究;2004年05期
10 王蕾;杨季文;;汉语未登录词识别现状及一种新识别方法介绍[J];计算机应用与软件;2007年08期
【共引文献】
中国期刊全文数据库 前10条
1 高艳萍;于红;尹祥贵;綦孝姬;王春永;赵志强;;基于双数组Trie树的渔业领域分词研究[J];安徽农业科学;2008年11期
2 白晓梅;张福利;;校园网中文搜索引擎系统的设计[J];鞍山师范学院学报;2006年06期
3 胡锡衡;;正向最大匹配法在中文分词技术中的应用[J];鞍山师范学院学报;2008年02期
4 耿新青;陶凤梅;黄宏光;;一种基于近邻匹配的中文分词算法Jlppeccz[J];鞍山师范学院学报;2010年04期
5 于江德;王希杰;;词位标注汉语分词技术详解[J];安阳师范学院学报;2010年05期
6 葛文英;吕靖;;基于条件随机场的中文人名识别[J];安阳师范学院学报;2010年05期
7 胡顺义;赵晓凡;;基于PB的汉语电子词典管理系统设计与实现[J];安阳师范学院学报;2010年05期
8 杨尔弘;;媒体5年词语使用情况调查分析[J];北华大学学报(社会科学版);2011年04期
9 马志强;周长胜;丁维;杨娜;;校园网搜索引擎的研究与实现[J];北京机械工业学院学报;2007年01期
10 刘文华;康海燕;;领域问答系统生成器的研究[J];北京信息科技大学学报(自然科学版);2009年03期
中国重要会议论文全文数据库 前10条
1 李金;宋阳;梁洪;;语言残障患者医疗辅助系统设计[A];第九届全国信息获取与处理学术会议论文集Ⅱ[C];2011年
2 于江德;王希杰;樊孝忠;;汉语词法分析中上文和下文孰重孰轻[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 韩冬煦;常宝宝;;基于边界熵和卡方统计量的多领域适应性中文分词方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
4 修驰;宋柔;;基于“大词”实例的中文分词研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
5 李玉梅;靳光瑾;黄昌宁;;中文分词规范中的歧义字段消解细则[A];第五届全国语言文字应用学术研讨会论文集[C];2007年
6 刮俊杰;吴树国;伊胜伟;;基于词效应的中文术语提取方法[A];第三届中国智能计算大会论文集[C];2009年
7 何伟;侯敏;;利用词汇时间分布信息提取未登录词[A];第九届全国人机语音通讯学术会议论文集[C];2007年
8 苏亮;孙斌;;一种基于Lucene的Hash改进中文分词算法的实现[A];2007通信理论与技术新发展——第十二届全国青年通信学术会议论文集(上册)[C];2007年
9 栗振江;杨洋;李丽;;智能问答系统[A];2011年全国通信安全学术会议论文集[C];2011年
10 俞鸿魁;张华平;刘群;吕学强;施水才;;基于层叠隐马尔可夫模型的中文命名实体识别[A];全国网络与信息安全技术研讨会'2005论文集(下册)[C];2005年
中国博士学位论文全文数据库 前10条
1 荆涛;面向领域网页的语义标注若干问题研究[D];吉林大学;2011年
2 蔡盈芳;基于本体的航空产品知识库构建研究[D];北京交通大学;2011年
3 张海军;基于大规模语料的中文新词识别技术研究[D];中国科学技术大学;2011年
4 屠晓;英文地址图像识别与翻译研究[D];华东师范大学;2011年
5 李智星;用于文本分类的简明语义分析技术研究[D];重庆大学;2011年
6 黄九鸣;面向舆情分析和属性发现的网络文本挖掘技术研究[D];国防科学技术大学;2011年
7 王迈;语言形式化原理[D];上海外国语大学;2011年
8 朱锁玲;命名实体识别在方志内容挖掘中的应用研究[D];南京农业大学;2011年
9 黄水清;非相关文献知识发现方法及在农业经济学中的应用[D];南京农业大学;2010年
10 单建芳;面向事件的文本表示研究[D];上海大学;2012年
中国硕士学位论文全文数据库 前10条
1 罗义兵;领域文本相似度计算方法研究[D];山东科技大学;2010年
2 冯海瑛;《万历野获编》分词理论与实践[D];广西师范学院;2010年
3 张燕丽;基于Winnow算法和CAPTCHA的垃圾短信过滤研究[D];郑州大学;2010年
4 刘国峰;数据模板匹配研究及在社保审计中的应用[D];哈尔滨工程大学;2010年
5 刘洋;基于本体的医保审计知识库构建研究[D];哈尔滨工程大学;2010年
6 刘靖媛;个性搜索引擎中用户兴趣模型研究[D];哈尔滨工程大学;2010年
7 孔胜;文本资源的知识抽取研究[D];大连理工大学;2010年
8 刘金宁;词性标注体系对中文分词的影响[D];大连理工大学;2010年
9 廖文平;基于CRF的中文地名识别研究[D];大连理工大学;2010年
10 红霞;基于层叠条件随机场的中文机构名识别的研究[D];大连理工大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 苏甜;;我国中小企业人力资源管理信息化现状与对策[J];重庆与世界;2011年11期
2 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
3 杨为国;张俊;;让信息资源服务于自主创新——我国企业利用信息资源状况调查[J];中国发明与专利;2006年02期
4 李丹宁;李丹;王保华;马新强;;几种基于词典的中文分词算法评价[J];贵州科学;2008年03期
5 李向阳,张亚非;一种Hash高速分词算法[J];解放军理工大学学报(自然科学版);2004年02期
6 李振星,徐泽平,唐卫清,唐荣锡;全二分最大匹配快速分词算法[J];计算机工程与应用;2002年11期
7 费洪晓,康松林,朱小娟,谢文彪;基于词频统计的中文分词的研究[J];计算机工程与应用;2005年07期
8 陈平;刘晓霞;李亚军;;基于字典和统计的分词方法[J];计算机工程与应用;2008年10期
9 胡长春;刘功申;;面向搜索引擎Lucene的中文分析器[J];计算机工程与应用;2009年12期
10 郎小伟;王申康;;基于Lucene的全文检索系统研究与开发[J];计算机工程;2006年04期
中国硕士学位论文全文数据库 前10条
1 潘景剑;具有中文人名识别功能的汉语自动分词算法研究[D];河北工业大学;2006年
2 卢鸣;HMM基本原理及其在聚类中的应用[D];江南大学;2007年
3 王宇宁;隐马尔可夫模型在信息抽取中的应用研究[D];大连理工大学;2007年
4 王硕;适用于化工专业搜索引擎的中文分词系统的研究与实现[D];北京化工大学;2008年
5 刘斌斌;基于HMM模型的Web信息抽取方法的研究与改进[D];重庆大学;2008年
6 刘延吉;基于词典的中文分词歧义算法研究[D];东北师范大学;2009年
7 徐海;基于Lucene垂直搜索引擎的研究与实现[D];西安科技大学;2009年
8 刘海峰;垂直搜索引擎的研究与实现[D];大连理工大学;2009年
9 李亚;垂直搜索引擎的研究与设计[D];武汉理工大学;2010年
10 齐皓爽;化工专业词典结构设计及中文分词系统的开发[D];北京化工大学;2010年
【二级引证文献】
中国硕士学位论文全文数据库 前1条
1 刘相琴;大豆主题垂直搜索引擎关键技术的研究与设计[D];东北农业大学;2013年
【二级参考文献】
中国期刊全文数据库 前10条
1 高军,陈锡先;无监督的动态分词方法[J];北京邮电大学学报;1997年04期
2 文庭孝;汉语自动分词研究进展[J];图书与情报;2005年05期
3 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
4 张辉,徐健;中国组织机构名自动识别系统的设计与实现[J];电脑开发与应用;2002年01期
5 席运江,党延忠;基于知识网络的专家领域知识发现及表示方法[J];系统工程;2005年08期
6 刘挺,吴岩,王开铸;最大概率分词问题及其解法[J];哈尔滨工业大学学报;1998年06期
7 吴岩,李秀坤,刘挺,王开铸;中文自动校对系统的研究与实现[J];哈尔滨工业大学学报;2001年01期
8 王锡江;王启祥;陈家骏;;基于邻接知识的汉语自动分词系统[J];计算机研究与发展;1992年11期
9 张国煊,王小华,周必水;快速书面汉语自动分词系统及其算法设计[J];计算机研究与发展;1993年01期
10 付国宏,王晓龙;汉语词语边界自动划分的模型与算法[J];计算机研究与发展;1999年09期
中国重要会议论文全文数据库 前2条
1 高山;张艳;徐波;宗成庆;韩兆兵;;基于三元统计模型的汉语分词及标注一体化研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
2 季姮;罗振声;;基于反比概率模型和规则的中文姓名自动辨识系统[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
中国硕士学位论文全文数据库 前2条
1 彭希鸿;基于Web内容挖掘的网页分类与过滤研究与应用[D];中南大学;2003年
2 陈岳华;企业信息检索研究与实现[D];北京邮电大学;2006年
【相似文献】
中国期刊全文数据库 前10条
1 张民朝;;面向课程信息的专题搜索引擎的设计[J];制造业自动化;2011年06期
2 王冬;;中文信息检索关键技术分析[J];电脑知识与技术(学术交流);2007年15期
3 王冬;张运波;黄应红;;中文信息检索关键技术分析[J];电脑知识与技术(学术交流);2007年17期
4 熊桂喜;李政;;基于规则和语料库的中文姓名识别研究[J];计算机与信息技术;2007年12期
5 熊泉浩;;中文分词现状及未来发展[J];科技广场;2009年11期
6 丁洁;;基于最大概率分词算法的中文分词方法研究[J];科技信息;2010年21期
7 佟晓筠;宋国龙;刘强;张俐;姜伟;;中文分词及词性标注一体化模型研究[J];计算机科学;2007年09期
8 张赢;万仲保;;对专业搜索引擎中未登录词的识别研究[J];计算机技术与发展;2009年05期
9 郭玲;孟祥逢;张峰;;基于最大匹配法的中文分词技术改进[J];舰船电子工程;2009年12期
10 都菁;熊海灵;;基于论坛语料识别中文未登录词的方法[J];计算机工程与设计;2010年03期
中国重要会议论文全文数据库 前10条
1 王敏;叶宽余;薛峰;;一种面向网店商品搜索的中文分词系统设计[A];全国第22届计算机技术与应用学术会议(CACIS·2011)暨全国第3届安全关键技术与应用(SCA·2011)学术会议论文摘要集[C];2011年
2 修驰;宋柔;;基于“大词”实例的中文分词研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 张梅山;邓知龙;车万翔;刘挺;;统计与词典相结合的领域自适应中文分词[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
4 韩冬煦;常宝宝;;基于边界熵和卡方统计量的多领域适应性中文分词方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
5 石子夜;;置信分词——面向中分信息检索的分词模式[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
6 黄昌宁;赵海;;由字构词——中文分词新方法[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
7 王思力;王斌;;基于双字耦合度的中文分词交叉歧义处理方法[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
8 赵海;揭春雨;;基于子串标注的中文分词:寻找更佳的标注单元[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
9 彭辉;翟翔;;AutoCAD 2008自动翻译软件研发[A];全国冶金自动化信息网2010年年会论文集[C];2010年
10 王芳;万常选;;基于可信度的中文完整词自动识别[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
中国重要报纸全文数据库 前10条
1 清华大学IT可用性实验室;2005中文搜索引擎质量对比[N];计算机世界;2005年
2 本报记者 张彤;让计算机说中国话[N];网络世界;2004年
3 希安;微软试水信息检索[N];经济日报;2004年
4 记者 吴苡婷;用技术挖出网络信息中“金子”[N];上海科技报;2009年
5 叶静;开辟信息检索的新天地[N];人民邮电;2001年
6 本报记者 潘永花;组件化平台提升信息检索效率[N];网络世界;2003年
7 刘静一;个人档案信息检索[N];建筑报;2000年
8 柏荣;国家973项目在因特网大规模信息检索领域取得突破[N];中国高新技术产业导报;2003年
9 贺俊;汇聚亿万草根智慧 奇虎发布经验搜索[N];证券日报;2006年
10 记者 杨朝晖;医药搜索:不再“众里寻他千百度”[N];科技日报;2007年
中国博士学位论文全文数据库 前10条
1 陈博;WEB文本情感分类中关键问题的研究[D];北京邮电大学;2008年
2 何嘉;基于遗传算法优化的中文分词研究[D];电子科技大学;2012年
3 孙越恒;基于统计的NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
4 孙道军;文本挖掘预处理相关基础技术分析与应用研究[D];北京邮电大学;2008年
5 杨传耀;中文信息检索索引模型及相关技术研究[D];复旦大学;2007年
6 王彪;信息检索中信息需求域的研究[D];内蒙古大学;2012年
7 左家莉;信息检索中Markov网络图模型研究[D];江西财经大学;2011年
8 张友华;面向智能服务的Web内容计算研究与应用[D];中国科学技术大学;2006年
9 任飞亮;高适应性基于实例的机器翻译中关键技术研究[D];东北大学;2008年
10 吴定峰;基于本体的语义搜索模型研究[D];中国农业科学院;2012年
中国硕士学位论文全文数据库 前10条
1 陈默;基于神经网络的元搜索引擎[D];浙江大学;2006年
2 褚敬年;面向企业信息检索的中文分词系统的研究与实现[D];东北大学;2008年
3 崔明明;基于机器学习的中文分词的研究与实现[D];沈阳工业大学;2009年
4 马忠宝;基于支持向量机的中文文本分类系统研究[D];武汉理工大学;2006年
5 张剑锋;规则与统计相结合的中文分词方法研究[D];山西大学;2008年
6 冯斌;基于Lucene小型搜索引擎的研究与实现[D];武汉理工大学;2008年
7 张维勤;基于SQL Server2000的中文全文检索[D];西安建筑科技大学;2007年
8 郭庆贺;中文文本姓名识别的研究[D];东北师范大学;2009年
9 杨彦;基于Hash结构的机械统计分词系统[D];中南大学;2005年
10 戚晶;基于RSS的搜索引擎的研究与实现[D];吉林大学;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026