收藏本站
《天津财经大学》 2006年
收藏 | 手机打开
二维码
手机客户端打开本文

基于分词的中文文本相似度计算研究

沈斌  
【摘要】:在中文信息处理中,文本相似度的计算广泛应用于信息检索、机器翻译、自动问答系统、文本挖掘等领域,是一个非常基础而关键的问题,长期以来一直是人们研究的热点和难点。计算机对于中文的处理相对于对于西文的处理存在更大的难度,集中体现在对文本分词的处理上。分词是中文文本相似度计算的基础和前提,采用高效的分词算法能够极大地提高文本相似度计算结果的准确性。 本文在对常用的中文分词算法分析比较的基础上,提出了一种改进的正向最大匹配切分(MM)算法及歧义消除策略,对分词词典的建立方式、分词步骤及歧义字段的处理提出了新的改进方法,提高了分词的完整性和准确性。随后分析比较了现有的文本相似度计算方法,利用基于向量空间模型的TF-IDF方法结合前面提出的分词算法,给出了中文文本分词及相似度计算的计算机系统实现过程,并以科技文本为例进行了测试,对所用方法进行了验证。 这一课题的研究及其成果对于中文信息处理中的多种领域尤其是科技类文本相似度的计算比较,都将具有一定的参考价值和良好的应用前景。
【学位授予单位】:天津财经大学
【学位级别】:硕士
【学位授予年份】:2006
【分类号】:TP391.1

【引证文献】
中国期刊全文数据库 前8条
1 任红霞;梁朋举;;智能答疑系统在电大开放教育中的应用研究[J];濮阳职业技术学院学报;2012年03期
2 廖开际;杨彬彬;;基于加权语义网的文本相似度计算的研究[J];情报杂志;2012年07期
3 和晓军;李宜兵;孙振国;;VSM模型在电信行业中的应用[J];沈阳理工大学学报;2010年03期
4 任姚鹏;陈立潮;张英俊;袁英;;结合语义的特征权重计算方法研究[J];计算机工程与设计;2010年10期
5 赵德平;蔡丽静;李鹏;;基于Newshingling的相似文本检测算法[J];沈阳建筑大学学报(自然科学版);2011年04期
6 周小平;王佳;马晓轩;;基于VSM的电子作业反抄袭系统的设计与实现[J];实验技术与管理;2013年03期
7 赵治军;陈立潮;谢斌红;王秀慧;;基于VSM的OAI-PMH元数据相似度计算研究[J];计算机技术与发展;2009年09期
8 成少梅;;利用IRF模型丰富文档的语义代表[J];网络安全技术与应用;2010年09期
中国硕士学位论文全文数据库 前10条
1 成少梅;利用IRF模型丰富文档的语义代表[D];武汉理工大学;2010年
2 蔡尚辉;范例推理在智能车辆监控数据处理系统中的应用[D];河北科技大学;2011年
3 王屾;基于Lucene的同义词扩展检索的研究与实现[D];天津财经大学;2011年
4 王利鑫;文本自动比对研究与应用[D];南京信息工程大学;2011年
5 马燕;基于快速相似度的Web结构挖掘的研究[D];南京信息工程大学;2011年
6 陈飞宏;基于向量空间模型的中文文本相似度算法研究[D];电子科技大学;2011年
7 罗叶飞;Web服务关系挖掘及应用研究[D];湖南科技大学;2011年
8 张添一;基于文本相似度计算的主观题自动阅卷技术研究[D];东北师范大学;2011年
9 牛庆鹏;博客潜在朋友推荐技术的研究[D];东北大学;2009年
10 赵军;基于音节统计语言模型蒙古文词汇分析校正器的设计与实现[D];内蒙古大学;2007年
【参考文献】
中国期刊全文数据库 前2条
1 薛翠芳,郭炳炎;汉语文本特征词的抽取方法[J];情报学报;2000年03期
2 骆正清,陈增武,王泽兵,胡上序;汉语自动分词研究综述[J];浙江大学学报(自然科学版);1997年03期
【共引文献】
中国期刊全文数据库 前10条
1 刘高原;张国平;;基于Nutch的搜索引擎技术[J];平顶山学院学报;2008年05期
2 湛述勇;;汉语文献自动分词与标引研究综述[J];情报科学;1992年05期
3 唐培丽;胡明;解飞;刘钢;;全文检索搜索引擎中文信息处理技术研究[J];情报科学;2006年06期
4 王华栋;饶培伦;;基于搜索引擎的中文分词评估方法[J];情报科学;2007年01期
5 马晶;战学秋;张旭利;;多层次模糊综合评判法在企业信息资源配置效率评价中的应用[J];情报科学;2009年02期
6 苏小虎;杨思春;;基于改进VSM的中文问答系统研究[J];情报理论与实践;2008年04期
7 苏志响;邵志清;;基于上下文统计反馈的中文特征词抽取方法[J];情报探索;2006年12期
8 张启宇;朱玲;张雅萍;;中文分词算法研究综述[J];情报探索;2008年11期
9 薛翠芳,郭炳炎;汉语文本结构的自动分析[J];情报学报;2000年04期
10 黄泽汉,邢昌凤;基于模糊推理的机动目标自适应多模型跟踪算法[J];情报指挥控制系统与仿真技术;2004年05期
中国重要会议论文全文数据库 前10条
1 谭天晓;李红霞;;液体推进剂贮运可靠性评估及预测的模糊故障树方法研究[A];全国危险物质与安全应急技术研讨会论文集(下)[C];2011年
2 韩统;董彦非;魏贤智;;多目标攻击中目标威胁评估的模糊综合评判[A];'2003系统仿真技术及其应用学术交流会论文集[C];2003年
3 李红霞;袁晓芳;田水承;王莉;;基于义类词典的煤矿瓦斯爆炸案例推理系统研究[A];中国职业安全健康协会2008年学术年会论文集[C];2008年
4 薛征;廖闻剑;;基于位置权重和实体识别的关键词提取[A];中国电子学会第十六届信息论学术年会论文集[C];2009年
5 李广原;冯嘉礼;;基于属性坐标的文本信息检索模型[A];广西计算机学会2005年学术年会论文集[C];2005年
6 马春雷;;基于向量空间模型的中文文本检索研究[A];2007年河北省电子学会、河北省计算机学会、河北省自动化学会、河北省人工智能学会、河北省计算机辅助设计研究会、河北省软件行业协会联合学术年会论文集[C];2007年
7 蔡雷;;基础性课题评审立项的模糊综合评价系统[A];第二届全国信息与电子工程学术交流会暨第十三届四川省电子学会曙光分会学术年会论文集[C];2006年
8 张娟;王慧锋;;文本分类技术在海量金融信息处理中的应用[A];第二十四届中国控制会议论文集(下册)[C];2005年
9 汪华峰;陈峪;;汉语自然语言理解中词切分中新词问题初探[A];第一届全国语言识别学术报告与展示会论文集[C];1990年
10 邹纲;刘洋;刘群;孟遥;于浩;西野文人;亢世勇;;面向Internet的中文新词语检测[A];2004年辞书与数字化研讨会论文集[C];2004年
中国硕士学位论文全文数据库 前10条
1 吕万里;中文文本分类技术研究[D];山东科技大学;2010年
2 冯海瑛;《万历野获编》分词理论与实践[D];广西师范学院;2010年
3 徐财应;基于Lucene的搜索引擎技术的研究与改进[D];长春理工大学;2010年
4 刘琪;正态云模型模糊推理系统及其应用研究[D];郑州大学;2010年
5 张燕丽;基于Winnow算法和CAPTCHA的垃圾短信过滤研究[D];郑州大学;2010年
6 雷斌;基于Java技术的智能化搜索引擎的研究与设计[D];哈尔滨工程大学;2010年
7 刘国峰;数据模板匹配研究及在社保审计中的应用[D];哈尔滨工程大学;2010年
8 刘洋;基于本体的医保审计知识库构建研究[D];哈尔滨工程大学;2010年
9 徐丽娟;汽车主动悬架振动控制方法的研究与效果分析[D];哈尔滨工程大学;2010年
10 井志强;基于扩展的VSM中文文本分类方法[D];哈尔滨工程大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 曹锦丹;基于文献知识单元的知识组织——文献知识库建设研究[J];情报科学;2002年11期
2 闫翔,陈远;中文智能搜索引擎现状探析[J];情报科学;2002年12期
3 岳修志;图书馆点击流数据仓库研究[J];情报科学;2005年06期
4 刘海峰;王元元;王倩;;基于分类的VSM模式下文本检索研究[J];情报科学;2006年11期
5 王华栋;饶培伦;;基于搜索引擎的中文分词评估方法[J];情报科学;2007年01期
6 易明;张扬;;基于全信息的“点击流”信息资源开发利用研究[J];情报科学;2007年02期
7 何莘;王琬芜;;自然语言检索中的中文分词技术研究进展及应用[J];情报科学;2008年05期
8 李雯静;许鑫;陈正权;;网络舆情指标体系设计与分析[J];情报科学;2009年07期
9 李有梅;基于词义的关键词抽取方法研究[J];情报理论与实践;2000年02期
10 黄晓斌;网络主题图的原理及应用[J];情报理论与实践;2004年03期
中国重要会议论文全文数据库 前1条
1 白硕;程学旗;郭莉;王斌;余智华;刘群;;大规模内容计算[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
中国硕士学位论文全文数据库 前10条
1 皮鹏;智能搜索引擎系统的研究[D];哈尔滨工程大学;2002年
2 陈安;数据仓库和数据挖掘技术在税务系统的应用[D];安徽大学;2003年
3 侯震宇;主题型搜索引擎的研究与实现[D];中国科学院研究生院(文献情报中心);2003年
4 陈魁;智能搜索引擎系统的分析设计与开发[D];大连理工大学;2004年
5 夏敏捷;基于WEB日志挖掘的智能化站点研究[D];郑州大学;2003年
6 凌海云;基于语义网的智能搜索技术的研究与实现[D];电子科技大学;2004年
7 李娅;范例推理方法在道路岩石边坡稳定性评价中的应用[D];西南交通大学;2004年
8 刘红星;分布式系统中的文本信息检索技术研究[D];清华大学;2004年
9 吴平博;基于事件框架的主题相关文档智能检索的初步研究[D];清华大学;2004年
10 李先锋;融合CBR与RBR道路交通事故处理专家系统原型研究[D];合肥工业大学;2005年
【二级引证文献】
中国期刊全文数据库 前10条
1 孙爱珍;叶向平;;功能词汇计算研究综述[J];复旦外国语言文学论丛;2011年02期
2 易明;操玉杰;毛进;;基于点击流的个性化信息检索研究[J];情报科学;2011年04期
3 张玉峰;蔡皎洁;;基于数据挖掘的Web文本语义分析与标注研究[J];情报理论与实践;2010年02期
4 彭继东;谭宗颖;;一种基于文本挖掘的专利相似度测量方法及其应用[J];情报理论与实践;2010年12期
5 赵辉;刘怀亮;范云杰;左晓飞;;一种基于语义的中文文本分类算法[J];情报理论与实践;2012年03期
6 廖开际;杨彬彬;;基于加权语义网的文本相似度计算的研究[J];情报杂志;2012年07期
7 和晓军;李宜兵;孙振国;;VSM模型在电信行业中的应用[J];沈阳理工大学学报;2010年03期
8 任姚鹏;陈立潮;张英俊;袁英;;结合语义的特征权重计算方法研究[J];计算机工程与设计;2010年10期
9 姜怡;姜欣;方淼;;基于互文性度量的文本翻译索引[J];计算机工程与设计;2010年15期
10 王利鑫;耿焕同;孙凯;张茜;;基于自然语言处理的文本泄密自动检测技术[J];计算机工程与设计;2011年08期
中国硕士学位论文全文数据库 前10条
1 王森;基于主题树的自上而下文本复制检测研究[D];大连理工大学;2010年
2 徐德玉;中文文档内容相似度检测方法研究[D];长春工业大学;2010年
3 李琼;构件测试信息表示与检索的研究与实现[D];昆明理工大学;2009年
4 石安磊;基于文本相似度评分的中医案例分析系统研究与实现[D];西北大学;2011年
5 李凤;本体协助的客户关系管理系统的研究与实现[D];华北电力大学(北京);2011年
6 蔡尚辉;范例推理在智能车辆监控数据处理系统中的应用[D];河北科技大学;2011年
7 陈永超;基于字数差别因子的中文文本相似度研究[D];湖北工业大学;2011年
8 戴雪梅;面向购物的聚类搜索引擎的研究与实现[D];北京交通大学;2011年
9 梁浩;网络新闻相似度检测系统[D];吉林大学;2011年
10 孙胜平;中文微博客热点话题检测与跟踪技术研究[D];北京交通大学;2011年
【二级参考文献】
中国期刊全文数据库 前8条
1 苏新宁;汉语词切分标引算法的改进[J];情报学报;1996年06期
2 解冲锋,李 星;基于序列的文本自动分类算法[J];软件学报;2002年04期
3 周丽琴,杨季文,吕强;基于Web的字词频统计程序的设计与应用[J];苏州大学学报(自然科学);2002年01期
4 陈玉泉,朱锡钧,陆汝占;文本数据的数据挖掘算法[J];上海交通大学学报;2000年07期
5 王科,高常波,翟雪峰,罗万伯;汉语分词的主要技术及其应用展望[J];通信技术;2003年06期
6 史继红,赖茂生;汉语自动标引加权方法试验研究[J];现代图书情报技术;1994年03期
7 王淼;单汉字标引技术的改进研究[J];现代图书情报技术;1997年02期
8 黄昌宁;中文信息处理中的分词问题[J];语言文字应用;1997年01期
中国重要会议论文全文数据库 前1条
1 车万翔;刘挺;秦兵;李生;;面向双语句对检索的汉语句子相似度计算[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
【相似文献】
中国期刊全文数据库 前10条
1 赵德平;蔡丽静;李鹏;;基于Newshingling的相似文本检测算法[J];沈阳建筑大学学报(自然科学版);2011年04期
2 张跃,姚天顺;基于结合性自动识别中文姓名[J];小型微型计算机系统;1997年10期
3 肖文辉;;基于MySQL的全文检索系统的研究与应用[J];广西质量监督导报;2008年06期
4 肖克曦;;在线英语语料库自动分词和分句的实现[J];电脑知识与技术;2010年28期
5 李家福,张亚非;一种基于概率模型的分词系统[J];系统仿真学报;2002年05期
6 龚汉明,周长胜;汉语分词技术综述[J];北京机械工业学院学报;2004年03期
7 许云,樊孝忠,张锋;一种不需分词的中文文本分类方法[J];北京理工大学学报;2005年09期
8 陈福生;;全文检索在网站搜索系统中的应用[J];电脑编程技巧与维护;2009年12期
9 徐九韵,仝兆岐,向逐聪,王新民;数据库汉语查询语言的分词研究与实现[J];中文信息学报;1998年04期
10 赵晓凡;胡顺义;;基于正向最大匹配的汉语分词[J];安阳师范学院学报;2010年05期
中国重要会议论文全文数据库 前10条
1 徐润华;陈小荷;;一种利用注疏的《左传》分词新方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 李怡平;吴飞;;多语言环境下的分布式互联网分词平台[A];第十六届全国数据库学术会议论文集[C];1999年
3 赵伟;路永刚;吴琼;;一种新的基于BMM和RMM分词方法的研究与实现[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
4 徐冰;姚建民;杨沐昀;赵铁军;;汉语分词在机器翻译评价中的影响[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
5 陈丽江;;ACL-SIGHAN第一届国际中文分词竞赛评述[A];第二届全国学生计算语言学研讨会论文集[C];2004年
6 通拉嘎;;汉、蒙、藏、维分词与词性标注技术发展现状研究[A];第五届全国青年计算语言学研讨会论文集[C];2010年
7 周俊;孙啸;;频繁序列算法在生物信息挖掘中的应用[A];第十次中国生物物理学术大会论文摘要集[C];2006年
8 徐志明;丛帅;王宇颖;雷萌;;基于仿生模式识别文本分类算法[A];第五届全国信息检索学术会议论文集[C];2009年
9 苏新春;顾江萍;;“人”“机”分词差异及规范词典的收词依据——对645条常用词未见于《现汉》的思考[A];中国辞书论集2000[C];2000年
10 刘桐菊;于浩;赵铁军;;基于标引技术的特定领域XML文本自动生成[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
中国重要报纸全文数据库 前10条
1 高岚;海量在线做搜索引擎“卖水人”[N];中国计算机报;2004年
2 陆元婕;聪明的搜索引擎[N];中国计算机报;2001年
3 本报记者 侯闯;让企业不再“眼花”[N];计算机世界;2003年
4 章森 王伟;搜索引擎的工作机制[N];计算机世界;2006年
5 ;大恒FTR全文检索软硬件解决方案[N];计算机世界;2001年
6 本报记者 张彤;让计算机说中国话[N];网络世界;2004年
7 朱艳;术语解释[N];中国电脑教育报;2000年
8 ;语言信息处理呼唤知识应用[N];中国计算机报;2003年
9 郑昊;数据挖掘加工海量数据[N];中国计算机报;2007年
10 郭延礼;都德《最后一课》的首译、伪译及其全译文本[N];中华读书报;2008年
中国博士学位论文全文数据库 前10条
1 刘兴林;中文词汇知识获取算法和语义计算研究及应用[D];华南理工大学;2012年
2 王乐;短语消息聚类相关技术研究[D];国防科学技术大学;2008年
3 侯锋;中文报业出版的文字质量智能辅助控制技术研究[D];国防科学技术大学;2010年
4 朱聪慧;汉英动词次范畴相关技术的研究[D];哈尔滨工业大学;2009年
5 孙晓;中文词法分析的研究及其应用[D];大连理工大学;2010年
6 蒋昌金;基于关键词提取的中文网页自动文摘方法研究[D];华南理工大学;2010年
7 刘磊;概念内涵属性计算研究[D];上海交通大学;2011年
8 王秀红;文本相似度计算核函数的构造及其在分布式信息检索中的应用研究[D];江苏大学;2012年
9 马建斌;中文Web信息作者同一认定技术研究[D];河北农业大学;2010年
10 李军辉;中文句法语义分析及其联合学习机制研究[D];苏州大学;2010年
中国硕士学位论文全文数据库 前10条
1 沈斌;基于分词的中文文本相似度计算研究[D];天津财经大学;2006年
2 张海燕;基于分词的中文文本自动分类研究与实现[D];湖南大学;2002年
3 陈思;中文文本投诉信息自动分类系统研究[D];东北师范大学;2010年
4 赵春红;外包数据库模型中文本数据完整性检测方案的研究[D];燕山大学;2010年
5 卢育红;半结构化药物数据智能分类技术研究与系统实现(全日制专业学位)[D];北京交通大学;2011年
6 卢忠良;基于多类的汉语文本自动分类研究[D];中国人民解放军国防科学技术大学;2002年
7 苗玺;中文语料库切分不一致字串分类校验方法研究[D];山西大学;2006年
8 张楚屏;从分词的静词作用看分词在计算机英语中的翻译方法[D];华中科技大学;2006年
9 盛鹏;基于全文过滤的垃圾邮件防范机制[D];昆明理工大学;2006年
10 皮鹏;智能搜索引擎系统的研究[D];哈尔滨工程大学;2002年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026