收藏本站
《西北大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

文本相似度计算理论与应用研究

马军红  
【摘要】:文本的相似度计算是信息处理领域中一项基础而又重要的工作,它是实现文本数据挖掘的关键技术,许多重要的应用研究都与它相关。例如在文本复制检测、文本分类、文本聚类、信息检索等领域中,文本相似度计算都有着广泛的应用,值得我们进一步研究和探讨。 缺乏坚实的理论依据和不能完全拟合文本的特性,是现有的文本相似度计算模型的弱点。中文文本的理解和处理相对于英文文本,则更加具有难度。为了能对现有的算法进行改进,本文详细比较了中文信息处理中的各种文本相似度计算方法,分析其特点和不足之处,提出了自己的改进方法:一个分阶段融合的语义相似度计算方法。最后,本文从文本相似度理论、方法和应用结合的角度出发,结合文本聚类的特点,探讨了文本相似度计算在文本聚类中的应用。 本文主要工作内容如下: 1)现有文本相似度计算方法研究。本文讨论了现有的几种相似度计算方法,介绍了相似度计算的关键技术和存在问题,为后续研究做好了理论基础; 2)提出了一种新的分阶段融合的语义相似度计算方法。从语义角度理解汉语,比基于统计的方法更贴切。通过研究和对比,本文提出了从句子、段落到文本整体分阶段进行的计算方法,结合每个阶段的特点,分别融入了对文本语义的计算因素,力求最后的相似度计算结果更为准确。 3)以文本聚类为例,把本文提出的相似度计算方法应用到文本聚类中去,具体说明了文本相似度计算的影响和应用。实验证明改进后的算法取得了更好的效果。
【学位授予单位】:西北大学
【学位级别】:硕士
【学位授予年份】:2011
【分类号】:TP391.1

【参考文献】
中国期刊全文数据库 前10条
1 许云,樊孝忠,张锋;基于知网的语义相关度计算[J];北京理工大学学报;2005年05期
2 薛为民;陆玉昌;;文本挖掘技术研究[J];北京联合大学学报(自然科学版);2005年04期
3 金博,史彦军,滕弘飞;基于语义理解的文本相似度算法[J];大连理工大学学报;2005年02期
4 苏小虎;;VSM的权重改进对文档相似度的影响研究[J];电脑知识与技术;2008年10期
5 王晓东;郭雷;方俊;董淑福;;一种基于EMD的文档语义相似性度量[J];电子与信息学报;2008年09期
6 汪前进;施珺;;文档相似度量算法的研究与应用[J];淮海工学院学报(自然科学版);2007年03期
7 张焕炯,王国胜,钟义信;基于汉明距离的文本相似度计算[J];计算机工程与应用;2001年19期
8 宋玲;马军;连莉;张志军;;文档相似度综合计算研究[J];计算机工程与应用;2006年30期
9 徐德智;肖文芳;王怀民;;本体映射过程中的概念相似度计算[J];计算机工程与应用;2007年09期
10 曹恬;周丽;张国煊;;一种基于词共现的文本相似度计算[J];计算机工程与科学;2007年03期
中国硕士学位论文全文数据库 前8条
1 李康;自然语言理解中的语义形式化研究[D];西北工业大学;2007年
2 朱小娟;基于支持向量机的中文分词系统的研究[D];中南大学;2007年
3 孙爽;基于语义相似度的文本聚类算法的研究[D];南京航空航天大学;2007年
4 罗丽俊;中文信息处理中若干技术的研究与实现[D];辽宁科技大学;2008年
5 方春;组合聚类方法在文本聚类中的应用研究[D];华中师范大学;2009年
6 张宇;WEB中文文本聚类分类系统的设计与实现[D];西南交通大学;2009年
7 金希茜;基于语义相似度的中文文本相似度算法研究[D];浙江工业大学;2009年
8 徐昕;文本相似性度量中参数相关性与优化配置研究[D];中南大学;2010年
【共引文献】
中国期刊全文数据库 前10条
1 罗长寿;张峻峰;孙素芬;魏清凤;;基于改进VSM的农业实用技术自动问答系统研究[J];安徽农业科学;2009年28期
2 孙喜来;王欣;葛昂;郑家民;邓宏斌;;面向相似度的多维异构数据比对模型研究[J];信息安全与技术;2011年09期
3 杨瑞朋;刘凤荣;彭祥新;;智能Agent技术在个性化信息检索中的应用[J];兵工自动化;2008年01期
4 郑康锋;郭世泽;杨义先;王秀娟;;基于树与网结合的可控蠕虫网络结构模型[J];兵工学报;2008年10期
5 李玉鑑;操卫平;周兰珍;;结构化向量空间模型及其在Web信息检索中的应用[J];北京工业大学学报;2008年04期
6 敖成龙,苏英,龚元明;基于相似度的复杂数据对象比较[J];北京理工大学学报;2003年05期
7 游福成;;一种基于反馈机制的Web文本挖掘分类算法[J];北京印刷学院学报;2009年02期
8 焦黎冰;封化民;何文才;李雪龙;;一种改进的基于Web的新闻视频内容语义分析方法[J];江西师范大学学报(自然科学版);2008年02期
9 张鹏;王国胤;陶春梅;罗海;;基于本体粗糙集的程序代码相似度度量方法[J];重庆邮电大学学报(自然科学版);2008年06期
10 王纪辉;赵卓宁;;基于协同过滤算法的电子商务网站个性化推荐系统设计[J];成都信息工程学院学报;2007年S1期
中国重要会议论文全文数据库 前10条
1 李红霞;袁晓芳;田水承;王莉;;基于义类词典的煤矿瓦斯爆炸案例推理系统研究[A];中国职业安全健康协会2008年学术年会论文集[C];2008年
2 李广原;冯嘉礼;;基于属性坐标的文本信息检索模型[A];广西计算机学会2005年学术年会论文集[C];2005年
3 李明宙;罗艳;王宗义;;Lucene全文检索引擎的研究及应用[A];广西计算机学会2010年学术年会论文集[C];2010年
4 侯松;周斌;贾焰;;分词结果的再搭配对文本分类效果的增强[A];全国计算机安全学术交流会论文集(第二十四卷)[C];2009年
5 杜志文;曾文华;;网格计算在文本分类中的应用[A];2006年全国开放式分布与并行计算机学术会议论文集(三)[C];2006年
6 武洪萍;周国祥;;Web文本挖掘研究[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
7 陈黎黎;冯嘉礼;;基于属性坐标学习和分析的教学质量评估模型[A];全国第19届计算机技术与应用(CACIS)学术会议论文集(下册)[C];2008年
8 眭新光;沈蕾;燕继坤;朱中梁;;基于Adaboost的文本隐写分析[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
9 赵妍妍;秦兵;刘挺;张俐;苏中;;基于多特征融合的句子相似度计算[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
10 周俏丽;蔡东风;张桂平;季铎;林晓庆;;基于最大熵的“vp np的np”句法结构排歧[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 眭新光;文本信息隐藏及分析技术研究[D];解放军信息工程大学;2007年
2 杨抒;基于WEB的林产品信息资源整合方法研究[D];北京林业大学;2011年
3 田俊华;基于本体知识库的教学资源自动采集技术研究[D];南京师范大学;2011年
4 毋贤祥;网络环境下国有企业智能监管研究[D];武汉理工大学;2011年
5 邸书灵;Agent联盟和流形学习在中文问答系统中的应用研究[D];天津大学;2010年
6 赵威;电网数据中心的数据安全问题研究[D];燕山大学;2011年
7 邵世维;基于几何特征的多尺度矢量面状实体匹配方法研究与应用[D];武汉大学;2011年
8 朱倩;面向自由文本的细粒度关系抽取的关键技术研究[D];江苏大学;2011年
9 曹玉东;图像检索中的特征表示和索引方法的研究[D];北京邮电大学;2011年
10 冯嘉礼;核电站严重事故应急决策支持系统及其计算机实现研究[D];中国原子能科学研究院;2001年
中国硕士学位论文全文数据库 前10条
1 范丹;Web检索中的查询扩展及结果聚类技术研究[D];辽宁师范大学;2010年
2 雷斌;基于Java技术的智能化搜索引擎的研究与设计[D];哈尔滨工程大学;2010年
3 张珍军;基于内容的图像检索技术研究[D];哈尔滨工程大学;2010年
4 井志强;基于扩展的VSM中文文本分类方法[D];哈尔滨工程大学;2010年
5 朴红吉;基于分布式多索引融合的专利信息检索研究[D];大连理工大学;2010年
6 刘辉;基于KNN算法的中文Web文本分类技术研究[D];辽宁工程技术大学;2010年
7 吴世汉;面向查询的XML文本摘要技术[D];江西财经大学;2010年
8 丛肖为;敏感信息监管系统的设计与实现[D];华东师范大学;2010年
9 张晓艳;面向农业信息服务平台的挖掘技术研究[D];湖南工业大学;2010年
10 孙萍;面向事件的多文档自动文摘研究[D];江苏大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 王建芬,曹元大;支持向量机在大类别数分类中的应用[J];北京理工大学学报;2001年02期
2 李旭;赵亚伟;刘国华;;基于指纹和语义特征的文档复制检测方法[J];燕山大学学报;2008年04期
3 詹卫东;80年代以来汉语信息处理研究述评──作为现代汉语语法研究的应用背景之一[J];当代语言学;2000年02期
4 史彦军,滕弘飞,金博;抄袭论文识别研究与进展[J];大连理工大学学报;2005年01期
5 金博,史彦军,滕弘飞;基于语义理解的文本相似度算法[J];大连理工大学学报;2005年02期
6 李蓉 ,叶世伟 ,史忠植;SVM-KNN分类器——一种提高SVM分类精度的新方法[J];电子学报;2002年05期
7 于剑,程乾生;关于FCM算法中的权重指数m的一点注记[J];电子学报;2003年03期
8 王莉,王正欧;TGSOM:一种用于数据聚类的动态自组织映射神经网络[J];电子与信息学报;2003年03期
9 刘小冬,李学良,张蕾;知识图综述[J];工程数学学报;2000年S1期
10 刘晓霞;新的知识表示方法-概念图[J];航空计算技术;1997年04期
中国重要会议论文全文数据库 前1条
1 车万翔;刘挺;秦兵;李生;;面向双语句对检索的汉语句子相似度计算[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
中国博士学位论文全文数据库 前5条
1 程军;基于统计的文本分类技术研究[D];中国科学院研究生院(文献情报中心);2003年
2 宋枫溪;自动文本分类若干基本问题研究[D];南京理工大学;2004年
3 王建会;中文信息处理中若干关键技术的研究[D];复旦大学;2004年
4 刘云峰;基于潜在语义分析的中文概念检索研究[D];华中科技大学;2005年
5 王秀娟;文本检索中若干问题研究[D];北京邮电大学;2006年
中国硕士学位论文全文数据库 前10条
1 孙丽华;中文文本自动分类的研究[D];哈尔滨工程大学;2002年
2 张猛;文本聚类中参数自动设置技术的研究与实现[D];东北大学;2005年
3 沈斌;基于分词的中文文本相似度计算研究[D];天津财经大学;2006年
4 张峰;基于自然语言处理的自动文摘系统[D];电子科技大学;2006年
5 周昭涛;文本聚类分析效果评价及文本表示研究[D];中国科学院研究生院(计算技术研究所);2005年
6 刘小宇;基于语义理解的中文常问问答系统的研究[D];大连理工大学;2006年
7 张旭;一个基于词典与统计的中文分词算法[D];电子科技大学;2007年
8 史金成;基于相关性的数据流聚类及其应用研究[D];合肥工业大学;2007年
9 王卫玲;web文本分类中特征向量优化技术研究[D];山东师范大学;2007年
10 郑伟;文本分类特征选取技术研究[D];内蒙古大学;2008年
【相似文献】
中国期刊全文数据库 前10条
1 周俏丽;蔡东风;吕德新;朱江涛;吴英泽;;基于语义相似度的句法歧义结构消解[J];沈阳航空工业学院学报;2006年01期
2 余刚;裴仰军;朱征宇;陈华月;;基于词汇语义计算的文本相似度研究[J];计算机工程与设计;2006年02期
3 朱礼军,陶兰,刘慧;领域本体中的概念相似度计算[J];华南理工大学学报(自然科学版);2004年S1期
4 谌志群;张国煊;;基于浅层文本分析的中文Web信息检索[J];杭州电子科技大学学报;2008年01期
5 何雯洁;戴仕明;杨珺;;基于层次分析法的本体映射[J];计算机与现代化;2008年05期
6 李欢,宋麦玲,杨捷;基于内容的图像检索系统[J];自动化博览;2005年04期
7 史豪杰;邢清华;刘付显;;基于引入概率的范例匹配新方法[J];计算机工程与应用;2009年10期
8 王煜;白石;王正欧;;用于Web文本分类的快速KNN算法[J];情报学报;2007年01期
9 赵俊杰;胡学钢;;基于文本分类的文档相似度计算[J];微型电脑应用;2008年12期
10 郝祥根;杨思春;高远飙;张伟;;基于向量空间模型的中文问答系统研究与实现[J];苏州科技学院学报(自然科学版);2009年01期
中国重要会议论文全文数据库 前10条
1 陈立;宋自林;郑世明;张英;;基于本体的概念相似度计算研究[A];江苏省系统工程学会第十一届学术年会论文集[C];2009年
2 王凯;李绍稳;张友华;刘超;;缺值背景中的粗糙形式概念相似度计算理论与方法[A];中国农业工程学会电气信息与自动化专业委员会、中国电机工程学会农村电气化分会科技与教育专委会2010年学术年会论文摘要[C];2010年
3 吴志雄;;不精确数据的相似度计算[A];逻辑学及其应用研究——第四届全国逻辑系统、智能科学与信息科学学术会议论文集[C];2008年
4 车万翔;刘挺;秦兵;李生;;面向双语句对检索的汉语句子相似度计算[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
5 陈光强;杨树强;张晓辉;李润恒;贾焰;;面向海量文本数据的多任务并行调度加载技术研究与实现[A];第15届全国信息存储技术学术会议论文集[C];2008年
6 朱嫣岚;闵锦;周雅倩;黄萱菁;吴立德;;基于HowNet的词汇语义倾向计算[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
7 郭丽;蔡东风;季铎;白宇;;统计与语义相融合的词语相似度计算[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
8 沈君;马生全;;两种新的相似性度量在模糊推理中的应用[A];中国运筹学会模糊信息与模糊工程分会第五届学术年会论文集[C];2010年
9 张亮;尹存燕;陈家骏;;基于语义树的中文词语相似度计算与分析[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
10 余超;蔡东风;张桂平;;词汇语义相似度计算中相关技术的分析[A];第三届学生计算语言学研讨会论文集[C];2006年
中国重要报纸全文数据库 前10条
1 曾华燊;化繁为简: 提升NGI服务质量[N];计算机世界;2006年
2 实习生 赵静记者 黄雪英;自贡馆藏文物数据库系统建立[N];自贡日报;2008年
3 海量智能计算技术研究中心 霍刚;新兴技术为互联网加速[N];计算机世界;2007年
4 Jim Goodnight;BI:演进中勾勒未来[N];网络世界;2007年
5 张耀南 杨海 韦五周 景通桥 张军强;寒区旱区数据管理平台[N];计算机世界;2006年
6 王;汇总通话、加速Web显示[N];中国计算机报;2001年
7 本报记者 谢斌鑫;视频的短板[N];中国计算机报;2004年
8 苏和;电子检务该如何推行[N];检察日报;2007年
9 记者 洪奕宜;网站特设专区 委员“开博议政”[N];南方日报;2007年
10 ;BI的新方向[N];网络世界;2007年
中国博士学位论文全文数据库 前10条
1 王秀红;文本相似度计算核函数的构造及其在分布式信息检索中的应用研究[D];江苏大学;2012年
2 孙晓华;基于聚类的文本机会发现关键问题研究[D];哈尔滨工程大学;2010年
3 宋万鹏;短文本相似度计算在用户交互式问答系统中的应用[D];中国科学技术大学;2010年
4 杜伟夫;文本倾向性分析中的情感词典构建技术研究[D];哈尔滨工业大学;2010年
5 刘春辰;基于本体的企业搜索优化技术研究[D];吉林大学;2012年
6 刘守群;海量网络视频快速检索关键技术研究[D];中国科学技术大学;2010年
7 李辉;移动商务导购系统的研究[D];大连理工大学;2008年
8 史先敏;中国栽培灵芝三萜成分的高效液相指纹图谱研究[D];南京农业大学;2008年
9 朱岩;面向文本数据的半监督学习研究[D];北京交通大学;2012年
10 李进;两性霉素B有关物质的质量研究与多元组分药物的质量控制和分析[D];中国协和医科大学;2007年
中国硕士学位论文全文数据库 前10条
1 马军红;文本相似度计算理论与应用研究[D];西北大学;2011年
2 桓乐乐;基于马尔科夫模型词序因子的文本相似度研究[D];湖北工业大学;2012年
3 李国佳;汉语全文相似度计算的研究及应用[D];电子科技大学;2011年
4 张宇;关系数据库中基于元组的关键词查询研究[D];燕山大学;2009年
5 罗晖霞;网络舆情监测系统研究与开发[D];中北大学;2010年
6 朱敏;基于丰心工学的情感信息可视化与充实度分析[D];北京邮电大学;2011年
7 徐淑坦;基于改进RBF神经网络的文本情感分类研究[D];吉林大学;2011年
8 时睿;面向短文本的网络舆情分析[D];西安电子科技大学;2012年
9 尹澎;基于相似度计算的领域本体间映射方法[D];河北大学;2010年
10 曹亚辉;非结构文本最佳近似匹配系统的研究与实现[D];东华大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026