收藏本站
《中国科学院研究生院(沈阳计算技术研究所)》 2015年
收藏 | 手机打开
二维码
手机客户端打开本文

基于语义理解的文本相似度计算研究与实现

孙润志  
【摘要】:文本相似度计算主要是通过建立算法模型计算两个或者多个文本信息之间内容、语法、结构的相似程度,它是实现文本信息处理的一项关键技术,很多重要的研究应用都与它相关。文本相似度计算大多采用词频统计的方法,其中最具代表意义的是向量空间模型VSM,它将文本表示成特征项向量,利用特征项向量夹角余弦表示文本相似度。除此之外还有基于广义空间向量模型GVSM算法、隐形语义索引LSI算法、基于字符串的匹配算法、指纹识别算法等等。基于语义理解的文本相似度计算方法,通常以某种知识库作为依据,加入词语语义、句子语义、段落语义等因素,计算结果更加适用于实际应用中。传统的《知网》文本相似度算法是建立在VSM模型的基础上,将文本所有特征项向量表示为文本《知网》义原空间向量,加入了对词汇语义因素的考量。本文在原有算法的基础上做出改进,一方面利用《知网》的义原层次结构,对义原的相似度计算方法做出改进,添加语义深度和语义密度因素,使计算结果更加完善,另一方面在原有算法的基础上加入段落相似度,增加段落相似度对整个文本相似度的影响。本文采用文本聚类方法对提出的本文算法有效性进行验证,通过对文本聚类的实验,证明了算法性能的提高。本文根据相似度算法理论研究,采用J2EE技术构架和相关开源技术实现文本相似度系统。本文系统设计根据功能划分为四个模块:《知网》数据处理模块、文本预处理模块、文本向量构建模块、综合计算模块,对于不同模块给出设计和实现方案,系统采用NLPIR、Lucene、SSH等开源软件完成对文本义原的表示和相似度的计算过程。最后本文实现的相似度系统应用到实际的工程中,取得了不错的效果。
【学位授予单位】:中国科学院研究生院(沈阳计算技术研究所)
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.1

免费申请
【参考文献】
中国期刊全文数据库 前8条
1 贺胜;卢亚军;;面向大规模语料库的全文检索系统研究[J];图书与情报;2008年04期
2 田久乐;赵蔚;;基于同义词词林的词语相似度计算方法[J];吉林大学学报(信息科学版);2010年06期
3 金博;史彦军;滕弘飞;;基于篇章结构相似度的复制检测算法[J];大连理工大学学报;2007年01期
4 张焕炯,王国胜,钟义信;基于汉明距离的文本相似度计算[J];计算机工程与应用;2001年19期
5 孙霞;程宏斌;;基于模式的XML文档相似度算法[J];计算机工程;2010年21期
6 董振东;董强;郝长伶;;知网的理论发现[J];中文信息学报;2007年04期
7 任永功;杨荣杰;尹明飞;马名威;;基于信息增益的文本特征选择方法[J];计算机科学;2012年11期
8 余刚;裴仰军;朱征宇;陈华月;;基于词汇语义计算的文本相似度研究[J];计算机工程与设计;2006年02期
中国博士学位论文全文数据库 前1条
1 毛勇;基于支持向量机的特征选择方法的研究与应用[D];浙江大学;2006年
中国硕士学位论文全文数据库 前1条
1 唐凌志;基于语义理解的论文相似度研究[D];湘潭大学;2011年
【共引文献】
中国期刊全文数据库 前10条
1 刘高军;马砚忠;段建勇;;基于维基百科的中文命名实体关联度计算[J];北方工业大学学报;2012年01期
2 敖成龙,苏英,龚元明;基于相似度的复杂数据对象比较[J];北京理工大学学报;2003年05期
3 王涛;樊孝忠;林培光;陈康;;基于复杂特征集的剽窃检测[J];北京理工大学学报;2008年02期
4 游福成;;一种基于反馈机制的Web文本挖掘分类算法[J];北京印刷学院学报;2009年02期
5 田久乐;赵蔚;;基于同义词词林的词语相似度计算方法[J];吉林大学学报(信息科学版);2010年06期
6 张元;陈亮;王文种;王军战;;遥感图像土地覆盖分类中多源特征数据选择研究[J];测绘科学;2009年02期
7 刘冲;李春胜;赵海滨;王宏;;特征选择算法在ECoG分类中的应用[J];东北大学学报(自然科学版);2011年05期
8 李旭;赵亚伟;刘国华;;基于指纹和语义特征的文档复制检测方法[J];燕山大学学报;2008年04期
9 周如旗;基于扩展Petri网的文本分类模型[J];电脑与信息技术;2005年04期
10 张霞;马一宁;陈静汝;;一种基于用户查询意图的聚类分析算法[J];电脑知识与技术;2012年14期
中国重要会议论文全文数据库 前4条
1 易超群;李建平;朱成文;;一种改进的浮动搜索特征子集算法[A];'2010系统仿真技术及其应用学术会议论文集[C];2010年
2 王智超;季铎;蔡东风;张桂平;;文本聚类中基于知网的特征抽取方法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
3 张亮;尹存燕;陈家骏;;基于语义树的中文词语相似度计算与分析[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
4 章成志;;基于多语文本聚类的主题层次体系生成研究1)[A];国家自然科学基金委员会管理科学部宏观管理与政策学科青年基金获得者交流研讨会论文集[C];2010年
中国博士学位论文全文数据库 前10条
1 荆涛;面向领域网页的语义标注若干问题研究[D];吉林大学;2011年
2 熊回香;面向Web3.0的大众分类研究[D];华中师范大学;2011年
3 赵威;电网数据中心的数据安全问题研究[D];燕山大学;2011年
4 肖珊;基于概念语义的言说动词系统研究[D];武汉大学;2011年
5 李世奇;面向文景转换的中文浅层语义分析方法研究[D];哈尔滨工业大学;2011年
6 魏圆圆;基于本体论的农业知识建模及推理研究[D];中国科学技术大学;2011年
7 李侠;配价理论与语义词典[D];黑龙江大学;2011年
8 颜端武;面向知识服务的智能推荐系统研究[D];南京理工大学;2007年
9 王朝勇;支持向量机若干算法研究及应用[D];吉林大学;2008年
10 胡佳妮;文本挖掘中若干关键问题的研究[D];北京邮电大学;2008年
中国硕士学位论文全文数据库 前10条
1 徐德玉;中文文档内容相似度检测方法研究[D];长春工业大学;2010年
2 石安磊;基于文本相似度评分的中医案例分析系统研究与实现[D];西北大学;2011年
3 陈永超;基于字数差别因子的中文文本相似度研究[D];湖北工业大学;2011年
4 梁浩;网络新闻相似度检测系统[D];吉林大学;2011年
5 王利鑫;文本自动比对研究与应用[D];南京信息工程大学;2011年
6 陈飞宏;基于向量空间模型的中文文本相似度算法研究[D];电子科技大学;2011年
7 王品;基于加权语法依存度的查询模型研究[D];河南科技大学;2011年
8 赵倩倩;维吾尔语信息检索[D];天津大学;2012年
9 王广正;基于知网语义相关度计算的汉语自动分词方法的研究[D];云南师范大学;2006年
10 杨霞;属性约简算法和文本相似度计算在智能分析系统的研究[D];电子科技大学;2007年
【二级参考文献】
中国期刊全文数据库 前10条
1 邓志鸿,唐世渭,张铭,杨冬青,陈捷;Ontology研究综述[J];北京大学学报(自然科学版);2002年05期
2 蒋溢;丁优;熊安萍;王化晶;;一种基于知网的词汇语义相似度改进计算方法[J];重庆邮电大学学报(自然科学版);2009年04期
3 赵蔚;刘秀琴;邱百爽;;语义网自适应学习系统中领域本体的构建[J];吉林大学学报(信息科学版);2008年05期
4 田久乐;赵蔚;;基于同义词词林的词语相似度计算方法[J];吉林大学学报(信息科学版);2010年06期
5 吕学强,任飞亮,黄志丹,姚天顺;句子相似模型和最相似句子查找算法[J];东北大学学报;2003年06期
6 史彦军,滕弘飞,金博;抄袭论文识别研究与进展[J];大连理工大学学报;2005年01期
7 金博,史彦军,滕弘飞;基于语义理解的文本相似度算法[J];大连理工大学学报;2005年02期
8 张启宇;朱玲;孙爱娥;;文本相似度的计算[J];电脑知识与技术;2008年34期
9 孟晓明;;浅谈搜索引擎及其发展趋势[J];福建电脑;2006年03期
10 程涛;施水才;王霞;吕学强;;基于同义词词林的中文文本主题词提取[J];广西师范大学学报(自然科学版);2007年02期
中国重要会议论文全文数据库 前1条
1 关毅;王晓龙;;基于统计的汉语词汇间语义相似度计算[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
中国博士学位论文全文数据库 前2条
1 鲁松;自然语言处理中词相关性知识无导获取和均衡分类器构建[D];中国科学院研究生院(计算技术研究所);2001年
2 宋玲;语义相似度计算及其应用研究[D];山东大学;2009年
中国硕士学位论文全文数据库 前5条
1 张玉娟;基于《知网》的句子相似度计算的研究[D];中国地质大学(北京);2006年
2 游春晖;基于语义情感倾向的文本相似度计算[D];电子科技大学;2008年
3 王利局;基于语义分析树核的句子相似度计算[D];大连理工大学;2008年
4 荆路;基于本体的文本相似度研究与实现[D];沈阳工业大学;2009年
5 唐琦;基于语义分析的句子相似度计算研究[D];华北电力大学(北京);2009年
【相似文献】
中国期刊全文数据库 前10条
1 李伟;;中文语句相似度计算的方法初探[J];兰州工业高等专科学校学报;2009年04期
2 兰美辉;任友俊;徐坚;高炜;;k-部排序本体相似度计算[J];计算机应用;2012年04期
3 詹志建;梁丽娜;杨小平;;基于百度百科的词语相似度计算[J];计算机科学;2013年06期
4 田芳;;基于词语情感倾向的问句相似度计算[J];安庆师范学院学报(自然科学版);2014年02期
5 李锋,周凯波,冯珊;基于统计特征的属性相似度计算模型[J];华中科技大学学报(自然科学版);2005年06期
6 李仲生;王家琴;;基于本体的上层概念间相似度计算的研究[J];科学技术与工程;2007年10期
7 智慧来;智东杰;刘宗田;;基于概念格的概念相似度计算[J];计算机科学;2008年09期
8 贾宗福;王知非;;中文句子相似度计算的研究[J];科技信息;2009年11期
9 袁正午;李玉森;张雪英;;基于属性的文本相似度计算算法改进[J];计算机工程;2009年17期
10 邓林;李斌;郑南;;基于本体相似度计算的研究[J];电脑知识与技术;2010年13期
中国重要会议论文全文数据库 前10条
1 刘磊;张桂平;蔡东风;季铎;;基于语义预测的双语术语相似度计算[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
2 郭丽;蔡东风;季铎;白宇;;统计与语义相融合的词语相似度计算[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
3 吴志雄;;不精确数据的相似度计算[A];逻辑学及其应用研究——第四届全国逻辑系统、智能科学与信息科学学术会议论文集[C];2008年
4 王凯;李绍稳;张友华;刘超;;缺值背景中的粗糙形式概念相似度计算理论与方法[A];中国农业工程学会电气信息与自动化专业委员会、中国电机工程学会农村电气化分会科技与教育专委会2010年学术年会论文摘要[C];2010年
5 陈立;宋自林;郑世明;张英;;基于本体的概念相似度计算研究[A];江苏省系统工程学会第十一届学术年会论文集[C];2009年
6 车万翔;刘挺;秦兵;李生;;面向双语句对检索的汉语句子相似度计算[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
7 郭文宏;范学峰;;基于语义词典和本体知识的概念相似度计算[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年
8 宋彦;张桂平;蔡东风;;基于N-gram的句子相似度计算技术[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
9 关毅;王晓龙;王强;;论系统相似的度量[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
10 林民;宋柔;;基于结构描述的汉字字形相似度计算[A];第三届学生计算语言学研讨会论文集[C];2006年
中国重要报纸全文数据库 前1条
1 海量智能计算技术研究中心 霍刚;新兴技术为互联网加速[N];计算机世界;2007年
中国博士学位论文全文数据库 前4条
1 冯晓文;基于GPU的相似度计算关键技术研究[D];华中科技大学;2014年
2 王秀红;文本相似度计算核函数的构造及其在分布式信息检索中的应用研究[D];江苏大学;2012年
3 刘磊;概念内涵属性计算研究[D];上海交通大学;2011年
4 任磊;推荐系统关键技术研究[D];华东师范大学;2012年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026