收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于语义分析的文本相似度算法研究

尤金朋  
【摘要】:随着计算机信息技术的飞速发展,文本相似度逐渐成为信息处理领域的研究热点。目前基于语义分析的文本相似度算法一般都是利用语义词典对文本中的词汇进行分析,并没有考查词汇对文本主旨表达所做的贡献值,因此计算准确率较低。针对这个缺陷,本文提出了一种基于语义分析的文本相似度计算方法,该方法通过考查词汇语义权值对文本进行特征提取,并通过特征的语义权值来计算文本相似度。 本文首先研究了文本内部词汇的分布规律和词汇之间的关系,提出了一种基于语义分析和语义关系网络的文本特征提取算法。针对目前算法没有考查词汇对文本主旨表达所做贡献值的不足,该算法利用词汇语义相似度将文本抽象表示为一个语义关系网络,通过对网络中节点的重要性评估得到相应词汇的语义权值,并根据语义权值的排序结果提取文本特征,实验证明该算法提取的特征能够很好的代表文本主旨。 本文接着研究了两个文本特征集合之间的关系,提出了一种基于语义分析和二分图最优匹配的文本相似度算法。为了提高文本相似度计算的准确性,该算法考查了特征词汇在文本中的语义权值。该算法将两个文本特征集合表示为二分图的两个部分,其中每个部分中的节点为相应特征集合中的词汇,并通过特征词汇的语义权值和词汇间的语义相似度得到二分图中边的权值,继而利用二分图最优匹配算法得到最优匹配,最终根据匹配结果计算两个文本的相似度,实验证明该算法在一定程度上提高了文本相似度计算的正确性。 在上述研究的基础之上,本文对所提出的两个算法分别进行了实验验证。实验使用了大量文本作为数据集,并将实验结果与现有方法进行了对比。实验结果表明,本文算法在文本特征提取和文本相似度计算的准确率上均有较高的提升。最后结合所提方法的不足之处,对本文进行了总结,并指出了文本相似度计算尚需研究和改进的地方。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 刘华文;;模糊模式识别的基础——相似度量[J];模式识别与人工智能;2004年02期
2 范平;;Vague集之间的相似度量分析[J];咸宁学院学报;2007年03期
3 权双燕;;信息意义下Vague集的相似度量[J];计算机工程与应用;2007年25期
4 石玉强;;Vague(值)集间的接近度及其在网络信息过滤中的应用[J];琼州学院学报;2007年05期
5 石玉强;;Vague(值)集间的相似度量及其应用[J];计算机工程与应用;2008年11期
6 石玉强;吴家培;;Vague(值)集的相似度量及其在模式识别中的应用[J];仲恺农业技术学院学报;2008年02期
7 刘明;;一个Vague集(值)间的相似度量公式[J];琼州学院学报;2008年05期
8 张晓晨;张福金;王鸿绪;;基于Vague值的扩展的Vague集间的相似度量[J];计算机应用与软件;2009年03期
9 王鸿绪;;两类高区分能力的Vague集之间的相似度量[J];计算机工程与应用;2009年22期
10 秦轩;;Vague集及其相似度量[J];魅力中国;2010年14期
11 石玉强;王鸿绪;;Vague集之间的新相似度量及其在农业上的应用[J];计算机工程与应用;2010年33期
12 张诚一,党平安;关于Vague集之间的相似度量[J];计算机工程与应用;2003年17期
13 朱六兵;王迪焕;杨斌;;粗糙Vague集及其相似度量[J];模糊系统与数学;2006年03期
14 范平;梁家荣;李天志;;Vague集之间相似度量的新方法[J];计算机工程与应用;2006年34期
15 张福金;王鸿绪;;再论Vague集间的相似度量公式[J];计算机科学;2006年05期
16 陈传波;吕泽华;秦培煜;夏晖;;基于正态分布函数的直觉模糊集的相似度量方法[J];小型微型计算机系统;2007年03期
17 黄国顺;刘云生;;基于Vague熵的Vague集相似度量[J];小型微型计算机系统;2008年01期
18 唐志刚;;Vague集之间的一种新的相似度量[J];南华大学学报(自然科学版);2008年03期
19 丘宏俊;俞文静;;产品结构相似度量方法[J];计算机工程;2010年09期
20 王鸿绪;;Vague集之间的相似度量公式及其应用[J];计算机工程与应用;2010年26期
中国重要会议论文全文数据库 前10条
1 苏毅娟;;一种新的Vague集相似度量方式[A];广西计算机学会2006年年会论文集[C];2006年
2 陈宁;陈安;周龙骧;;混合类型数据相似度及网格聚类算法[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
3 张东风;张金隆;刘玉青;;基于Vague集相似度量的多目标模糊决策[A];节能环保 和谐发展——2007中国科协年会论文集(一)[C];2007年
4 段娅;;论社会学批评的人本主义——评析戈德曼和齐马对社会学批评的发展[A];福建省外国语文学会2008年年会论文集[C];2008年
5 章志凌;虞立群;罗海飞;邵晓敏;;基于改进Corpus库的词语相似度计算方法[A];第二十四届中国控制会议论文集(下册)[C];2005年
6 唐云廷;;基于TSBT(Text Structure Binary Tree)的文本结构的自动分析[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
7 徐炜;贺占庄;黄士坦;;基于模糊相似计算的快速图像匹配[A];第16届中国过程控制学术年会暨第4届全国故障诊断与安全性学术会议论文集[C];2005年
8 何维来;关华勇;关东东;童晶;;基于Voronoi域积分的三维人脸识别方法[A];第十二届全国图象图形学学术会议论文集[C];2005年
9 倪国文;刘爱伦;;基于核主元分析的非线性故障检测研究[A];2009中国仪器仪表与测控技术大会论文集[C];2009年
10 周晓蕾;唐明浩;於思俊;;服装款式系统中的相似性度量算法研究[A];2008年中国高校通信类院系学术研讨会论文集(下册)[C];2009年
中国博士学位论文全文数据库 前10条
1 窦亚玲;基于直觉模糊集的多约束网络路由决策方法研究[D];华中科技大学;2010年
2 李艳红;信息系统敏捷性及其相关技术的研究[D];大连理工大学;2002年
3 管延勇;粗糙集与信息系统约简—决策规则优化[D];山东大学;2006年
4 韩诚;R_0代数及Vague集的相似度理论[D];陕西师范大学;2006年
5 刘华文;[D];山东大学;2005年
6 贺玲;面向大规模图像库的层次化索引机制研究[D];国防科学技术大学;2006年
7 俞唯仁;普适的结构相似度在大规模网络中的计算优化技术研究[D];东华大学;2012年
8 刘华文;直觉模糊与区间值模糊环境下的多准则决策与推理算法[D];山东大学;2005年
9 吕泽华;模糊集理论的新拓展及其应用研究[D];华中科技大学;2007年
10 沈云涛;基于视觉感知特性的图像检索研究[D];西北工业大学;2005年
中国硕士学位论文全文数据库 前10条
1 尤金朋;基于语义分析的文本相似度算法研究[D];杭州电子科技大学;2013年
2 陈磊;Vague聚类算法及其应用研究[D];云南财经大学;2010年
3 潘俊任;基于相似度的模糊推理算法研究[D];浙江理工大学;2010年
4 杨雅荀;Vague集的模糊度量的研究[D];西南石油大学;2012年
5 章四兵;基于相似度量的机械产品系统的分类方法研究[D];合肥工业大学;2004年
6 戴声扬;基于新的相似度量和相关反馈算法的图象检索系统[D];清华大学;2004年
7 王万军;Vague集不确定信息处理的SPA方法及应用研究[D];兰州大学;2012年
8 高鹏;推荐系统中信息相似度的研究及其应用[D];上海交通大学;2013年
9 周孟;Vague集向Fuzzy集转化方法及其相似度量的研究[D];云南财经大学;2012年
10 徐东亮;基于聚类分析的网络论坛舆情信息挖掘技术研究[D];哈尔滨工业大学;2010年
中国重要报纸全文数据库 前10条
1 湖南省长沙铁路第一中学 黄福清;“多元解读”莫遭到误读[N];中国教育报;2006年
2 张磷;伦敦桥与翻译[N];中华读书报;2003年
3 ;采用国际标准管理办法[N];中国国门时报(中国出入境检验疫报);2002年
4 程惠哲;《文学语言学》简评[N];光明日报;2005年
5 马洋;随心所欲建论坛[N];中国计算机报;2002年
6 天津大学管理学院 张水波;FIDIC合同文本的发展与应用[N];国际商报;2007年
7 张稔穰;文学阅读与阐释的新视野[N];光明日报;2006年
8 本报记者 王玮;主旋律图书的模样[N];光明日报;2000年
9 ;采用国际标准管理办法[N];中国国门时报(中国出入境检验疫报);2001年
10 刘绍艳;出口企业采用国际标准须关注的几个问题[N];宁波日报;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978