收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

语义相似度计算及其应用研究

宋玲  
【摘要】: 相似性是存在于任意两个对象之间的一种普遍关系,而相似度是对相似性的定量表示。相似度计算是信息检索、数据挖掘、知识管理、人工智能等领域的基本问题。随着本体的广泛应用,基于本体语义的相似度计算及应用成为心理学和计算机科学交叉研究的一个重要课题。 本文根据信息粒度的大小将研究对象分为基本信息对象和一般信息对象。概念属于基本信息对象,文本文档、半结构文档、Web服务属于一般信息对象。首先提出一个概念之间的语义相似度计算方法并进行了实验验证。在此基础上,针对文本文档之间、半结构XML文档之间以及Web服务之间的语义相似度分别给出了新的计算方法并通过实验进行了验证。本文的研究丰富和完善了语义相似度理论,为对象之间语义相似度计算提供了一种新的思路。 本文主要创新点如下: 1.提出一个新的本体中概念之间的语义相似度(SSBC,SemanticSimilarity Between Concepts)计算方法 充分考虑到本体赋予概念的结构信息和语义信息,得到概念的语义扩展集,通过语义扩展集来描述该概念的特征并定义模糊集合。然后通过计算两模糊集合之间的相似度来衡量两概念之间的语义相似度。SSBC可有效体现概念相似度的非对称性、本体中概念层次树的深度和区域密度对相似度的影响。本文对提出的计算方法进行了实验验证,实验包括两部分。首先基于WordNet实现了SSBC方法,在通用实验数据集上的实验结果表明:SSBC方法对于概念对之间的相似度的衡量优于目前广泛使用的一些相似度计算方法,可以将相关系数提高0.018。其次基于SSBC提出计算句子语义相似度(SSBS,Semantic Similarity Between Sentences)计算方法并进行相关的实验,与其他方法相比,SSBS算法在特征的量化过程中不仅考虑两个句子的概念对之间的语义相似度和字符串编辑距离,还考虑了不同词性的概念对句子相似度的影响。 2.提出一个新的文本文档之间的语义相似度(SSBTD,SemanticSimilarity Between Text Documents)计算方法 SSBTD首先基于领域本体将文档描述为概念特征集合,然后针对概念特征集合中的每个概念定义模糊集合,利用模糊操作形成文档的模糊集合,最后通过计算文档模糊集合之间的相似度来衡量文档之间的语义相似度。SSBTD有效地解决了文档特征描述中特征词之间语义独立的问题。SSBTD适用于特征词数量较少的文档,例如在Deep Web数据库查询表单的相似度计算中,Deep Web的查询表单接口是面向不同的用户独立设计实现的,其中的标记词数量比较少,当把语义相同的词作为不同的词来处理时,会严重地影响Deep Web数据库特征描述的准确性。采用SSBTD算法计算Deep Web查询表单之间的相似度,可以有效的衡量查询表单之间的语义相似度。实验结果表明,因为考虑了语义对相似度的影响,与传统的余弦相似度相比,SSBTD方法的聚类性能评价标准ASDC(Average Similarity of Document to the ClusterCentroid)和RI(Rand Index)均优于余弦相似度。 3.提出一个新的XML文档之间的语义和结构相似度(XMLSim)计算方法 计算路径之间相似度NpathSim是计算XMLSim的基础。NpathSim方法基于节点标记对之间的语义相似度和编辑距离来生成两条路径的节点标记的相似度矩阵,对每个节点标记,依据其在路径中的位置赋予相应的权值;分析了路径上节点标记的偏序关系,将路径之间相似度问题抽象为最大相似子序列(MSS,Maximal Similar Subsequence)问题,并利用动态规划对MSS问题求解得到路径相似度NpathSim。最终,XML文档之间的相似度XMLSim通过路径集合之间的最大NPathSim的平均值得到。利用XMLSim方法和没有考虑语义的XSim方法分别进行XML文档聚类实验,实验结果显示因为综合考虑了语义和结构对XML文档相似度的影响,从而使得XMLSim聚类性能评价标准纯度和RI均优于XSim方法。 4.提出Web服务的语义索引方法和服务匹配算法 首先基于领域本体对Web服务的描述IOPE(Input、Output、Precondition、Effect)进行语义扩展,将语义上完全等价的同义词添加到IOPE,建立其BBS(Bit-Slice Bloom Filtered Signature)语义索引结构:然后提出两种服务匹配方法:支持关键词匹配和支持输入/输出参数匹配。最后提出一种Web服务之间的语义匹配度计算方法。通过实验验证了BBS索引的有效性:随着服务个数的增加,相对于倒排文档,BBS索引在Web服务发现的平均时间和CPU利用方面均优于倒排索引。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 聂卉;龙朝晖;;结合语义相似度与相关度的概念扩展[J];情报学报;2007年05期
2 王惠敏;聂规划;付魁;;领域本体中基于多维特征的语义相似度算法研究[J];情报杂志;2008年10期
3 申改英;李建华;;基于语义的Web服务自动组合算法[J];计算机工程;2009年16期
4 黄宏斌;刘志忠;张维明;邓苏;马丽丽;;基于层次本体模型(HOM)的语义相似度计算方法[J];系统工程与电子技术;2009年07期
5 吴飞珍;马文丽;王旺迪;陈启龙;郑文岭;;一种新的基因注释语义相似度计算方法[J];生物信息学;2010年01期
6 骆正华,樊孝忠,夏天;基于结构化问句实例的自动问答系统[J];微电子学与计算机;2005年07期
7 张承立;陈剑波;齐开悦;;基于语义网的语义相似度算法改进[J];计算机工程与应用;2006年17期
8 徐德智;C.Onyango;王怀民;;上位本体中语义相似度的计算及其实现[J];计算技术与自动化;2007年02期
9 张晓孪;王西锋;;FCA中的概念语义相似度计算[J];现代图书情报技术;2007年03期
10 路松峰;冯玲;刘芳;胡和平;;SSW:一种语义相关的P2P网络资源检索机制[J];小型微型计算机系统;2008年08期
11 周粉;夏幼明;;一种改进的基于知网的语义相似度计算方法[J];云南大学学报(自然科学版);2008年S2期
12 史斌;闫健卓;王普;方丽英;;基于本体的概念语义相似度度量[J];计算机工程;2009年19期
13 刘卫;刘金岭;;基于《知网》的词语语义相似度改进及应用[J];福建电脑;2010年05期
14 刘景方;邹平;张朋柱;齐峰;;一种改进的本体概念语义相似度算法研究[J];武汉理工大学学报;2010年20期
15 刘紫玉;黄磊;;基于领域本体模型的概念语义相似度计算研究[J];铁道学报;2011年01期
16 陈琨;张蕾;;基于知识图的领域本体构建方法[J];计算机应用;2011年06期
17 柳巧玲;尚艳艳;;基于领域本体的语义知识检索研究[J];图书情报工作;2011年06期
18 徐德智;郑春卉;K. Passi;;基于SUMO的概念语义相似度研究[J];计算机应用;2006年01期
19 郑丽萍;李光耀;梁永全;沙静;;本体中概念相似度的计算[J];计算机工程与应用;2006年30期
20 徐德智;王怀民;;基于本体的概念间语义相似度计算方法研究[J];计算机工程与应用;2007年08期
中国重要会议论文全文数据库 前10条
1 关毅;王晓龙;;基于统计的汉语词汇间语义相似度计算[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
2 黄佳来;王立波;袁道敏;;基于语义相似度的查询扩展研究[A];浙江省电子学会2008年学术年会论文集[C];2008年
3 刘晓平;沈冠町;;协同讨论观点影响度分析方法及其应用[A];全国第22届计算机技术与应用学术会议(CACIS·2011)暨全国第3届安全关键技术与应用(SCA·2011)学术会议论文摘要集[C];2011年
4 刘寒磊;关毅;徐永东;;多文档文摘中基于语义相似度的最大边缘相关技术研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
5 刘立;余正涛;王蒙;毛存礼;郭剑毅;;结合词相关特征与流行学习的中文问句分类[A];第六届全国信息检索学术会议论文集[C];2010年
6 章成志;章成敏;王萍;;基于语义的同义词识别算法研究[A];第二届全国学生计算语言学研讨会论文集[C];2004年
7 章成志;;词语的语义相似度计算及其应用研究[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
8 骆正华;;基于E-Chunk问句实例库问答系统的研究[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
9 李月雷;师瑞峰;林丽冰;周一民;;汉语语句语义相似度的计算方法[A];2008'中国信息技术与应用学术论坛论文集(一)[C];2008年
10 叶正;林鸿飞;杨志豪;;基于问句相似度的中文FAQ问答系统研究[A];第三届学生计算语言学研讨会论文集[C];2006年
中国博士学位论文全文数据库 前10条
1 刘宏哲;文本语义相似度计算方法研究[D];北京交通大学;2012年
2 宋玲;语义相似度计算及其应用研究[D];山东大学;2009年
3 杨月华;基于领域知识模型的突发事件智能信息检索系统研究[D];北京邮电大学;2013年
4 周子力;基于WordNet的本体构建及其在安全领域应用关键技术研究[D];华东师范大学;2009年
5 潘建国;基于语义的用户建模技术与应用研究[D];上海大学;2009年
6 胡晓;支持机械产品概念设计的功能知识聚类方法研究[D];上海交通大学;2011年
7 李宏伟;基于Ontology的地理信息服务研究[D];解放军信息工程大学;2007年
8 魏军英;基于WEB服务的中小企业制造资源共享关键技术研究[D];山东科技大学;2011年
9 王芳;基于本体的广域农业信息服务系统关键技术研究[D];河北农业大学;2012年
10 杨峰;本体映射关键技术研究[D];吉林大学;2011年
中国硕士学位论文全文数据库 前10条
1 郑丽萍;本体映射的研究[D];山东科技大学;2005年
2 张红宇;数据集成中本体映射的研究[D];中南大学;2005年
3 常晓环;基于概念图的语义检索方法研究[D];吉林大学;2009年
4 任波;基于语义的Web服务发现研究[D];浙江工业大学;2005年
5 秦鹏;基于WordNet的本体匹配关键技术研究与实现[D];华东师范大学;2010年
6 郭嘉琦;领域本体的构建及其在信息检索中的应用研究[D];北京邮电大学;2007年
7 陈爱明;本体复合映射发现技术研究[D];中南大学;2008年
8 赵大明;基于本体的专业搜索引擎的研究与设计[D];西北大学;2009年
9 关淞元;本体匹配算法的研究[D];吉林大学;2009年
10 尹睿;基于语义相似度的论文文本聚类算法研究[D];大连理工大学;2009年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978