收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于知识整合的词汇语义相似度计算方法研究

蔡圆媛  
【摘要】:随着大数据时代的到来,海量的文本数据在提供高价值信息的同时,也给文本语义理解带来了严峻的挑战。单词是文本的最小组成单元,其语义相似度是挖掘词汇关联的重要依据,有助于计算机准确理解语句和文档的内容。根据词汇语义资源,典型的语义相似度计算方法包含两类:基于知识库(Knowledge Base)和基于语料库(Corpus)。知识库能够提供词汇的语义描述和结构化信息,但是严重依赖于领域专家的构建和维护,词汇覆盖率较低,缺乏可扩展性。而语料库虽然包含丰富的词汇,但是其非结构性导致难以从中提取词汇的有效语义特征。为了克服单类语义资源的不足,本文基于WordNet的图结构和词汇的低维向量表示,分别从概念信息含量的量化模型、语义增强的词向量、度量方法的优化组合三方面,研究了知识库和语料库中语义知识的整合。本文的主要研究成果如下:(1)提出了一种基于IC加权最短路径的概念语义相似度计算方法CSSM-ICSP(Concept Semantic Similarity Measurement Based on IC-weighted Short-est Path)。该方法利用WordNet中概念的边长、深度、密度等结构属性以及信息含量(Information Content, ⅠC),计算概念之间的路径距离并非线性地转化为概念语义相似度。首先,用概念深度的相关函数对概念密度进行平滑,构造基于WordNet的固有IC混合(Intrinsic ⅠC Hybrid, ⅡH)计算模型,该模型改进了传统IC计算模型未考虑概念深度的不足;其次,将概念的IC差值作为边长的权重,衡量处于不同深度的概念语义关系的强度差异。利用IC加权的路径距离、深度差异率和归一化路径距离,建立概念距离计算模型。此外,为了实现WordNet与语料的语义知识整合,该方法将基于语料的统计IC模型引入固有IC模型。实验结果表明,在词对相似度公共测试集MC、RG、WS-353和WS-sim上,相比基于WordNet的其它方法,本文提出的方法具有较高的皮尔森线性相关系数。(2)提出了一种基于多语义融合的单词语义相似度计算方法WSSM-MSF (Word Semantic Similarity Measurement Based on Multiple Semantic Fusion)。该方法旨在构建有效的词汇语义表征,改善基于向量空间的语义相似性度量。由于文档所表达的语义内容可以表示为句子、短语或单词的向量组合,该方法基于向量的代数运算,利用WordNet中概念的多个语义属性,包括同义词(Synset)、注释(Gloss)、上位词(Hypernym)和下位词(Hyponym),构造多语义融合(Multiple Semantic Fusion, MSF)模型,以此生成概念向量和语义增强词向量,实现基于语义特征的异构知识整合。为了避免传统词袋模型带来的数据稀疏、特征高维等问题,该方法采用连续词袋模型CBOW (Continuous Bag-of-Words),从大规模文本语料中学习出低维、稠密的实数词向量。实验结果表明,本文提出的语义增强的词向量相对于原始词向量具有更好的表示语义特征的能力,能够提高词对相似度评测的计算准确度,以及语义Web服务匹配的查准率和召回率。(3)提出了一种基于差分进化(Differential Evolutionary, DE)算法的单词语义相似度计算方法WSSM-DE (Word Semantic Similarity Measurement Based on Differential Evolutionary)。该方法将多种度量方法的优化组合问题演化为解空间中的随机寻优过程,将基于WordNet或基于低维向量的计算语义相似度作为DE算法中种群个体的多维分量,通过基于个体差异的启发式全局搜索,获得分量上的权值和最优解,以此实现WordNet与语料的语义知识整合。基于最优个体的每一维分量值的变化,分析了在语义计算任务中词向量可能隶属的空间。在词对相似度评测任务上的实验结果表明,本文提出的方法不仅优于基于单一语义源的相似度计算方法,而且优于基于有监督优化组合的计算方法,包括基于排序学习的计算方法和基于回归的计算方法。尤其是将语义增强的词向量应用于该方法中,语义相似度计算的准确度具有明显的提升。综上所述,与已有的基于单类资源的相似度计算方法相比,本文提出的三种方法均侧重于整合异构资源的语义信息,提升词汇语义相似度计算的性能。其适用性取决于可用语义资源的种类、规模和评测任务。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 蔡东风;白宇;于水;叶娜;任晓娜;;一种基于语境的词语相似度计算方法[J];中文信息学报;2010年03期
2 丁政建;张路;;一种改进的本体相似度计算方法[J];计算机工程;2010年24期
3 朱珍元;郑诚;;一种改进的本体相似度计算方法[J];微型机与应用;2011年01期
4 崔韬世;麦范金;;词语相似度计算方法分析[J];网络安全技术与应用;2012年05期
5 王国春;郑山红;赵辉;董亚则;;基于阶段递进的综合本体相似度计算方法[J];吉林大学学报(信息科学版);2014年02期
6 张忠平;田淑霞;刘洪强;;一种新的本体相似度计算方法[J];计算机应用研究;2008年10期
7 赵欢;李仁发;王家琴;张在美;;综合多层信息的本体概念相似度计算方法的研究[J];通信学报;2009年06期
8 李改;李章凤;李磊;;一种新的社会化相似度计算方法[J];计算机应用研究;2013年09期
9 曾辉;徐海洲;钟茂生;;基于主题和焦点的问句相似度计算方法[J];科学技术与工程;2014年06期
10 张忠平;田淑霞;刘洪强;;一种综合的本体相似度计算方法[J];计算机科学;2008年12期
11 李迎凯;徐小良;;一种改进的基于知网的句子相似度计算方法[J];电子科技;2012年07期
12 吕刚;郑诚;;基于加权的本体相似度计算方法[J];计算机工程与设计;2010年05期
13 陆军;;一种综合概念相似度计算方法[J];甘肃科技;2010年03期
14 石静;吴云芳;邱立坤;吕学强;;基于大规模语料库的汉语词义相似度计算方法[J];中文信息学报;2013年01期
15 张敏;王振辉;王艳丽;;一种基于《知网》知识描述语言结构的词语相似度计算方法[J];计算机应用与软件;2013年07期
16 王东;熊世桓;;一种新颖的汉字字形相似度计算方法[J];计算机应用研究;2013年08期
17 杨思春,程节华,陈家骏,王启祥;一种基于模式的汉语句子相似度计算方法[J];微型机与应用;2001年08期
18 李苏梅;韩国强;;感兴趣区域的确定及相似度计算方法[J];湖南工业大学学报;2008年04期
19 吴全娥;熊海灵;;一种综合多特征的句子相似度计算方法[J];计算机系统应用;2010年11期
20 陈大亨;;基于区间属性的相似度计算方法研究[J];科技信息;2011年08期
中国重要会议论文全文数据库 前8条
1 白宇;于水;叶娜;蔡东风;任晓娜;;一种基于语境的词语相似度计算方法[A];第五届全国信息检索学术会议论文集[C];2009年
2 乔林;黄维通;孟威;;一种改进的知网系统词语相似度计算方法[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
3 菅小艳;郑家恒;;一种改进的句子相似度计算方法[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
4 卢延科;尹宝生;张桂平;苗雪雷;白宇;;基于伪LCS的中文专利句子相似度计算方法[A];第五届全国信息检索学术会议论文集[C];2009年
5 章志凌;虞立群;罗海飞;邵晓敏;;基于改进Corpus库的词语相似度计算方法[A];第二十四届中国控制会议论文集(下册)[C];2005年
6 章成志;李斌;;基于混合策略的查询串相似度计算方法[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
7 陈希友;冯少荣;张东站;薛永生;;基于反馈的用户访问预测模型[A];第二十五届中国数据库学术会议论文集(一)[C];2008年
8 李天宁;肖桐;朱靖波;;科技论文的IPC自动标注[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
中国博士学位论文全文数据库 前2条
1 蔡圆媛;基于知识整合的词汇语义相似度计算方法研究[D];北京交通大学;2016年
2 吴小坤;轻量级服务推荐算法研究[D];北京邮电大学;2015年
中国硕士学位论文全文数据库 前10条
1 陈欣;一种基于多属性本体的概念相似度计算方法的研究[D];东北师范大学;2010年
2 唐中林;基于本体的概念相似度计算方法的研究[D];武汉理工大学;2013年
3 徐海洲;自动问答系统中问句相似度计算方法研究[D];华东交通大学;2014年
4 王莹莹;中文短语相似度计算方法研究及应用[D];长沙理工大学;2008年
5 俞云飞;多特征融合的电影相似度计算方法研究[D];华东师范大学;2012年
6 唐积益;推荐系统中相似度计算方法的研究[D];江苏科技大学;2015年
7 周舫;汉语句子相似度计算方法及其应用的研究[D];河南大学;2005年
8 江阿古丽·哈依达尔;哈萨克语句子相似度计算方法的研究[D];新疆大学;2012年
9 贾娜;基于本体的食品投诉文档文本分类研究[D];东北师范大学;2011年
10 尹路修;XML文档的聚类研究[D];湖南师范大学;2015年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978