收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于维基百科的概念图建模及其应用研究

万亿  
【摘要】:文本的表征与文本间的语义相似度计算是自然语言处理领域里十分重要的基础性研究课题,它们直接影响着诸如文本自动分类、信息检索、机器翻译、问答系统等多个应用系统的效果。传统的机器学习方法仅仅使用了文本本身所提供的信息来建模和运算,面对复杂多变的网络用语和短文本,仅仅依靠文本自身所提供的信息来理解文本语义信息变得越来越困难。这是因为传统的机器学习方法大多数是基于词袋(Bag of words)模型,即依靠词或短语之间的匹配,面对词汇的多样性、多义性,它就显得无能无力了。此外,随着互联网的发展,人类的语言生活也发生了很大变化,短文本占据了网络用语的大量比例,而这些短文本所能提供的词汇特征信息又非常之少,不利于传统的模型表征。 借助于文本以外的知识扩展文本的信息,是解决以上问题的一个主要途径,然而,现有的模型并没有能充分利用外部知识所提供给我们的语义信息。以维基百科为例,大部分模型忽略了不同词条之间的语义联系和用户提供的标注信息,然而,有些时候,这些信息对于理解文本的语义、获取信息的增益非常重要。因此,设计一个更为合理的知识表示模型来更加充分的利用这些信息,可以说是自然语言处理领域一个亟待解决的研究课题。 本文从以上问题出发,提出了一个新的知识表示模型,该模型弥补了同类模型的不足之处,既考虑进了知识之间的相互联系,也使用了用户标注的额外信息。 概括起来,本文所做的工作主要有以下几点: 第一,本文提出了一个新的知识表示模型,在该模型中,每个知识不再被当作语义独立的个体看待,不同的知识根据它们之间的语义相似度被联系到了一起,从宏观角度看,所有知识通过这些连接关系,构成了一张图的形状。以维基百科为例,维基百科中的每一个条目被视为一个概念,它们被当作概念图中的节点。概念之间的语义联系构成了它们之间的边。边的权值表示概念之间的语义相似程度,它的值是根据维基百科概念的正文内容、标题、锚文本、超链接、类别标签等多个信息综合衡量得出的,本文称此结构为概念图。这里需要特别指出,虽然本文使用了维基百科作为外部知识库来建模,但本文所提的模型不仅限于它,该模型同样适用于其它符合条件的外部知识库。 第二,本文提出了一种基于概念的文本表征方式。本文在构建的概念图模型上设计了一套文本映射到概念的方法,成功把文本从词频向量空间转换到概念空间,增大了文本特征的粒度,从而解决了同义词等语言现象给传统文本表征方式带来的困扰。此外,本文还提出了利用新的文本表征模型来计算文本的语义相似度的方法。我们首先通过简单的词义相似度比较,将文本映射到一组概念节点上。然后根据节点之间的语义联系,对映射到图中的节点做调整,找出最能代表文本语义的一组节点。最后,通过比较概念向量之间的语义相似度来计算文本之间的语义相似度。 第三,为了方便地将本文所提出的概念图模型运用到实际应用中。本文提出了一种针对语料特征的灵活建模方法。首先,对需要处理的语料进行随机采样。然后,采用多种特征抽取的方法抽取出实验语料的特征,并根据这些抽取出的特征,有针对性地选取与实验语料语义接近的一部分概念来构造图模型,从而成功地将概念图的规模控制在合理的大小,提高了计算效率,方便了该模型的使用。我们将所提出的基于概念图的文本表征方法以及文本相似度计算方法应用到了文本分类中,实验采用了国际标准语料集20newsgroup,并和同类型方法做了比较,实验验证了本文提出方法的有效性。


知网文化
【相似文献】
中国期刊全文数据库 前17条
1 韩冬雷;金花;朱亚涛;刘金刚;;基于维基百科的短文本语义扩展方法研究[J];计算机应用与软件;2014年10期
2 黄浩军;王胜清;;一种基于维基百科的文本表示方法[J];计算机工程与应用;2015年14期
3 梅钰;唐卫;王慕华;王阔音;;气象文本推荐研究[J];计算机应用与软件;2019年08期
4 刘培奇;凡星;段中兴;;倾向性文本的概念图过滤技术的研究[J];微电子学与计算机;2012年12期
5 罗程多;初立民;吴晓蕊;赵耀;;针对社交文本的词性标注结果分析[J];网络新媒体技术;2017年01期
6 罗程多;吴晓蕊;薛凯;杨飞;王保录;;社交文本规范化研究综述[J];网络新媒体技术;2017年05期
7 蒋旦;张翔;;基于语义的短文本消重算法研究[J];网络新媒体技术;2017年01期
8 唐帅;李青;;文本蕴含问题简介[J];西部皮革;2016年18期
9 许鑫;俞飞;张莉;;一种文本倾向性分析方法及其应用[J];现代图书情报技术;2011年10期
10 詹志建;杨小平;;一种基于复杂网络的短文本语义相似度计算[J];中文信息学报;2016年04期
11 李均明;趙桂芳;;清華簡文本復原——以《清華大學藏戰國竹簡》第一、二輯為例[J];出土文献;2012年00期
12 朱迎春;;让语文课堂充满语文的味道[J];文学教育(上);2019年02期
13 杨帆;;对文学文本是否真实的辩证认识[J];语文教学通讯;2019年01期
14 余叶;;从细节处体味、挖掘文本之妙[J];读与写(教育教学刊);2019年01期
15 ;住建部、工商总局联合修订《建设工程施工合同(示范文本)》[J];建筑技术开发;2017年22期
16 ;2013版建设工程施工合同(示范文本)已废止,10月1日已执行2017版[J];建筑设计管理;2017年12期
17 李频;;高校官方微信公众号的文本传播解读[J];西部广播电视;2018年16期
中国重要会议论文全文数据库 前10条
1 任函;何婷婷;;大规模在线文本的自动分类研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
2 岑艺明;;内外合璧,让非连续性文本阅读教学锦上添花——浅谈小学语文非连续性文本教学的现状及策略[A];教育理论研究(第六辑)[C];2019年
3 李长松;;引导学生走进文本的天地——阅读方法指导例谈[A];国家教师科研基金“十一五”成果集(中国名校卷)(五)[C];2009年
4 张智军;沈昉;朱伟;;文本组织方式对介绍性文章搜索绩效的影响研究[A];中国人类工效学学会第六次学术交流会论文摘要汇编[C];2003年
5 周昭涛;卜东波;程学旗;;文本的图表示初探[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
6 石志伟;吴功宜;;改善朴素贝叶斯在文本分类中的稳定性[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
7 热依玛依·买买提;维尼拉·木沙江;;基于文本的图片检索中图片相关文本提取技术的研究[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
8 许君;王朝坤;刘立超;王建民;刘璋;;云环境中的近似复制文本检测[A];第29届中国数据库学术会议论文集(B辑)(NDBC2012)[C];2012年
9 刘顺利;;在“元文本”与“文本”之间[A];东方丛刊(2004年第1辑 总第四十七辑)[C];2004年
10 易绵竹;南振兴;李绍哲;薛恩奎;;文本生成与理解的语言学模拟——伊戈尔·梅里丘克《意思(?)文本》模型评介[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
中国博士学位论文全文数据库 前10条
1 刘晓佩;自然场景文本信息提取关键技术研究[D];西安电子科技大学;2014年
2 闫琰;基于深度学习的文本表示与分类方法研究[D];北京科技大学;2016年
3 李岩;基于深度学习的短文本分析与计算方法研究[D];北京科技大学;2016年
4 王中卿;基于文本信息的社会关系分析与研究[D];苏州大学;2016年
5 张妍;自我指涉与表演:柯马丁解释《诗经》等文本的策略[D];浙江大学;2014年
6 李丽洁;视频中文本信息提取技术研究[D];哈尔滨工程大学;2012年
7 孙巧榆;复杂背景图像的文本信息提取研究[D];华东师范大学;2012年
8 尹芳;场景文本识别关键技术研究[D];哈尔滨理工大学;2012年
9 刘赫;文本分类中若干问题研究[D];吉林大学;2009年
10 孙晓华;基于聚类的文本机会发现关键问题研究[D];哈尔滨工程大学;2010年
中国硕士学位论文全文数据库 前10条
1 万亿;基于维基百科的概念图建模及其应用研究[D];华中师范大学;2014年
2 赵文静;基于维基百科的微博文本语义概念扩展研究[D];西安电子科技大学;2013年
3 蔡志威;基于概念的短文本分类[D];华南理工大学;2016年
4 马渊;短文本情感分析技术研究[D];重庆大学;2011年
5 唐歆瑜;基于知网构建化工领域文本分类模型研究[D];湖南大学;2007年
6 朱甜甜;短文本语义相似度量的方法和应用研究[D];华东师范大学;2014年
7 王利鑫;文本自动比对研究与应用[D];南京信息工程大学;2011年
8 张春燕;基于自然语言处理的文本分类分析与研究[D];江西理工大学;2011年
9 徐晓梅;基于维基百科的中文跨文本指代消解研究[D];苏州大学;2014年
10 仲梓源;基于遗传与反馈的分布式文本分类研究[D];北京邮电大学;2014年
中国重要报纸全文数据库 前10条
1 ;BI和文本分析的强强联手[N];网络世界;2007年
2 何建明;应当充分自信中国自己的文本书写[N];文艺报;2019年
3 周宪;数字时代,回归文本更需要[N];中国石化报;2019年
4 ;中美走到谈协议文本,双方更需理性[N];环球时报;2019年
5 何建明;应当对中国的文本书写充分自信[N];太原日报;2019年
6 任彦申;呼唤初心的美好文本[N];江西日报;2019年
7 记者 林嫔;完善申报历史文化名城文本[N];湄洲日报;2018年
8 本报记者 王婷婷;写好申遗文本 讲好梵净故事[N];铜仁日报;2018年
9 桫椤;文本位移和审美转场[N];文艺报;2018年
10 本报记者 袁欢;立一个自足于文本的“深度时间”[N];文学报;2018年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978