收藏本站
《昆明理工大学》 2017年
收藏 | 手机打开
二维码
手机客户端打开本文

基于维基百科语料的新闻文本词汇链构建技术研究

陈杨  
【摘要】:一个高效的信息文本处理方法可以很好地对新闻文本进行快速处理,从而得到人们需要的文本类别、关键词以及更深层次的语义内涵和语义关系。词汇链的构建对新闻文本的快速处理有着重要意义,相比传统基于频率和机器学习的关键词提取方法,词汇链基于网络语料库,融合了人类的认知,由于网络语料资源库高速的更新频率和合理的结构分类关系,由词汇链对新闻文本进行进一步研究较其他方法有着更好的效果。目前已有的中文词汇链构建方法不能很好地解决词语歧义消歧问题,构建的词汇链也往往不能正确表达文本的语义聚类关系,既而影响着抽取关键词的质量。为了帮助读者更快的掌握新闻文本的主旨含义、确定新闻篇章结构,本文从以下几个方面展开研究:(1)基于维基百科的分类结构图和文档链接信息图两大特征分别利用候选词的路径信息进行深度加权路径长度(DPL)算法计算节点深度之间的关系;利用文档分类信息基于解释的文本向量进行明确语义分析(ESA)算法计算词与词之间的相关度,从而进行词汇链的初步构建,并且考虑候选词权重改善了文本关键词提取的算法,结合新闻文本5个特征项对初建词汇链优化,以在门户网站上爬取得1500多篇新闻文本为语料对本文中所提到的词汇链构建算法进行试验,将获取的关键词与其他关键词提取的方法进行对比试验,得出的结果表明本文的词汇链构建方法所提取出来的关键词效果更好。(2)基于维基百科语料资源库的从属关系、资源库自身结构特性以及链接复现特性与经典MGKM2003方法结合构建出MGKM-WIKI消歧算法对初选词汇链进行进一步消歧;将MGKM-WIKI消歧算法以Semval-3作为词义消歧系统的候选词数据集,与其他的有监督消歧算法、无监督消歧算法进行了对比试验,得到了较好的效果。(3)在完成词汇链构建的基础上,利用对齐技术实现越南语新闻文本的词汇链构建工作,并爬取大量越南语新闻文本对构建方法进行试验。(4)结合以上研究内容设计原型系统,通过本系统可实现对汉语和越南语新闻文本的词汇链构建,使读者快速掌握新闻主旨、确定新闻篇章结构。
【学位授予单位】:昆明理工大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP391.1

【参考文献】
中国期刊全文数据库 前10条
1 孙琛琛;申德荣;单菁;聂铁铮;于戈;;WSR:一种基于维基百科结构信息的语义关联度计算算法[J];计算机学报;2012年11期
2 盛志超;陶晓鹏;;基于维基百科的语义相似度计算方法[J];计算机工程;2011年07期
3 刘军;姚天昉;;基于Wikipedia的语义相关度计算[J];计算机工程;2010年19期
4 方俊;郭雷;王晓东;;基于语义的关键词提取算法[J];计算机科学;2008年06期
5 ;Keyword Extraction Based on tf/idf for Chinese News Document[J];Wuhan University Journal of Natural Sciences;2007年05期
6 张敏;耿焕同;王煦法;;一种利用BC方法的关键词自动提取算法研究[J];小型微型计算机系统;2007年01期
7 索红光;刘玉树;曹淑英;;一种基于词汇链的关键词抽取方法[J];中文信息学报;2006年06期
8 王军;词表的自动丰富——从元数据中提取关键词及其定位[J];中文信息学报;2005年06期
9 李素建,王厚峰,俞士汶,辛乘胜;关键词自动标引的最大熵模型应用研究[J];计算机学报;2004年09期
10 韩客松,王永成;中文全文标引的主题词标引和主题概念标引方法[J];情报学报;2001年02期
中国硕士学位论文全文数据库 前1条
1 刘琦;一种基于WordNet上下文的词义消歧算法[D];吉林大学;2014年
【共引文献】
中国期刊全文数据库 前10条
1 谢秋红;莫愚;贾津津;付佑梅;龙景;王珅;程林;王旭;张彦琦;;科技期刊按需编制印刷版年终主题词索引的合理性——以《中华烧伤杂志》为例[J];编辑学报;2017年05期
2 张明西;王金华;王晓红;李肖赫;;E-learning平台中的课程相似性搜索研究[J];郑州大学学报(理学版);2017年03期
3 陈二静;姜恩波;;文本相似度计算方法研究综述[J];数据分析与知识发现;2017年06期
4 滕巧爽;秘金钟;孙尚宇;;支持语义信息挖掘的热点路径探测[J];导航定位学报;2017年02期
5 王小林;朱磊;邰伟鹏;;基于扩充词汇链改进的关键词提取算法[J];苏州科技大学学报(自然科学版);2017年02期
6 肖宝;李璞;曲艺;胡文君;;基于语义相关度和频繁项集挖掘的文本分类[J];钦州学院学报;2017年05期
7 赛牙热·依马木;热依莱木·帕尔哈提;艾斯卡尔·艾木都拉;李志军;;基于不同关键词提取算法的维吾尔文本情感辨识[J];清华大学学报(自然科学版);2017年03期
8 艾金勇;;融合语义知识的藏文网页关键词提取方法研究[J];图书馆学研究;2017年03期
9 蔡东阳;曾江;;基于最大熵的电压暂降幅值概率分布评估[J];广东电力;2017年01期
10 肖宝;李璞;胡文君;韦丽娜;;基于Hadoop的大规模RDF语义数据应用平台[J];钦州学院学报;2017年01期
中国硕士学位论文全文数据库 前1条
1 陈杨;基于维基百科语料的新闻文本词汇链构建技术研究[D];昆明理工大学;2017年
【二级参考文献】
中国期刊全文数据库 前10条
1 宋宣辰;刘贵全;;基于主题概念抽取的多文档文摘方法[J];计算机工程;2010年04期
2 史天艺;李明禄;;基于维基百科的自动词义消歧方法[J];计算机工程;2009年18期
3 姚天昉;程希文;徐飞玉;汉思·乌思克尔特;王睿;;文本意见挖掘综述[J];中文信息学报;2008年03期
4 王军;词表的自动丰富——从元数据中提取关键词及其定位[J];中文信息学报;2005年06期
5 郑家恒,卢娇丽;关键词抽取方法的研究[J];计算机工程;2005年18期
6 李素建,王厚峰,俞士汶,辛乘胜;关键词自动标引的最大熵模型应用研究[J];计算机学报;2004年09期
7 丁春;关键词标引的若干问题探讨[J];编辑学报;2004年02期
8 罗盛芬,孙茂松;基于字串内部结合紧密度的汉语自动抽词实验研究[J];中文信息学报;2003年03期
9 董毅士;农业期刊学术论文关键词标引刍议[J];情报学报;1999年S1期
10 何新贵,彭甫阳;中文文本的关键词自动抽取和模糊分类[J];中文信息学报;1999年01期
中国硕士学位论文全文数据库 前1条
1 万海旭;基于WordNet的词义消歧研究[D];吉林大学;2013年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026