收藏本站
《华中师范大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

基于维基百科构建语义知识库及其在文本分类领域的应用研究

苏小康  
【摘要】: 随着计算机技术的不断发展和互联网的迅速普及,越来越多的人们开始使用互联网进行信息获取。在如今信息发达的时代,如何从海量的文本信息中获取其丰富的语义知识、如何利用这些语义知识为现有的自然语言处理提供可靠的服务,成为了一个非常重要的研究课题。 研究发现目前语义知识的来源大致可以分为两类:一类是人工构造的语义知识库(如Hownet);另一类是大规模的真实文本,包括互联网上的海量文本、各种离线文本集合(如各种规模的语料库),各种百科知识库(如维基百科等)。研究表明:人工构造的语义知识库已经很难满足日益增长的网络信息处理的需求。因此,本文提出了从一定规模的维基百科语料库中自动构建知识库的方法。本文的主要工作包含以下几个方面: 1.本文在知识的形式化表示方面采用了以语义标签为指代,语义指纹来刻画语义的方法。该表示方法认为每一个概念(词条)都是有一定的背景信息作为支撑,并且提出了以概率公式来量化语义指纹对语义标签的贡献度。该表示方法借鉴了人工知识库显式表征语义知识的策略,并引入了概率信息,从而更精准的描述语义,并且可以很方便的融入到现有的文本计算模型中去。 2.本文利用所提出的语义标签、语义指纹形式化表示知识单元的方法,针对一定规模的维基百科语料库进行了预处理、语义标签选取、相关概念抽取、贡献度值的确定等操作,对维基百科页面之间的丰富链接关系进行挖掘,建立起了一个维基百科语义知识库。 3.为了证明该语义知识库的有效性。结合之前对中文文本分类的研究,本文提出了利用该语义知识库对文本词条进行扩充从而提高文本分类精度的方法。并且利用该方法与传统的文本分类方法进行了对比实验证明知识库的有效性。 实验结果表明,本文所构造的语义知识库在文本分类领域确实能提高分类精度,证明了语义知识库的有效性。
【学位授予单位】:

知网文化
【相似文献】
中国期刊全文数据库 前18条
1 何晓月;;微型文本辅助词汇教学实践[J];开封教育学院学报;2014年02期
2 霍亮;杨柳;霍烽;;谈文本分类中的相关技术[J];合作经济与科技;2012年13期
3 龚静;胡平霞;李春媚;;一种用于文本分类的特征项权值计算方法的研究[J];惠州学院学报;2013年06期
4 孙飞;郭嘉丰;兰艳艳;程学旗;;面向文本分类的有监督显式语义表示[J];数据采集与处理;2017年03期
5 龚垒;;基于特征类别均衡的文本分类分类方法[J];电子世界;2017年13期
6 王郝日钦;;基于自动编码器的文本分类实现[J];中国高新区;2017年16期
7 翟文洁;闫琰;张博文;殷绪成;;基于混合深度信念网络的多类文本表示与分类方法[J];情报工程;2016年05期
8 曲凯扬;;基于支持向量机的文本分类研究[J];无线互联科技;2016年05期
9 王亚民;刘洋;;含附件文本的分类算法研究[J];情报杂志;2012年08期
10 袁鼎荣;钟宁;张师超;;文本信息处理研究述评[J];计算机科学;2011年02期
11 刘冬雪;;文本分类及其相关技术的研究[J];科技创新导报;2010年16期
12 李均明;趙桂芳;;清華簡文本復原——以《清華大學藏戰國竹簡》第一、二輯為例[J];出土文献;2012年00期
13 朱迎春;;让语文课堂充满语文的味道[J];文学教育(上);2019年02期
14 杨帆;;对文学文本是否真实的辩证认识[J];语文教学通讯;2019年01期
15 余叶;;从细节处体味、挖掘文本之妙[J];读与写(教育教学刊);2019年01期
16 ;住建部、工商总局联合修订《建设工程施工合同(示范文本)》[J];建筑技术开发;2017年22期
17 ;2013版建设工程施工合同(示范文本)已废止,10月1日已执行2017版[J];建筑设计管理;2017年12期
18 李频;;高校官方微信公众号的文本传播解读[J];西部广播电视;2018年16期
中国重要会议论文全文数据库 前10条
1 石志伟;吴功宜;;改善朴素贝叶斯在文本分类中的稳定性[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
2 岑艺明;;内外合璧,让非连续性文本阅读教学锦上添花——浅谈小学语文非连续性文本教学的现状及策略[A];教育理论研究(第六辑)[C];2019年
3 李长松;;引导学生走进文本的天地——阅读方法指导例谈[A];国家教师科研基金“十一五”成果集(中国名校卷)(五)[C];2009年
4 张智军;沈昉;朱伟;;文本组织方式对介绍性文章搜索绩效的影响研究[A];中国人类工效学学会第六次学术交流会论文摘要汇编[C];2003年
5 周昭涛;卜东波;程学旗;;文本的图表示初探[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
6 热依玛依·买买提;维尼拉·木沙江;;基于文本的图片检索中图片相关文本提取技术的研究[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
7 包剑;冀明;冯军;;基于模糊支持向量机的文本分类[A];中国运筹学会模糊信息与模糊工程分会第五届学术年会论文集[C];2010年
8 许君;王朝坤;刘立超;王建民;刘璋;;云环境中的近似复制文本检测[A];第29届中国数据库学术会议论文集(B辑)(NDBC2012)[C];2012年
9 刘顺利;;在“元文本”与“文本”之间[A];东方丛刊(2004年第1辑 总第四十七辑)[C];2004年
10 易绵竹;南振兴;李绍哲;薛恩奎;;文本生成与理解的语言学模拟——伊戈尔·梅里丘克《意思(?)文本》模型评介[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
中国重要报纸全文数据库 前10条
1 何建明;应当充分自信中国自己的文本书写[N];文艺报;2019年
2 周宪;数字时代,回归文本更需要[N];中国石化报;2019年
3 ;中美走到谈协议文本,双方更需理性[N];环球时报;2019年
4 何建明;应当对中国的文本书写充分自信[N];太原日报;2019年
5 任彦申;呼唤初心的美好文本[N];江西日报;2019年
6 记者 林嫔;完善申报历史文化名城文本[N];湄洲日报;2018年
7 本报记者 王婷婷;写好申遗文本 讲好梵净故事[N];铜仁日报;2018年
8 桫椤;文本位移和审美转场[N];文艺报;2018年
9 本报记者 袁欢;立一个自足于文本的“深度时间”[N];文学报;2018年
10 荣新江;《马可·波罗与元代中国:文本与礼俗》序[N];中华读书报;2018年
中国博士学位论文全文数据库 前10条
1 闫琰;基于深度学习的文本表示与分类方法研究[D];北京科技大学;2016年
2 刘晓佩;自然场景文本信息提取关键技术研究[D];西安电子科技大学;2014年
3 刘赫;文本分类中若干问题研究[D];吉林大学;2009年
4 王中卿;基于文本信息的社会关系分析与研究[D];苏州大学;2016年
5 胡明涵;面向领域的文本分类与挖掘关键技术研究[D];东北大学 ;2009年
6 宋胜利;文本语义表示及多层分类关键技术研究[D];西安电子科技大学;2012年
7 李岩;基于深度学习的短文本分析与计算方法研究[D];北京科技大学;2016年
8 张妍;自我指涉与表演:柯马丁解释《诗经》等文本的策略[D];浙江大学;2014年
9 李丽洁;视频中文本信息提取技术研究[D];哈尔滨工程大学;2012年
10 孙巧榆;复杂背景图像的文本信息提取研究[D];华东师范大学;2012年
中国硕士学位论文全文数据库 前10条
1 苏小康;基于维基百科构建语义知识库及其在文本分类领域的应用研究[D];华中师范大学;2010年
2 金凡;基于分众分类法和维基百科的移动应用语义知识库构建[D];武汉科技大学;2012年
3 蔡志威;基于概念的短文本分类[D];华南理工大学;2016年
4 王珺瑶;面向微博文本的分类技术应用研究[D];广西大学;2015年
5 仲梓源;基于遗传与反馈的分布式文本分类研究[D];北京邮电大学;2014年
6 俞飞;基于网络信息文本倾向性分析的领域应用研究[D];华东师范大学;2011年
7 张俊丽;文本分类中的关键技术研究[D];华中师范大学;2008年
8 王小燕;文本分类相关技术与应用研究[D];西北大学;2007年
9 王懿;基于自然语言处理和机器学习的文本分类及其应用研究[D];中国科学院研究生院(成都计算机应用研究所);2006年
10 张桂喜;基于语义的领域相关文本分类研究[D];北京工业大学;2011年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978