收藏本站
《西南交通大学》 2014年
收藏 | 手机打开
二维码
手机客户端打开本文

面向中文网络百科的本体学习与知识获取研究

贾真  
【摘要】:对大数据进行研究和分析,将大数据转化为信息和知识对于知识工程和信息网络安全领域都具有重要的科学价值和实际意义。本体知识库是自动问答、决策支持、语义搜索等应用的基础,然而本体知识库的构建费时耗力。中文网络百科是通过广大网络用户协作方式创建的网络大数据,是群体智慧的产物,其潜在用户数约占世界人口的四分之一,为大规模、协作式本体学习与知识获取提供了比较理想的资源和环境。本文针对中文网络百科进行分析,研究适用于中文网络百科特点的本体学习与知识获取方法,为从中文网络百科大数据中挖掘海量概念和关系提供理论依据和算法。主要研究内容分为四个部分:(1)分类关系与实例关系获取:通过对开放分类进行共现分析和语义分析获取开放分类间的上下位关系,并将其转化为开放分类概念层次结构。针对概念层次结构数量较多问题,提出概念层次结构聚类方法,将具有语义相似性的层次结构聚合。利用开放分类概念层次结构计算开放分类之间的相似度,在此基础上计算开放分类的权重,根据开放分类的权重获取百科条目与开放分类之间的实例关系,建立海量分类词汇表。在互动百科数据集上进行实验表明,与代表性方法相比,本文提出的本体学习方法在性能上有明显提高。(2)属性关系获取:将属性值看做命名实体,从百科文本集中挖掘频繁k元模式,通过对k元模式进行关联分析获取候选属性词语,再借助语义资源去除重复的候选属性词语,为类别建立统一的属性列表。针对每个类别属性,采用bootstrapping方法获取属性触发词,根据触发词从文本集中挖掘属性值抽取模式,并基于层次聚类过滤低频、不可信的模式。在互动百科文本集上进行实验表明,与人工定义的类别属性相比,本文获取类别属性数量较多,且更能体现类别的特征;与代表性方法相比本文提出的属性值获取方法在性能上有所提高。(3)实体关系获取:利用百科结构化信息和百科文本集自动获取关系抽取的训练数据。从训练数据和语义资源中挖掘关系词语,通过关系词语过滤对训练数据进行优化,并使用n元模式特征建立分类器,对测试数据进行标注,获取关系实例。实验结果表明,关系词语过滤能够提高训练数据的质量,n元模式特征能够缓解传统n-gram特征稀疏性问题,提升分类器的性能。并提出NF-Tri-training弱监督关系抽取方法,采用Tri-training算法迭代训练多个分类器,不断从未标注数据中获得新样本加入初始训练集,同时采用数据编辑技术对初始训练集以及新样本进行剪辑、去噪。实验结果表明,该方法能够提高分类器的泛化能力,提升弱监督关系抽取的性能。(4)部分-整体关系获取:从百科文本集中挖掘概念对和概念对上下文模式,建立概念对和概念对上下文模式的分布式语义模型,采用协同聚类算法将具有相同语义关系的概念对聚类成簇,通过训练L1正则化逻辑回归模型提取聚类特征并得到代表聚类簇语义关系的概念对上下文模式,根据概念对上下文模式识别部分-整体关系聚类簇,从而获取部分-整体关系概念对。在互动百科大学类别文本集上进行实验表明,与传统模式匹配方法和单边聚类方法相比,本文方法在性能上有所提高。
【学位授予单位】:西南交通大学
【学位级别】:博士
【学位授予年份】:2014
【分类号】:TP391.1

【参考文献】
中国期刊全文数据库 前10条
1 傅继彬;樊孝忠;毛金涛;余正涛;;基于语言特性的中文领域术语抽取算法[J];北京理工大学学报;2010年03期
2 田久乐;赵蔚;;基于同义词词林的词语相似度计算方法[J];吉林大学学报(信息科学版);2010年06期
3 刘桃;刘秉权;徐志明;王晓龙;;领域术语自动抽取及其在文本分类中的应用[J];电子学报;2007年02期
4 李艳翠;冯文贺;周国栋;朱坤华;;基于逗号的汉语子句识别研究[J];北京大学学报(自然科学版);2013年01期
5 刘克彬;李芳;刘磊;韩颖;;基于核函数中文关系自动抽取系统的实现[J];计算机研究与发展;2007年08期
6 裴炳镇,陈晓明,胡熠,陆汝占;一种建立中文概念分类关系的新算法[J];计算机工程与应用;2004年36期
7 缪建明;张全;;一种基于概念关联式的词义消岐方法[J];计算机科学;2010年01期
8 杜波,田怀凤,王立,陆汝占;基于多策略的专业领域术语抽取器的设计[J];计算机工程;2005年14期
9 连莉;马军;雷景生;宋玲;;Part-Whole关系的细分及性质分析[J];计算机工程;2006年17期
10 刘凯鹏;方滨兴;;基于社会性标注的本体学习方法[J];计算机学报;2010年10期
中国博士学位论文全文数据库 前1条
1 姜吉发;自由文本的信息抽取模式获取的研究[D];中国科学院研究生院(计算技术研究所);2004年
【共引文献】
中国期刊全文数据库 前10条
1 曹恒;张茜;;农作物信息垂直搜索引擎的研究[J];安徽农业科学;2012年19期
2 关丽红;;基于特定数学模型的语义抽取研究[J];白城师范学院学报;2012年03期
3 刘高军;马砚忠;段建勇;;基于维基百科的中文命名实体关联度计算[J];北方工业大学学报;2012年01期
4 王成;吕学强;王弘蔚;王涛;;基于信息熵与词语活跃度的领域词抽取[J];北京信息科技大学学报(自然科学版);2011年05期
5 傅继彬;樊孝忠;毛金涛;余正涛;;基于语言特性的中文领域术语抽取算法[J];北京理工大学学报;2010年03期
6 屈赟;杨捧;张文静;;基于信息粒度的主题相似性信息检索[J];河北农业大学学报;2011年01期
7 胡正平;高文涛;万春艳;;基于样本不确定性和代表性相结合的可控主动学习算法研究[J];燕山大学学报;2009年04期
8 陈祖琴;葛继科;;Web2.0环境中基于社会标注的个性化推荐系统模型研究[J];电子商务;2012年02期
9 黄晨;;语义关系抽取发展现状及抽取方法的研究[J];福建电脑;2009年06期
10 季元叶;;语言学特征在中文实体间语义关系抽取中的应用[J];福建电脑;2010年06期
中国博士学位论文全文数据库 前10条
1 熊晶;海洋生态本体的建模方法研究及应用[D];中国海洋大学;2010年
2 高翠芳;模糊聚类新算法及应用研究[D];江南大学;2011年
3 祁瑞华;不完整数据分类知识发现算法研究[D];大连理工大学;2011年
4 熊回香;面向Web3.0的大众分类研究[D];华中师范大学;2011年
5 谢琪;基于本体方法构建中医药概念信息模型的方法学示范研究[D];中国中医科学院;2011年
6 刘铭;大规模文档聚类中若干关键问题的研究[D];哈尔滨工业大学;2010年
7 刘亚清;开放式环境中的本体演化及其在信息抽取的应用研究[D];大连海事大学;2011年
8 朱倩;面向自由文本的细粒度关系抽取的关键技术研究[D];江苏大学;2011年
9 潘俊;基于图的半监督学习及其应用研究[D];浙江大学;2011年
10 单建芳;面向事件的文本表示研究[D];上海大学;2012年
【二级参考文献】
中国期刊全文数据库 前10条
1 邓志鸿,唐世渭,张铭,杨冬青,陈捷;Ontology研究综述[J];北京大学学报(自然科学版);2002年05期
2 赵蔚;刘秀琴;邱百爽;;语义网自适应学习系统中领域本体的构建[J];吉林大学学报(信息科学版);2008年05期
3 刘桃;刘秉权;徐志明;王晓龙;;领域术语自动抽取及其在文本分类中的应用[J];电子学报;2007年02期
4 王娇;罗四维;曾宪华;;基于随机子空间的半监督协同训练算法[J];电子学报;2008年S1期
5 邱田;李鹏飞;林品;;一个基于概念语义近似度的Web服务匹配算法[J];电子学报;2009年02期
6 程涛;施水才;王霞;吕学强;;基于同义词词林的中文文本主题词提取[J];广西师范大学学报(自然科学版);2007年02期
7 王广正;王喜凤;;基于知网语义相关度计算的词义消歧方法[J];安徽工业大学学报(自然科学版);2008年01期
8 储泽祥;;小句是汉语语法基本的动态单位[J];汉语学报;2004年02期
9 王文格;;现代汉语小句的研究现状及存在的问题[J];汉语学习;2010年01期
10 邱百爽;赵蔚;刘秀琴;;基于语义网的自适应学习系统中用户模型的研究[J];开放教育研究;2008年04期
中国博士学位论文全文数据库 前1条
1 刘柏嵩;基于Web的通用本体学习研究[D];浙江大学;2007年
【相似文献】
中国期刊全文数据库 前10条
1 张建文;王强;;面向语义Web的本体学习研究[J];科技广场;2006年08期
2 张海营;;本体学习和基于句型规则的自举本体学习方法模型设计[J];图书情报工作;2007年09期
3 张囡囡;李冠宇;曲丽宁;;主要本体学习工具的比较分析[J];微计算机信息;2008年12期
4 徐济成;李绍稳;张友华;;农业本体及本体学习研究[J];计算机技术与发展;2009年08期
5 鹿彦;孙静波;;基于文本的本体概念提取[J];科技信息;2010年13期
6 邓子平;张传宏;;面向医学的本体学习方法[J];计算机时代;2010年10期
7 李雯睿;白晨希;;一种本体学习模型的设计与实现[J];河南大学学报(自然科学版);2006年04期
8 梁健;吴丹;;种子概念方法及其在基于文本的本体学习中的应用[J];图书情报工作;2006年09期
9 梁健;王惠临;;基于文本的本体学习方法研究[J];情报理论与实践;2007年01期
10 宗江琴;范荣;;基于粒计算的本体学习研究[J];科技广场;2007年05期
中国重要会议论文全文数据库 前3条
1 刘柏嵩;高济;;通用本体学习框架研究(英文)[A];全国语域web与本体能研讨会论文集[C];2006年
2 刘强;林世平;;基于蚁群聚类算法的中文本体学习[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
3 徐惠;高志强;陆青健;朱万颖;;ORIGO:一种基于数字化图书馆资源的本体学习方法[A];2008'中国信息技术与应用学术论坛论文集(一)[C];2008年
中国博士学位论文全文数据库 前5条
1 刁丽娟;通用本体学习方法及其应用的关键技术研究[D];华东师范大学;2015年
2 邱桃荣;面向本体学习的粒计算方法研究[D];北京交通大学;2009年
3 刘柏嵩;基于Web的通用本体学习研究[D];浙江大学;2007年
4 傅魁;基于Web的本体学习研究[D];武汉理工大学;2007年
5 贾真;面向中文网络百科的本体学习与知识获取研究[D];西南交通大学;2014年
中国硕士学位论文全文数据库 前10条
1 王晓庆;基于框架语义的中文本体学习研究[D];中国海洋大学;2008年
2 程波波;基于文本的茶学本体学习方法研究[D];安徽农业大学;2010年
3 贾秀玲;面向文本的本体学习中概念提取及关系提取的研究[D];中南大学;2007年
4 鹿彦;面向文本的本体学习方法研究[D];长春工业大学;2011年
5 谢彩云;基于法律领域的本体学习方法的研究与应用[D];南昌大学;2012年
6 胡冬润;面向网络舆情任务的本体学习方法研究[D];南京航空航天大学;2013年
7 杨芬;本体学习中概念和关系抽取方法研究[D];重庆大学;2010年
8 刘明生;粒计算及其在本体学习中应用的研究[D];南昌大学;2007年
9 刘婷;本体学习及其在语义检索中应用的研究[D];南昌大学;2011年
10 陈绍琛;基于非结构中文数据源的本体学习[D];哈尔滨工程大学;2009年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026