收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于维基百科的知识抽取和重用

张华杰  
【摘要】: 随着互联网2.0的兴起,利用集体智慧的协作式编辑系统被广泛地用于知识管理中。维基系统就是这样一个例子,其中维基百科就是流行的一种维基系统。维基百科是目前最大的免费在线百科全书,它是由广大的志愿者来共同编辑的。维基百科具备以下作为一个潜在的语义数据源的特征:广泛的知识覆盖面、明确定义的结构化信息和随着世界知识变迁而变迁动态更新的特点。语义维基是对维基的一种扩展,利用语义万维网的技术对维基元素增加显示的语义。 然而,尽管这种自由的、协作式的编辑方式促成了维基百科的成功,但是这同时也带来了一些问题。尤其地,它会导致大量的标注缺失和噪音标注的问题,这会影响到文章的内容质量和妨碍术语的收敛。当前,低质量的标注不得不由一小批专家去修改,这也成为了一种效率的瓶颈。同时,这些专家也是做了大部分编辑工作的最活跃的贡献者,对他们而言,这无非是一个巨大的负担。语义维基百科也面临同样的问题:缺少标注的语义和语义标注者。特别地,对一个普通用户来说,要编辑一个高质量的维基百科文章,必须处理好当前编辑的文章与系统现有的文档集的关系。这就要求用户对系统文档集以及其包含的知识有一定的了解,在编辑语义维基时还要理解其潜在的语义技术。他们要面临以下一些问题: 1)什么时候有必要提供一个超链接指向一个被引用的实体?如何正确定位到它? 2)可以用哪些类别标签来恰当地标识这篇文章? 3)可以用什么信息盒模板来描述文章主题对象的属性? 4)在编辑语义维基百科的时候,实体之间是否有潜在的语义关系?如果存在,则应该用什么谓词来标注关系的类型? 在本课题中,我们试图通过知识抽取与知识重用来帮助用户回答以上这些问题。知识抽取是知识重用的前提和依据,而知识重用是知识抽取的目的。我们受到协同过滤的思想的启发:根据相似用户的评价行为来产生对当前用户的推荐。类似地,我们通过标注推荐的方式来实现知识重用。为了达到这个目的,我们首先要从当前维基百科中的标注的数据集中抽取有用的知识作为我们作推荐的依据或背景知识,这些知识是结构化或半结构化的实体语义特征,包括:实体的术语词典、实体的类型、实体之间的关系特征等。我们还将提出一个统一的标注推荐算法框架来重用所抽取的知识,并将这个知识重用方案应用到当前的维基百科的编辑中去。我们将展示原形系统EachWiki,它对维基百科提供了以下的推荐服务:链接推荐、类别推荐、信息盒推荐、以及关系推荐,通过这种方式,使得用户在编辑维基百科时可以充分利用集体的智慧。这些推荐服务不但可以便利用户编辑高质量的维基百科知识,还可以帮助构筑语义维基百科。最后,通过对各个推荐服务的实验评估充分证明了我们方法的有效性、高效性和实用性。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 刘一宁;;学术定义抽取研究综述[J];情报探索;2011年08期
2 刘茂福;余博;胡慧君;;基于维基百科的多文档自动摘要系统研究[J];微型机与应用;2011年16期
3 张海粟;马大明;邓智龙;;基于维基百科的语义知识库及其构建方法研究[J];计算机应用研究;2011年08期
4 寿思聪;姚从磊;李晓明;;发现维基百科文章相关图片[J];计算机科学与探索;2011年07期
5 龚书;瞿有利;田盛丰;;基于维基语义的多文档文摘研究[J];南京大学学报(自然科学版);2011年04期
6 翟菊叶;马吴迪;;电子商务问答系统的研究[J];科技信息;2011年18期
7 ;[J];;年期
8 ;[J];;年期
9 ;[J];;年期
10 ;[J];;年期
11 ;[J];;年期
12 ;[J];;年期
13 ;[J];;年期
14 ;[J];;年期
15 ;[J];;年期
16 ;[J];;年期
17 ;[J];;年期
18 ;[J];;年期
19 ;[J];;年期
20 ;[J];;年期
中国重要会议论文全文数据库 前8条
1 王莹;刘杨;;维基百科的文本聚类方法分析[A];2009年研究生学术交流会通信与信息技术论文集[C];2009年
2 苏小康;何婷婷;涂新辉;何金卓;;一种基于维基百科知识库的中文文本分类方法研究[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
3 郎君;忻舟;秦兵;刘挺;李生;;集成多种背景语义知识的共指消解[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
4 华成;徐光华;张庆;刘弹;李红军;;基于CBR的智能维修决策技术研究与应用[A];2009中国仪器仪表与测控技术大会论文集[C];2009年
5 徐平;王静;孙鼎;;基于维基的探究性学习[A];2011中国针灸学会年会论文集(摘要)[C];2011年
6 田春艳;杨保安;赵林;;基于神经网络的规则抽取技术在贷款风险预警研究中的应用[A];管理科学与系统科学研究新进展——第8届全国青年管理科学与系统科学学术会议论文集[C];2005年
7 李秀喜;杨国军;熊海霞;;基于GEP的化工过程故障诊断知识抽取[A];2009中国过程系统工程年会暨中国mes年会论文集[C];2009年
8 张智雄;;数字图书馆中知识技术的研究和应用[A];科技、工程与经济社会协调发展——中国科协第五届青年学术年会论文集[C];2004年
中国博士学位论文全文数据库 前7条
1 车海燕;面向中文自然语言Web文档的自动知识抽取和知识融合[D];吉林大学;2008年
2 李赟;基于中文维基百科的语义知识挖掘相关研究[D];北京邮电大学;2009年
3 秦忠宝;基于混合知识表示的设计创新及知识获取研究[D];西北工业大学;2006年
4 刘勇;基于粒度计算的知识发现研究及其应用[D];浙江大学;2006年
5 李欢;问答系统中的文本信息抽取研究与应用[D];中国科学技术大学;2009年
6 穆肃;语义网技术支持的远程教育机构知识管理系统概念建模的研究[D];华南师范大学;2007年
7 杨阳;中药提取工艺文献知识组织方法研究[D];中国中医科学院;2011年
中国硕士学位论文全文数据库 前10条
1 张华杰;基于维基百科的知识抽取和重用[D];上海交通大学;2009年
2 杨艳;一种非结构化数据中医知识抽取与关联的方法[D];浙江大学;2010年
3 孔胜;文本资源的知识抽取研究[D];大连理工大学;2010年
4 魏磊;CBT开发平台中的知识抽取技术研究[D];南京航空航天大学;2006年
5 王刚;自动抽取维基百科文本中的语义关系[D];上海交通大学;2008年
6 于杨;基于知识元的领域知识服务体系的研究与实现[D];大庆石油学院;2009年
7 淡金华;网络环境中的知识自组织模型研究[D];西安电子科技大学;2009年
8 王伟伟;维基出版模式研究[D];中国科学技术大学;2009年
9 周颖;Web2.0时代维客现状与发展初探[D];陕西师范大学;2008年
10 宋勋超;文本聚类算法的语义性改进与实现[D];浙江大学;2011年
中国重要报纸全文数据库 前3条
1 记者 金振蓉;文献评价工作越来越注重知识评价[N];光明日报;2004年
2 江获;数据库是语言学家的重要工具[N];中国社会科学院院报;2004年
3 本报记者 程晓龙;最大化“网罗”科技文献[N];中国新闻出版报;2004年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978