收藏本站
《华东师范大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

基于维基百科和web共现分析的概念关系网构建系统研究与实现

许明敏  
【摘要】:随着知识的爆炸性增长,如何从浩瀚的信息中找到用户最需要的部分已成为一大难题。为解决这个问题,信息检索和推荐系统从不同的层面提供了很好的帮助。信息检索通过分析文档内容提供通用的信息查询功能,而推荐系统利用用户和内容之间的关联,提供个性化的信息推送。但是,这些方法依然无法从总体上对知识进行理解,即从总体上把握知识的组成和各部分知识之间的关系。 概念关系网是知识结构描述的有效手段,用于描述知识的组成部分以及各部分之间的关系。一个优良的概念关系网可以直观的展示知识的内部关系,帮助挖掘隐含的知识,用于提高知识管理系统的性能。 在分析比较了现有的知识库,包括格式化的语义关系库和半结构化的知识集的基础上,文章结合了维基百科的特性和共现分析技术,提出了概念关系网快速构建和自动维护的完整解决方案。本文的关键研究内容如下: 结合维基百科的知识处理技术和共现分析技术,本文提出了基于维基百科和web共现分析的概念关系网构建框架CACN-WCA(Construction Architecture of Conceptual Network Based on Wikipedia and Co-occurrence Analysis)。该框架根据概念关系网构建阶段和更新维护阶段的不同需求,分别提出了基于维基百科数据集和web数据集的解决方案。在概念关系网初始化阶段,充分利用维基百科丰富的语义信息对概念进行标记,提出维基百科中的概念关系识别模型,实现概念关系网的快速初始化;在概念关系网更新阶段以概念共现和相关度之间的联系为基础,在大规模的web数据集中,通过对概念共现信息的跟踪,实现了概念关系网的动态更新。 在CACN-WCA系统结构的指导下,文章对概念关系网构建和维护的核心技术,包括维基百科概念重要度算法、维基百科概念对分析算法、新概念/新概念对识别算法以及概念对权重调整算法,进行了深入的研究。 在概念关系网初始化阶段,文章以维基百科提供的数据库文件为分析素材。首先利用改进的Croughton-London规则移除数据集中包含的不完善页面,又称为stub页面,在剩余文档中,根据文档内容的完整性、可靠性等标准给不同的概念标记相应的重要度。接下来,概念对分析算法以维基百科文档为分析单位,引入了维基百科文档星型模型来表示文档词条和标记概念中的关系,从中生成概念关系对。对于每个概念对权重的计算,算法中根据这一原则:标记概念在文档中的重要度反映了该概念与文档词条的相关程度,从而利用文档中概念的语义信息计算出概念对的相关度权重。 在关系网更新阶段,文章以基于web数据的共现分析技术为基础,利用新概念/新概念对识别算法和概念对权重调整算法分别实现新元素的增加和已有元素属性的调节。在新概念/新概念对识别算法中,除了出现频率这一标准,文章中还提出了累计增益的概念,从变化趋势中识别出重要的元素。在概念对权重的调节中,文章提出了概念权重衰减模型和概念权重冲激模型,在使概念权重自然衰减的同时,利用共现信息来重新提升概念对的相关权重,实现概念关系网的动态平衡。 最后,由于本系统架构已经使用在具体的项目中,在理论研究的基础上,文章对于该系统结构的具体实现进行了简单的介绍,并对文章中提出的关键算法进行了实验分析。实验数据证明,基于维基百科和web共现分析的概念关系网构建框架具有较好的使用效果。
【学位授予单位】:

知网文化
【相似文献】
中国期刊全文数据库 前20条
1 朱玉强;;维基百科:分享知识的自由百科全书[J];农业图书情报学刊;2006年01期
2 何筠红;;在线共享的自由百科全书——维基百科[J];新世纪图书馆;2006年04期
3 都蓝;;知识组织在Wiki中的应用探析[J];图书馆学研究;2008年05期
4 徐争荣;;构建电影专业维基百科的设想[J];图书情报工作;2009年S1期
5 尹开国;;自由人的自由联合:维基百科评介[J];图书情报工作;2007年02期
6 李赟;黄开妍;任福继;钟义信;;维基百科的中文语义相关词获取及相关度分析计算[J];北京邮电大学学报;2009年03期
7 付锐斌;李斌;;基于维基百科(Wiki)的iWiki系统设计[J];软件导刊;2010年09期
8 高金菲;梁晗晗;;基于半衰期的维基百科演化分析[J];图书情报知识;2011年05期
9 于嘉;网络时代的百科全书——维基百科[J];图书馆论坛;2005年04期
10 尹开国;;维基百科社群发展策略研究[J];图书情报知识;2007年03期
11 梁冰;乔晓东;;从维基文化看我国词表建设[J];图书情报工作;2007年07期
12 黄莲芝;;浅析网络百科全书[J];河北科技图苑;2008年03期
13 王丹丹;;维基百科在学术领域的应用分析[J];图书馆建设;2009年05期
14 郑文婷;文震宇;;从维基百科看工具书的变迁与发展[J];内蒙古科技与经济;2009年10期
15 胡潇;黄如花;;网络百科全书的特点[J];情报探索;2010年03期
16 田莹颖;吴克文;赵宇翔;朱庆华;;维基百科信息内容评议模式及其对传统期刊评议的借鉴[J];情报理论与实践;2010年12期
17 杨阳;;维基百科历史类文献的参考文献分析[J];情报杂志;2010年10期
18 陈燕;龙建勋;;基于明确语义分析的自动文摘算法[J];计算机工程;2011年03期
19 刘茂福;余博;胡慧君;;基于维基百科的多文档自动摘要系统研究[J];微型机与应用;2011年16期
20 罗志成;付真真;;外部因素对维基百科序化过程的影响分析[J];图书情报知识;2008年03期
中国重要会议论文全文数据库 前4条
1 王莹;刘杨;;维基百科的文本聚类方法分析[A];2009年研究生学术交流会通信与信息技术论文集[C];2009年
2 苏小康;何婷婷;涂新辉;何金卓;;一种基于维基百科知识库的中文文本分类方法研究[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
3 郎君;忻舟;秦兵;刘挺;李生;;集成多种背景语义知识的共指消解[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
4 徐平;王静;孙鼎;;基于维基的探究性学习[A];2011中国针灸学会年会论文集(摘要)[C];2011年
中国博士学位论文全文数据库 前3条
1 李赟;基于中文维基百科的语义知识挖掘相关研究[D];北京邮电大学;2009年
2 龚书;抽取式多文档文摘的文本表示研究[D];北京交通大学;2013年
3 张俊三;Web中相关实体发现研究[D];北京交通大学;2013年
中国硕士学位论文全文数据库 前10条
1 万亿;基于维基百科的概念图建模及其应用研究[D];华中师范大学;2014年
2 王刚;自动抽取维基百科文本中的语义关系[D];上海交通大学;2008年
3 淡金华;网络环境中的知识自组织模型研究[D];西安电子科技大学;2009年
4 张华杰;基于维基百科的知识抽取和重用[D];上海交通大学;2009年
5 王伟伟;维基出版模式研究[D];中国科学技术大学;2009年
6 周颖;Web2.0时代维客现状与发展初探[D];陕西师范大学;2008年
7 宋勋超;文本聚类算法的语义性改进与实现[D];浙江大学;2011年
8 万元元;社会性标签系统的个性化资源推荐[D];天津大学;2012年
9 黄波;互联网用户群体行为产生机理研究[D];北京邮电大学;2013年
10 魏征;交互式问答系统中的省略恢复研究[D];哈尔滨工业大学;2010年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978