收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于中文维基百科的语义知识挖掘相关研究

李赟  
【摘要】: 为了实现基于自然语言的智能信息处理,计算机需要了解大量的语义知识。大规模语义词典和知识库通常依靠人工构建完成,在建设和维护过程中耗费了大量的人力物力。从语料资源中自动抽取语义信息,建设大规模的语义知识资源已成为一个热门的研究课题。维基百科是一个开放式的在线百科全书,对于自然语言处理它不止是一个大规模的语料库,还可以用作一个包含了大量人类知识和语义关系的知识库资源。本文从自然语言处理和语义知识资源建设两方面出发,研究了维基百科挖掘语义信息挖掘等方面的处理方法及相关应用。 针对自然语言处理中的语义相关度计算,本文提出了基于维基百科链接关系(分类图和文档图)的“多路径搜索”算法。实验下载了中文维基百科页面并利用链接关系抽取出反映分类层次关系的分类图以及反映解释文档超级链接引用的文档图。进一步通过搜索多条相关路径,综合路径长度及节点或链接权重等完成语义相关度计算。实验利用超级链接引用关系抽取了大量的语义相关词对,并建立了一个人工标注的测试集,通过与经典算法的对比对实验结果进行了分析评估。 文本语义相关度的计算也可以利用维基百科实现语义知识扩展。实验抽取了页面重定向、分类层次、文本链接等反映语义关联关系的链接结构,并利用矩阵运算综合了直接或间接的语义关联关系,建立了一个包含维基百科背景知识的语义转换矩阵。通过将文档词频向量与语义转换矩阵相乘,获得一个在新的语义空间上的扩展向量,利用传统的向量夹角余弦等方法计算文本的语义相关度。算法同样可以用于抽取大量的存在语义相关关系的词,作为语义相关度测试集。 针对挖掘维基百科构建语义知识资源,本文从两个角度进行了探索。一方面结合维基百科分类图的层次关系及词汇短语结构,并利用解释页面文档的句法模式等信息,挖掘出反映语义关系类别的信息,并为不包含具体语义关系类型的分类图添加语义关系标记,建立一个本体型语义层次网络。另一方面,从维基百科词汇中筛选出反映独立语义概念的核心词,并为所有词条标注最能反映概念、属性特征的相关词解释,建立解释型语义词典。进一步探讨了将维基百科关联到中文语义词典知网(HowNet),并通过挖掘分类关系为其扩充新词、标注义原解释的可行性及其实现方式。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 朱玉强;;维基百科:分享知识的自由百科全书[J];农业图书情报学刊;2006年01期
2 何筠红;;在线共享的自由百科全书——维基百科[J];新世纪图书馆;2006年04期
3 都蓝;;知识组织在Wiki中的应用探析[J];图书馆学研究;2008年05期
4 徐争荣;;构建电影专业维基百科的设想[J];图书情报工作;2009年S1期
5 陈涛,吴健康;图象数据库系统中增加语义知识的方法[J];计算机学报;1989年08期
6 尹开国;;自由人的自由联合:维基百科评介[J];图书情报工作;2007年02期
7 李琼;李志;;面向中文信息处理的语义研究概况[J];江西科技师范学院学报;2009年05期
8 赫枫龄,姚玉川;基于层次知识表示结构的集成化概念分析方法[J];吉林大学学报(理学版);1990年03期
9 于嘉;网络时代的百科全书——维基百科[J];图书馆论坛;2005年04期
10 尹开国;;维基百科社群发展策略研究[J];图书情报知识;2007年03期
11 李赟;黄开妍;任福继;钟义信;;维基百科的中文语义相关词获取及相关度分析计算[J];北京邮电大学学报;2009年03期
12 付锐斌;李斌;;基于维基百科(Wiki)的iWiki系统设计[J];软件导刊;2010年09期
13 高金菲;梁晗晗;;基于半衰期的维基百科演化分析[J];图书情报知识;2011年05期
14 吴晨;张全;贾宁;;一种基于概念的信息检索方法(英文)[J];东南大学学报(英文版);2006年03期
15 梁冰;乔晓东;;从维基文化看我国词表建设[J];图书情报工作;2007年07期
16 黄莲芝;;浅析网络百科全书[J];河北科技图苑;2008年03期
17 王丹丹;;维基百科在学术领域的应用分析[J];图书馆建设;2009年05期
18 郑文婷;文震宇;;从维基百科看工具书的变迁与发展[J];内蒙古科技与经济;2009年10期
19 胡潇;黄如花;;网络百科全书的特点[J];情报探索;2010年03期
20 田莹颖;吴克文;赵宇翔;朱庆华;;维基百科信息内容评议模式及其对传统期刊评议的借鉴[J];情报理论与实践;2010年12期
中国重要会议论文全文数据库 前10条
1 杨柳;何婷婷;涂新辉;;基于网络百科全书的中文关联语义知识获取[A];第五届全国青年计算语言学研讨会论文集[C];2010年
2 宋炜;;语义知识获取与网络信息集成的分析[A];信息科学与微电子技术:中国科协第三届青年学术年会论文集[C];1998年
3 王莹;刘杨;;维基百科的文本聚类方法分析[A];2009年研究生学术交流会通信与信息技术论文集[C];2009年
4 吴晨;张全;贾宁;;一种基于概念的信息检索方法(英文)[A];全国语域web与本体能研讨会论文集[C];2006年
5 苏小康;何婷婷;涂新辉;何金卓;;一种基于维基百科知识库的中文文本分类方法研究[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
6 郎君;忻舟;秦兵;刘挺;李生;;集成多种背景语义知识的共指消解[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
7 德·萨日娜;那顺乌日图;;《蒙古语语义信息词典》的初步构建[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
8 陈群秀;;现代汉语实词词汇语义知识的研究和实现[A];第六届汉语词汇语义学研讨会论文集[C];2005年
9 李向阳;刘永文;汪敏;孙宏才;;基于模型与证据的医疗系统工程[A];决策科学与评价——中国系统工程学会决策科学专业委员会第八届学术年会论文集[C];2009年
10 徐平;王静;孙鼎;;基于维基的探究性学习[A];2011中国针灸学会年会论文集(摘要)[C];2011年
中国博士学位论文全文数据库 前10条
1 李赟;基于中文维基百科的语义知识挖掘相关研究[D];北京邮电大学;2009年
2 郭鸿志;多源语义知识库融合方法研究[D];哈尔滨工业大学;2011年
3 齐璇;汉语语义知识的表示及其在汉英机译中的应用[D];国防科学技术大学;2002年
4 由丽萍;构建现代汉语框架语义知识库技术研究[D];上海师范大学;2006年
5 李琼;汉语复句书读前后语言片段的非分句识别[D];华中师范大学;2008年
6 李旭;基于指纹和语义知识表示的中文文档复制检测方法[D];燕山大学;2010年
7 楼轶超;跨领域异构产品模型语义集成的若干基础问题研究[D];浙江大学;2009年
8 詹卫东;面向中文信息处理的现代汉语短语结构规则研究[D];北京大学;1999年
9 易明;基于Web挖掘的电子商务个性化推荐机理与方法研究[D];华中科技大学;2006年
10 肖敏;基于领域本体的电子商务推荐技术研究[D];武汉理工大学;2009年
中国硕士学位论文全文数据库 前10条
1 马德华;基于语义知识的监控执行模式设计与实现[D];吉林大学;2013年
2 崔磊;交互式开放语义知识库构建方法研究[D];哈尔滨工业大学;2010年
3 苏小康;基于维基百科构建语义知识库及其在文本分类领域的应用研究[D];华中师范大学;2010年
4 刘克彬;基于核函数的命名实体关系抽取技术研究[D];上海交通大学;2007年
5 刘巍;基于形状和姿态的WWW图像检索研究[D];山东师范大学;2004年
6 王刚;自动抽取维基百科文本中的语义关系[D];上海交通大学;2008年
7 淡金华;网络环境中的知识自组织模型研究[D];西安电子科技大学;2009年
8 张华杰;基于维基百科的知识抽取和重用[D];上海交通大学;2009年
9 王伟伟;维基出版模式研究[D];中国科学技术大学;2009年
10 周颖;Web2.0时代维客现状与发展初探[D];陕西师范大学;2008年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978