收藏本站
收藏 | 论文排版

基于中文维基百科的语义知识挖掘相关研究

李赟  
【摘要】: 为了实现基于自然语言的智能信息处理,计算机需要了解大量的语义知识。大规模语义词典和知识库通常依靠人工构建完成,在建设和维护过程中耗费了大量的人力物力。从语料资源中自动抽取语义信息,建设大规模的语义知识资源已成为一个热门的研究课题。维基百科是一个开放式的在线百科全书,对于自然语言处理它不止是一个大规模的语料库,还可以用作一个包含了大量人类知识和语义关系的知识库资源。本文从自然语言处理和语义知识资源建设两方面出发,研究了维基百科挖掘语义信息挖掘等方面的处理方法及相关应用。 针对自然语言处理中的语义相关度计算,本文提出了基于维基百科链接关系(分类图和文档图)的“多路径搜索”算法。实验下载了中文维基百科页面并利用链接关系抽取出反映分类层次关系的分类图以及反映解释文档超级链接引用的文档图。进一步通过搜索多条相关路径,综合路径长度及节点或链接权重等完成语义相关度计算。实验利用超级链接引用关系抽取了大量的语义相关词对,并建立了一个人工标注的测试集,通过与经典算法的对比对实验结果进行了分析评估。 文本语义相关度的计算也可以利用维基百科实现语义知识扩展。实验抽取了页面重定向、分类层次、文本链接等反映语义关联关系的链接结构,并利用矩阵运算综合了直接或间接的语义关联关系,建立了一个包含维基百科背景知识的语义转换矩阵。通过将文档词频向量与语义转换矩阵相乘,获得一个在新的语义空间上的扩展向量,利用传统的向量夹角余弦等方法计算文本的语义相关度。算法同样可以用于抽取大量的存在语义相关关系的词,作为语义相关度测试集。 针对挖掘维基百科构建语义知识资源,本文从两个角度进行了探索。一方面结合维基百科分类图的层次关系及词汇短语结构,并利用解释页面文档的句法模式等信息,挖掘出反映语义关系类别的信息,并为不包含具体语义关系类型的分类图添加语义关系标记,建立一个本体型语义层次网络。另一方面,从维基百科词汇中筛选出反映独立语义概念的核心词,并为所有词条标注最能反映概念、属性特征的相关词解释,建立解释型语义词典。进一步探讨了将维基百科关联到中文语义词典知网(HowNet),并通过挖掘分类关系为其扩充新词、标注义原解释的可行性及其实现方式。


知网文化
【相似文献】
中国期刊全文数据库 前19条
1 徐志浩;惠浩添;钱龙华;朱巧明;;中文维基百科的实体分类研究[J];中文信息学报;2015年05期
2 涂新辉;张红春;周琨峰;何婷婷;;中文维基百科的结构化信息抽取及词语相关度计算方法[J];中文信息学报;2012年03期
3 高金菲;梁晗晗;;基于半衰期的维基百科演化分析[J];图书情报知识;2011年05期
4 张瑞;宋宇航;张维;;中文维基百科“编辑战”背后[J];东西南北;2014年09期
5 赵士林;张亚琼;;在线协同编辑的话语冲突与群体极化——以中文维基百科“上海外来人口问题”条目为例[J];新闻大学;2020年01期
6 罗志成;付真真;;外部因素对维基百科序化过程的影响分析[J];图书情报知识;2008年03期
7 黄琳皓;;中文维基百科编辑参与率低的原因分析及对策研究[J];新世纪图书馆;2014年05期
8 陈灵珠;;百度百科和中文维基百科内容生产机制差异比较[J];传媒;2017年10期
9 李小宇;罗志成;;中文维基百科演化趋势与政策环境结构研究[J];情报杂志;2009年02期
10 贾磊;;雄心勃勃的维基百科[J];英语文摘;2005年05期
11 荆琪;段利国;李爱萍;赵谦;;基于维基百科的短文本相关度计算[J];计算机工程;2018年02期
12 万富强;吴云芳;;基于中文维基百科的词语语义相关度计算[J];中文信息学报;2013年06期
13 贾君枝;李艳;;中文维基百科和百度百科类目组织系统的比较分析[J];情报理论与实践;2013年06期
14 陈耀华;杨现民;;开放知识社区用户分类研究——以中文维基百科为例[J];现代教育技术;2016年06期
15 苑明理;;《危机中的维基百科》(2013年第47期)[J];新民周刊;2013年48期
16 景雪芹;徐建良;;基于维基百科的语义相关度算法研究综述[J];微型机与应用;2015年14期
17 成远;;大规模协作如何改变一切[J];IT经理世界;2007年22期
18 王丹丹;;维基百科生产者特征分析及其启示[J];情报科学;2012年01期
19 裘江南;罗志成;王延章;;基于中文语义词典的语义相关度方法比较研究[J];情报理论与实践;2008年05期
中国重要会议论文全文数据库 前20条
1 张红春;何婷婷;涂新辉;周琨峰;;中文维基百科的结构化信息抽取及词语相关度计算[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 刘开瑛;由丽萍;;汉语框架语义知识库构建工程[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
3 王莹;刘杨;;维基百科的文本聚类方法分析[A];2009年研究生学术交流会通信与信息技术论文集[C];2009年
4 郎君;忻舟;秦兵;刘挺;李生;;集成多种背景语义知识的共指消解[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
5 田萱;杜小勇;李海华;;一种基于语义关系计算领域本体中概念间语义相关度的方法[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年
6 由丽萍;刘焘;刘开瑛;;信息处理用中文框架语义知识描述方法研究[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
7 郝晓燕;刘伟;李茹;刘开瑛;;汉语框架语义知识库及软件描述体系[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
8 崔向攀;左敏;;基于碎片化的环境信息挖掘方法研究[A];2016全国环境信息技术与应用交流大会暨中国环境科学学会环境信息化分会年会论文集[C];2016年
9 李燕军;王世铎;;网络信息挖掘在情报信息工作中的应用[A];第二十一次全国计算机安全学术交流会论文集[C];2006年
10 胥永康;岳筱玲;;浅谈网络信息挖掘应用技术[A];第一届全国Web信息系统及其应用会议(WISA2004)论文集[C];2004年
11 韩昱;黄建新;吴桂敏;;房地产大数据及其信息挖掘体系探讨[A];挑战与展望——大数据时代房地产估价和经纪行业发展论文集[C];2013年
12 谭嘉星;;网络信息挖掘在电子商务系统中的应用[A];2011年全国电子信息技术与应用学术会议论文集[C];2011年
13 陈治平;;构造一部改进的日语述语语义词典的初步设想[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
14 谢科;刘奕群;岑荣伟;马少平;茹立云;杨磊;;基于维基百科层次分类框架的主题推荐系统的研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
15 郦悦晨;;基于自然语言处理技术的体育学期刊文章研究热点分析[A];第十二届全国体育科学大会论文摘要汇编——墙报交流(期刊工作委员会)[C];2022年
16 王雅琳;邹江枫;王凯;郭静宇;薛永飞;;基于本体引导与实体消解的注塑知识图谱构建及诊断应用[A];第32届中国过程控制会议(CPCC2021)论文集[C];2021年
17 吴雨竹;张思琪;蔡小冰;倪荣康;龚季兴;;基于AI技术老年人融入现代社会的可行性研究——以成都市为例[A];劳动保障研究会议论文集(十五)[C];2022年
18 赵帅;;人工智能浅析——教育与人工智能系列谈[A];中国教育财政政策咨询报告补充版(2015-2019)[C];2021年
19 刘一闻;李泽魁;秦玉芳;;基于深度神经网络的稿件标题生成[A];中国新闻技术工作者联合会2020年学术年会论文集[C];2020年
20 杨睿涵;续子恺;;自然语言处理技术在解放日报智能视觉创作系统的应用[A];中国新闻技术工作者联合会2020年学术年会论文集[C];2020年
中国博士学位论文全文数据库 前9条
1 李赟;基于中文维基百科的语义知识挖掘相关研究[D];北京邮电大学;2009年
2 赵静;发挥用户的兴趣及资源从而提升用户在维基百科上的贡献[D];中国科学技术大学;2011年
3 才智杰;藏文词向量表示关键技术研究[D];青海师范大学;2018年
4 方兰婷;基于机器学习的自然语言处理和传输技术的研究[D];东南大学;2018年
5 张辰麟;基于自然语言处理技术的汉语委婉语资源库构建与应用[D];江西师范大学;2021年
6 陈德彦;领域语义知识库构建及知识服务方法研究[D];东北大学;2019年
7 Saqib Alam;基于机器学习算法的自然语言处理研究[D];大连理工大学;2020年
8 郭鸿志;多源语义知识库融合方法研究[D];哈尔滨工业大学;2011年
9 齐璇;汉语语义知识的表示及其在汉英机译中的应用[D];国防科学技术大学;2002年
中国硕士学位论文全文数据库 前20条
1 汪祥;基于中文维基百科的语义相关度计算的研究与实现[D];国防科学技术大学;2011年
2 张红春;中文维基百科的结构化信息抽取及词语相关度计算[D];华中师范大学;2011年
3 张磊;基于中文维基百科的全文语义标注系统[D];华中科技大学;2012年
4 王静;中文维基百科类别推荐的研究[D];华中师范大学;2013年
5 李云建;基于中文维基百科的知识库构建[D];苏州大学;2017年
6 钱菲;面向术语的信息检索关键问题研究[D];南京大学;2012年
7 王星尹;本体概念匹配技术的研究与实现[D];西安电子科技大学;2013年
8 金鹏;基于用户行为的网络广告精准投放平台的研究[D];华中师范大学;2015年
9 伍成志;基于维基百科的知识查找系统的研究与实现[D];华南理工大学;2012年
10 汪齐舜;中文维基百科分类结构的复杂网络动力学研究[D];杭州电子科技大学;2014年
11 张柯;基于概念格的语义相关度计算及应用[D];河南大学;2007年
12 曹天天;基于高血压领域本体的文本语义相关度方法研究[D];武汉大学;2017年
13 万宇;汉语词义相似新标准集构建与融合知网的词嵌入学习方法[D];厦门大学;2017年
14 张敏;基于本体的病例个性化推荐研究[D];重庆大学;2018年
15 郭青松;概念及短文本语义相关度计算研究[D];广西师范大学;2020年
16 景雪芹;基于维基百科分类体系的多语海洋叙词表构建[D];中国海洋大学;2015年
17 金凡;基于分众分类法和维基百科的移动应用语义知识库构建[D];武汉科技大学;2012年
18 高飞;基于维基百科的汉语词语及短文本相关度计算方法研究[D];杭州电子科技大学;2013年
19 徐忠明;基于二元组合文法的语义知识库构建[D];山东大学;2008年
20 饶思维;实体—属性—框架语义知识库构建研究[D];东北大学;2012年
中国重要报纸全文数据库 前20条
1 北京商报记者 陶凤 杨月涵;维基百科为何差一杯“咖啡钱”[N];北京商报;2018年
2 宿亮;维基百科“关门”“抗议坏法案”[N];新华每日电讯;2012年
3 本报记者 张贵勇;维基百科:知识因草根而改变[N];中国教育报;2009年
4 记者 钱平广;美国反盗版法争议升级 维基百科黑屏24小时抗议[N];第一财经日报;2012年
5 本报记者 毛俊玉;维基百科真的打败了《大英百科全书》吗?[N];中国文化报;2012年
6 本报记者 张伟;中国多了一个认识世界的窗口[N];中国青年报;2008年
7 本报记者 姜蓉;国产维基百科新玩法[N];中国经营报;2009年
8 本报记者 伊佳;福建移动让数据库变成维基百科[N];通信产业报;2010年
9 本报记者 张双虎;自然语言处理有望“另辟蹊径”[N];中国科学报;2021年
10 本报记者 李钊;自然语言处理技术可提升创新效率[N];科技日报;2020年
11 本报记者 刘肖勇;杨敏 深耕自然语言处理 架起人类与机器沟通的桥梁[N];广东科技报;2020年
12 本报记者 华凌;突破自然语言处理瓶颈需大数据与富知识双轮驱动[N];科技日报;2019年
13 本报记者 刘峣;人工智能创造新闻新玩法[N];人民日报海外版;2016年
14 北京商报记者 姜红;人工智能:市场前夜的秀场[N];北京商报;2017年
15 本报记者 张盖伦;小心,聊天机器人也会被“教坏”[N];科技日报;2017年
16 本报记者 马爱平;机器人能成为“闺蜜”吗?[N];科技日报;2017年
17 记者 李思;企业纷纷抢先机[N];上海金融报;2017年
18 本报记者 李中迪;希望与贵州早日达成合作[N];贵州日报;2017年
19 本报记者 潘玥斐;对人工智能开展前瞻性哲学思考[N];中国社会科学报;2017年
20 本报记者 藏瑾;中国人工智能人才不足美国6% 科技公司全球揽才[N];21世纪经济报道;2017年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978