收藏本站
《杭州电子科技大学》 2013年
收藏 | 手机打开
二维码
手机客户端打开本文

基于中文维基百科的命名实体消歧方法研究

杜婧君  
【摘要】:词义消歧是自然语言处理中的基础性研究课题,而命名实体消歧是词义消歧的一个重要分支。命名实体的歧义是指一个命名实体的指称项可以对应多个实体概念。命名实体消歧指利用文本上下文信息或者其它外部知识库,确定这个指称项具体指向的实体概念的过程。现有的命名实体消歧研究主要是面向英文命名实体的,在中文领域中,针对命名实体消歧的研究起步较晚,研究成果也很少。目前命名实体消歧的主要方法有基于上下文的文本向量聚类方法,基于社会网络的方法和基于分类的方法。传统的利用待消歧实体上下文的向量空间聚类方法只考虑了命名实体上下文之间的词语共现情况,而忽略了文本间词与词之间的关联度以及相互的语义关系。基于社会网络的方法与基于分类的方法都依赖于外部知识库,因中文的知识库相对英文来说比较匮乏,且相对覆盖面太小,对于消歧的领域也相对狭窄。 针对汉语命名实体消歧研究的不足与传统方法的缺点,本文提出了基于中文维基百科的命名实体消歧方法。维基百科(Wikipedia)是目前世界上最大的也是使用最广泛的人类百科全书,它拥有多个国家语言的版本,更大的覆盖率,丰富的语义知识和随时更新的内容。在详细地介绍了中文维基百科的体系结构后,本文分别利用中文维基百科中的页面信息与语义关系两种特征来进行汉语命名实体的消歧。 在基于中文维基百科页面信息的消歧方法中,以待消歧实体在维基百科消歧页中包含的词义选项作为候选的命名实体概念,利用维基百科解释页面中的链接与摘要信息作为候选概念的维基特征,利用命名实体上下文信息作为文本特征,并通过余弦相似度计算得到与待消歧实体文本特征最相似的候选概念。 在基于中文维基百科语义的消歧方法中,在通过维基百科消歧页提取出候选的命名实体概念后,利用中文维基百科中的类别结构与页面之间的链接关系之间包含的广泛的语义关系,分别提出了计算待消歧实体与候选概念文本中的类别相似度与词语之间的相关度两种不同的消歧方法,来确定待消歧实体最终的实体概念。 在介绍了方法后,分别使用CLP-2012会议提供的测试语料和维基官网下载的数据库文件对本文提出的算法进行了实验,并对测试结果进行了分析。实验结果表明,本文方法对汉语命名实体消歧是可行和有效的。
【学位授予单位】:杭州电子科技大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP391.1

【参考文献】
中国期刊全文数据库 前8条
1 赵飞;周涛;张良;马鸣卉;刘金虎;余飞;查一龙;李睿琪;;维基百科研究综述[J];电子科技大学学报;2010年03期
2 杨欣欣;李培峰;朱巧明;王英帅;;一种基于改进的K-means算法的人名消歧系统的设计与实现[J];计算机与数字工程;2010年08期
3 王英帅;李培峰;朱巧明;;一种基于LDA和上下文摘要的Web人名消歧方法[J];计算机应用与软件;2011年07期
4 赵军;;命名实体识别、排歧和跨语言关联[J];中文信息学报;2009年02期
5 陈晨;王厚峰;;基于社会网络的跨文本同名消歧[J];中文信息学报;2011年05期
6 裘江南;罗志成;王延章;;基于中文语义词典的语义相关度方法比较研究[J];情报理论与实践;2008年05期
7 牟晋娟;包宏;;中文实体关系抽取研究[J];计算机工程与设计;2009年15期
8 章顺瑞;游宏梁;;基于层次聚类算法的中文人名消歧[J];现代图书情报技术;2010年11期
中国重要会议论文全文数据库 前1条
1 颜伟;荀恩东;;基于WordNet的英语词语相似度计算[A];第二届全国学生计算语言学研讨会论文集[C];2004年
【共引文献】
中国期刊全文数据库 前10条
1 刘高军;马砚忠;段建勇;;基于维基百科的中文命名实体关联度计算[J];北方工业大学学报;2012年01期
2 杨松;楼新远;;基于向量空间模型附加词义特征的句子相似度研究[J];成都信息工程学院学报;2012年03期
3 李家强;严南南;;基于相似度综合计算的本体映射方法的研究[J];电脑知识与技术;2009年04期
4 谢雄程;刘之家;蓝贞雄;;基于相似度综合的本体自适应映射方法研究[J];广西师范学院学报(自然科学版);2010年04期
5 杨思洛;邱均平;;基于中英维基百科的网络引文分布分析[J];国家图书馆学刊;2012年06期
6 罗文华;;非结构化数据处理分析在电子数据取证中的应用[J];警察技术;2010年03期
7 谢雄程;刘之家;元昌安;;基于Wup的语义相似度计算的全局本体语义分析方法[J];井冈山大学学报(自然科学版);2011年01期
8 宋佳;王卷乐;诸云强;冯敏;;基于地理空间本体的语义检索相关度研究[J];计算机工程与应用;2011年05期
9 李静;罗文华;林鸿飞;;自然语言处理技术在网络案情分析系统中的应用[J];计算机工程与应用;2012年03期
10 章志凌;虞立群;陈奕秋;罗海飞;邵晓敏;;基于Corpus库的词语相似度计算方法[J];计算机应用;2006年03期
中国重要会议论文全文数据库 前5条
1 卓小利;赵欣如;肖雯;方瑾;;基于Wiki技术的动物数字博物馆互动栏目的开发及应用[A];创意科技助力数字博物馆[C];2011年
2 余超;蔡东风;张桂平;;词汇语义相似度计算中相关技术的分析[A];第三届学生计算语言学研讨会论文集[C];2006年
3 钟茂生;;基于词语形式标记的句际语义关系自动识别方法[A];第五届全国信息检索学术会议论文集[C];2009年
4 齐振宇;赵军;杨帆;;一种开放式中文命名实体识别的新方法[A];第五届全国信息检索学术会议论文集[C];2009年
5 罗维;吉宗诚;吕雅娟;刘群;;一种改进词语对齐的新方法[A];第五届全国青年计算语言学研讨会论文集[C];2010年
中国博士学位论文全文数据库 前4条
1 钟茂生;基于内容相关度计算的文本结构分析方法研究[D];上海交通大学;2010年
2 曹鲁慧;Web个人信息集成问题研究[D];山东大学;2012年
3 宋胜利;文本语义表示及多层分类关键技术研究[D];西安电子科技大学;2012年
4 贾冰;基于语义的物联网服务架构及关键算法研究[D];吉林大学;2013年
中国硕士学位论文全文数据库 前10条
1 廖文平;基于CRF的中文地名识别研究[D];大连理工大学;2010年
2 范春晓;基于XML的Web信息抽取技术研究[D];沈阳理工大学;2010年
3 刘飞荣;SOM算法的改进及其在中文文本聚类的应用[D];南昌大学;2010年
4 吕靖;互联网搜索词分类关键技术研究[D];浙江大学;2011年
5 马鸣卉;维基百科的网络结构及可信分析[D];电子科技大学;2010年
6 朱姗;基于本体的电子产品实体关系抽取研究[D];西安电子科技大学;2011年
7 宋宇轩;基于搜索日志和点击日志的同义词挖掘的研究和实现[D];北京交通大学;2011年
8 方鹏程;用户贡献内容质量评价研究[D];北京邮电大学;2011年
9 张红春;中文维基百科的结构化信息抽取及词语相关度计算[D];华中师范大学;2011年
10 李欣荣;百度百科与谷歌开源社区比较研究[D];华南理工大学;2011年
【二级参考文献】
中国期刊全文数据库 前10条
1 白崇远;;《维基百科》的特性及影响[J];辞书研究;2009年02期
2 李楠楠;周涛;张宁;;人类动力学基本概念与实证分析[J];复杂系统与复杂性科学;2008年02期
3 陈永超;刘贵全;;一种基于命名实体的搜索结果聚类算法[J];计算机工程;2009年07期
4 郎君;秦兵;宋巍;刘龙;刘挺;李生;;基于社会网络的人名检索结果重名消解[J];计算机学报;2009年07期
5 徐德智;郑春卉;K. Passi;;基于SUMO的概念语义相似度研究[J];计算机应用;2006年01期
6 于江生 ,俞士汶;中文概念词典的结构[J];中文信息学报;2002年04期
7 胡俊峰 ,俞士汶;唐宋诗中词汇语义相似度的统计分析及应用[J];中文信息学报;2002年04期
8 车万翔,刘挺,李生;实体关系自动抽取[J];中文信息学报;2005年02期
9 姜吉发,王树西;一种自举的二元关系和二元关系模式获取方法[J];中文信息学报;2005年02期
10 蒋龙;周明;简立峰;;利用音译和网络挖掘翻译命名实体[J];中文信息学报;2007年01期
中国重要会议论文全文数据库 前1条
1 关毅;王晓龙;;基于统计的汉语词汇间语义相似度计算[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
【相似文献】
中国期刊全文数据库 前10条
1 高文利;;军备情报说明文的武器对象判定[J];软件导刊;2010年02期
2 刘路;李弼程;张先飞;;基于向量相似度修正策略的命名实体关联分析[J];计算机工程与应用;2008年02期
3 潘渊;李弼程;张先飞;;一种基于自适应重心向量的主题检测方法[J];计算机工程;2009年03期
4 潘正高;侯传宇;谈成访;;基于命名实体的Web新闻文本分类方法[J];合肥工业大学学报(自然科学版);2011年08期
5 王睿,张洁,张由仪,于禛,姚天昉;基于混合模型的中文命名实体抽取系统[J];清华大学学报(自然科学版);2005年S1期
6 周俊生;戴新宇;尹存燕;陈家骏;;基于层叠条件随机场模型的中文机构名自动识别[J];电子学报;2006年05期
7 翁畅平;沈娟;;基于Ontology的个性化语义检索系统研究[J];图书馆理论与实践;2009年10期
8 张先飞;郭志刚;刘嵩;程磊;田雨暄;;基于触发词指导的自相似度聚类事件检测[J];计算机科学;2010年03期
9 刘玉玲;辛国江;;篇章层自然语言数字水印方法[J];计算机工程;2010年12期
10 席峰;;基于命名实体及关系的网页文本关联分析方法[J];微电子学与计算机;2011年08期
中国重要会议论文全文数据库 前10条
1 丁海波;肖桐;朱靖波;;基于多阶段的中文人名消歧聚类技术的研究[A];第六届全国信息检索学术会议论文集[C];2010年
2 周晓;李超;胡明涵;王会珍;;基于人物互斥属性的中文人名消歧[A];第六届全国信息检索学术会议论文集[C];2010年
3 李丽;孙甲申;王小捷;李江;宋占江;;基于属性信息的中文人名消歧[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
4 孙慧;关毅;董喜双;;中文情感词倾向消歧[A];第六届全国信息检索学术会议论文集[C];2010年
5 时迎超;王会珍;肖桐;胡明涵;;面向人名消歧任务的人名识别系统[A];第六届全国信息检索学术会议论文集[C];2010年
6 周云;王挺;易绵竹;王之元;;全词消歧的序列标注方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
7 冯志伟;;机器翻译系统消歧功能测试[A];机器翻译研究进展——2002年全国机器翻译研讨会论文集[C];2002年
8 杨晓安;;“没有VP的NP”型结构消歧的韵律手段[A];第九届中国语音学学术会议论文集[C];2010年
9 罗维;吉宗诚;吕雅娟;刘群;;一种改进词语对齐的新方法[A];第五届全国青年计算语言学研讨会论文集[C];2010年
10 方向红;宋春阳;;介连兼类词“以”的句法语义区别特征及消歧策略[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
中国重要报纸全文数据库 前10条
1 张素芳 译 陈永伶 校;《消歧公约》面临新挑战[N];中国妇女报;2000年
2 北京科技大学法律系副教授 王竹青;《消歧公约》与中国司法实践[N];中国妇女报;2010年
3 本报记者木佳;私企难入农业科研门[N];中华工商时报;2003年
4 张伟城;中文热持续升温[N];人民日报海外版;2009年
5 张海桐;用中文把歌剧唱出来[N];人民日报海外版;2011年
6 朱珉迕;说中文和“拌洋荤”[N];解放日报;2009年
7 本报驻巴黎记者 姚立;“中文热”在法升温速度令人始料不及[N];光明日报;2010年
8 刘菲;关注特殊的学中文群体[N];人民日报海外版;2011年
9 晓阳;《选报》落户起点中文网[N];中华新闻报;2009年
10 记者钟哲 通讯员李世举;合编首部“民族版”高校中文教材[N];中国社会科学报;2010年
中国博士学位论文全文数据库 前10条
1 刘晓江;基于统计滚雪球模型的知识挖掘理论与方法[D];中国科学技术大学;2011年
2 刘慧;信息检索中用户需求的概念分析研究[D];上海交通大学;2009年
3 翟海军;面向Web信息检索的知识挖掘[D];中国科学技术大学;2010年
4 齐璇;汉语语义知识的表示及其在汉英机译中的应用[D];国防科学技术大学;2002年
5 屠晓;英文地址图像识别与翻译研究[D];华东师范大学;2011年
6 文娟;统计语言模型的研究与应用[D];北京邮电大学;2010年
7 王会珍;文本内容分类和主题追踪关键技术研究[D];东北大学;2008年
8 陈冬玲;基于潜在语义的个性化搜索关键技术研究[D];东北大学;2009年
9 荚济民;基于互联网数据集的图像标注技术研究[D];中国科学技术大学;2009年
10 熊文新;信息检索Query语言分析[D];北京语言大学;2006年
中国硕士学位论文全文数据库 前10条
1 杜婧君;基于中文维基百科的命名实体消歧方法研究[D];杭州电子科技大学;2013年
2 唐博蓉;基于维基百科的命名实体消歧研究[D];北京理工大学;2011年
3 裴飞;基于聚类的英汉人名消歧研究[D];苏州大学;2011年
4 李超;面向新闻领域的人名消歧方法研究[D];东北大学;2010年
5 李丽;基于属性信息的中文人名消歧研究[D];北京邮电大学;2012年
6 李海光;基于位置和语义特征的中文命名实体关系抽取研究[D];合肥工业大学;2011年
7 林伟贇;基于海量网页的同类命名实体共现统计规律的研究[D];北京工业大学;2011年
8 沈剑平;面向网络人物搜索的中文人名消歧[D];哈尔滨工业大学;2010年
9 赵凯祺;实体消歧及其在图像搜索中的应用[D];上海交通大学;2013年
10 杜俊武;基于点击数据和搜索结果片断的命名实体挖掘[D];北京理工大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026