收藏本站
《大连海事大学》 2017年
收藏 | 手机打开
二维码
手机客户端打开本文

一种基于BTM主题模型的命名实体链接方法研究

李超  
【摘要】:随着网络资源的不断膨胀,信息的不断增多使得人们获取有价值的信息变得越来越困难。而Tweets、微博等短文本的发展和流行,使得人们更加无法从中获取更多感兴趣的内容,拓展命名实体条目的歧义问题成为研究的重点难点,命名实体链接技术是解决该问题的重要方法。命名实体链接是把文档中给定的命名实体链接到知识库中一个无歧义实体的过程,包括同义实体的合并、歧义实体的消歧等。该技术可以提升在线推荐系统、互联网搜索引擎等实际应用的信息过滤能力。本文针对短文本内容简短、语言随意不规范等特性,提出了一种基于BTM主题模型的命名实体链接方法。本文首先使用离线版维基百科来构建命名实体知识库,构建同义词表和歧义词表。本文使用基于规则和统计相结合的方法,识别短文本中的命名实体。由于短文本中出现的命名实体的多样性,根据知识库中的同义词表进行标准化,根据歧义词表获取候选命名实体集合并根据命名实体上下文特性进行剪枝,缩减候选实体集的大小,提高候选实体排序的效率。本文综合考虑词共同出现频率与单个出现频率的情况,改进了 MPM词共现度量只考虑共现频率而不考虑单个词出现频率情况,来计算词共现程度系数。其次,本文基于同一文档下词与命名实体具有相似的主题分布的假设,在语义层面对文档进行建模和实体消歧,提出了一种基于BTM主题模型的命名实体链接方法。该方法使用基于词共现程度系数的BTM模型来对命名实体语义建模,并使用了吉普斯采样的方法求解参数,这使得模型更加简单准确,为后续处理数据提供了理论基础。最后本文根据命名实体所在主题空间的位置向量与候选实体的余弦相似度,把给定文本中的命名实体链接到知识库中一个无歧义的命名实体。
【学位授予单位】:大连海事大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP391.1

【参考文献】
中国期刊全文数据库 前10条
1 向宇;郭云龙;徐潇;曾维刚;李莉;;多策略中文微博实体词消歧及实体链接[J];计算机应用与软件;2016年08期
2 陈玉博;何世柱;刘康;赵军;吕学强;;融合多种特征的实体链接技术研究[J];中文信息学报;2016年04期
3 谭咏梅;王睿;李茂林;;基于上下文信息和排序学习的实体链接方法[J];北京邮电大学学报;2015年05期
4 杨光;刘秉权;刘铭;;基于图方法的命名实体消歧[J];智能计算机与应用;2015年05期
5 王庆;陈泽亚;郭静;陈晰;王晶华;;基于词共现矩阵的项目关键词词库和关键词语义网络[J];计算机应用;2015年06期
6 昝红英;吴泳钢;贾玉祥;牛桂玲;;基于多源知识的中文微博命名实体链接[J];山东大学学报(理学版);2015年07期
7 谭咏梅;杨雪;;结合实体链接与实体聚类的命名实体消歧[J];北京邮电大学学报;2014年05期
8 怀宝兴;宝腾飞;祝恒书;刘淇;;一种基于概率主题模型的命名实体链接方法[J];软件学报;2014年09期
9 魏强;金芝;许焱;;基于概率主题模型的物联网服务发现[J];软件学报;2014年08期
10 肖智博;车丰;吴镝;李庆丰;鲁明羽;;查询无关排序主题模型[J];模式识别与人工智能;2014年07期
中国博士学位论文全文数据库 前1条
1 郭宇航;基于上下文的实体链指技术研究[D];哈尔滨工业大学;2014年
中国硕士学位论文全文数据库 前5条
1 王睿;实体链接的研究与实现[D];北京邮电大学;2015年
2 薛昊原;领域文本资源实体链接算法研究[D];郑州大学;2015年
3 郭云龙;微博实体与百科条目链接的多策略研究[D];西南大学;2015年
4 杨雪;基于维基百科的命名实体消歧的研究与实现[D];北京邮电大学;2014年
5 官山山;中文微博实体链接方法研究[D];哈尔滨工业大学;2013年
【共引文献】
中国期刊全文数据库 前10条
1 齐爱芹;徐蔚然;;基于词向量的实体链接方法[J];数据采集与处理;2017年03期
2 毛二松;王波;唐永旺;梁丹;;基于词向量的中文微博实体链接方法[J];计算机应用与软件;2017年04期
3 张帆;王敏;;基于深度学习的医疗命名实体识别[J];计算技术与自动化;2017年01期
4 吴玲玲;翟恒志;周子力;种晓阳;;基于知识图谱库的中文影评实体链指[J];电子技术;2016年12期
5 王茹;严明;王柳舒;;基于改进的TF-IDF软件测试错误信息分析方法[J];计算机应用;2016年S2期
6 罗念;杨燕;贺樑;;命名实体链接技术研究综述[J];计算机应用与软件;2016年12期
7 尹倩;;基于语境信息的中文分词交叉歧义处理方法[J];重庆工商大学学报(自然科学版);2016年05期
8 端木竹筠;王珩;焦松;;基于灰色关联分析的敏捷指挥与控制系统资源优选[J];指挥与控制学报;2016年03期
9 刘峤;钟云;刘瑶;吴祖峰;秦志光;;基于语义一致性的集成实体链接算法[J];计算机研究与发展;2016年08期
10 曾剑平;刘华;;一种基于聚集系数的人名识别方法[J];计算机工程;2016年07期
中国硕士学位论文全文数据库 前2条
1 李超;一种基于BTM主题模型的命名实体链接方法研究[D];大连海事大学;2017年
2 王睿;实体链接的研究与实现[D];北京邮电大学;2015年
【二级参考文献】
中国期刊全文数据库 前10条
1 何炎祥;罗楚威;胡彬尧;;基于CRF和规则相结合的地理命名实体识别方法[J];计算机应用与软件;2015年01期
2 谭咏梅;杨雪;;结合实体链接与实体聚类的命名实体消歧[J];北京邮电大学学报;2014年05期
3 肖计划;;地名识别与匹配的概率统计方法[J];测绘科学技术学报;2014年04期
4 张紫;;第33次中国互联网络发展状况统计报告[J];计算机与网络;2014年02期
5 陈翀;罗鹏程;汪十红;;利用引用信息的关键词提取[J];图书情报工作;2014年01期
6 张建娥;;基于多特征融合的中文文本关键词提取方法[J];情报理论与实践;2013年10期
7 乐娟;赵玺;;基于HMM的京剧机构命名实体识别算法[J];计算机工程;2013年06期
8 魏强;金芝;李戈;李力行;;物联网服务发现初探:传统SOA的可行性和局限性[J];计算机科学与探索;2013年02期
9 杜婧君;陆蓓;谌志群;;基于中文维基百科的命名实体消歧方法[J];杭州电子科技大学学报;2012年06期
10 李鹏;王斌;石志伟;崔雅超;李恒训;;Tag-TextRank:一种基于Tag的网页关键词抽取方法[J];计算机研究与发展;2012年11期
中国硕士学位论文全文数据库 前7条
1 杨雪;基于维基百科的命名实体消歧的研究与实现[D];北京邮电大学;2014年
2 罗乐;基于潜在语义分析的文本分类算法研究[D];西南大学;2013年
3 陈毅;微博中的社会关系挖掘[D];哈尔滨工业大学;2012年
4 黄屹;基于自学习的社会关系抽取的研究[D];北京理工大学;2011年
5 唐博蓉;基于维基百科的命名实体消歧研究[D];北京理工大学;2011年
6 段明秀;层次聚类算法的研究及应用[D];中南大学;2009年
7 张华杰;基于维基百科的知识抽取和重用[D];上海交通大学;2009年
【相似文献】
中国期刊全文数据库 前10条
1 庄明,老松杨,吴玲达;一种统计和词性相结合的命名实体发现方法[J];计算机应用;2004年01期
2 乐小虬,杨崇俊,刘冬林;空间命名实体的识别[J];计算机工程;2005年20期
3 何婷婷;徐超;李晶;赵君喆;;基于种子自扩展的命名实体关系抽取方法[J];计算机工程;2006年21期
4 蒋龙;周明;简立峰;;利用音译和网络挖掘翻译命名实体[J];中文信息学报;2007年01期
5 陈怀兴;尹存燕;陈家骏;;一种命名实体翻译等价对的抽取方法[J];中文信息学报;2008年04期
6 翟海军;郭勇;郭嘉丰;程学旗;;基于转移学习的命名实体挖掘技术[J];上海交通大学学报;2011年02期
7 邢富坤;;基于隶属度的命名实体自动获取研究[J];计算机应用与软件;2012年08期
8 彭庆喜;陈军威;;互联网命名实体抽取及关联关系挖掘研究[J];软件导刊;2013年03期
9 刘高军;马砚忠;段建勇;;基于维基百科的中文命名实体关联度计算[J];北方工业大学学报;2012年01期
10 王睿,张洁,张由仪,于禛,姚天昉;基于混合模型的中文命名实体抽取系统[J];清华大学学报(自然科学版);2005年S1期
中国重要会议论文全文数据库 前10条
1 庞薇;徐波;;基于双语平行语料的分层次命名实体抽取[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
2 翟海军;郭勇;郭嘉丰;程学旗;;基于转移学习的命名实体挖掘技术[A];第五届全国信息检索学术会议论文集[C];2009年
3 翟海军;郭嘉丰;王小磊;许洪波;;基于用户查询日志的命名实体挖掘[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
4 罗维;吉宗诚;吕雅娟;刘群;;一种改进词语对齐的新方法[A];第五届全国青年计算语言学研讨会论文集[C];2010年
5 张磊;王斌;靖红芳;吴丽辉;;中文网页搜索日志中的特殊命名实体挖掘[A];第五届全国信息检索学术会议论文集[C];2009年
6 郭志立;;使用互信息辅助在篇章范围内识别命名实体[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
7 王浩畅;赵铁军;于浩;;基于文本的生物信息获取[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
8 薛征;廖闻剑;;基于位置权重和实体识别的关键词提取[A];中国电子学会第十六届信息论学术年会论文集[C];2009年
9 王松;杨沐昀;赵铁军;;基于统计的命名实体翻译[A];黑龙江省计算机学会2007年学术交流年会论文集[C];2007年
10 赵明明;洪宇;姚建民;朱巧明;;基于音译和网络的命名实体翻译方法研究[A];第六届全国信息检索学术会议论文集[C];2010年
中国博士学位论文全文数据库 前6条
1 伍大勇;搜索引擎中命名实体查询处理相关技术研究[D];哈尔滨工业大学;2012年
2 刘晓江;基于统计滚雪球模型的知识挖掘理论与方法[D];中国科学技术大学;2011年
3 郑志诚;用户查询歧义性分析研究[D];清华大学;2013年
4 钱龙华;命名实体间语义关系抽取研究[D];苏州大学;2009年
5 杨尔弘;突发事件信息提取研究[D];北京语言大学;2005年
6 怀宝兴;基于概率主题模型的情境建模方法研究[D];中国科学技术大学;2014年
中国硕士学位论文全文数据库 前10条
1 李晶;基于网络抱团发现的命名实体关系抽取[D];华中师范大学;2006年
2 杨萍;基于双语对齐的汉文—新蒙古文命名实体翻译技术研究[D];内蒙古大学;2015年
3 吴泳钢;基于多源知识的命名实体链接研究[D];郑州大学;2015年
4 陈箫箫;微博中的开放域事件抽取[D];北京工业大学;2015年
5 卢煜;微博事件抽取的关键技术研究[D];南京邮电大学;2015年
6 王东明;基于归纳学习法的日语假名和汉语实体对自动获取方法[D];北京交通大学;2016年
7 夏青;汉柬命名实体翻译等价对获取方法研究[D];昆明理工大学;2016年
8 徐志浩;基于维基百科的中文命名实体语料库构建研究[D];苏州大学;2016年
9 余达明;双结构网络中的热门话题演化机制及其应用研究[D];东南大学;2016年
10 杨健;基于事件抽取的日汉新闻语料库构建研究[D];北京交通大学;2016年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026