收藏本站
《天津大学》 2012年
收藏 | 手机打开
二维码
手机客户端打开本文

地名本体实体与关系抽取研究

蒋方玲  
【摘要】:近年来,突发事件频频发生。应急管理的重要性越来越突出。应急管理的过程中涉及多方面数据的融合。如何快速、准确的提供相关的数据是急需研究的问题。随着互联网的发展,网络上的数据呈指数级增长,这些数据中包含了很多应急管理需要的信息。地名信息是应急信息的核心支撑点。本文进行地名本体实体和关系抽取研究,抽取地名相关的实体和实体间的关系,为应急数据的抽取和语义化奠定核心基础。 实体和关系的抽取属于自然语言处理中的命名实体识别和关系抽取。目前主流的方法有基于规则的方法和基于机器学习的方法。本文在抽取的过程中根据原始文本中实体和关系的特点分别因地制宜地采取了基于规则和基于机器学习的方法。 由于业界没有建立好的地名领域抽取的语料库,本文首先建立了地名本体抽取的实体体系和关系体系,然后根据抽取过程中关注的特征建立实体抽取和关系抽取所需要的语料,详细介绍了语料库构建的过程。对地名本体实体根据其在原始文本中出现的规律进行了分类,分别采用基于规则的方法和利用最大熵进行机器学习的方法。首先总结了四类地名本体实体的抽取规则,然后对于其他的几类地名本体实体,首先对机器学习过程中使用的特征进行了分析,基于标注的语料,利用最大熵进行了地名实体的抽取。对于关系的抽取,首先分析了关系的特点,采用基于特征向量的方法,利用SVM进行关系的抽取。根据语料的特点,提出了基于规则的方法抽取地名本体的关系。同时,分析了关系的特点,制定了相关的规则,从已有的关系出发,推导出隐含的关系,进一步丰富地名本体关系库。 最后,设计和实现了地名本体实体和关系抽取平台,并将抽取的数据应用到了实际的语义地名搜索引擎中,实践证明,抽取的实体和关系数据很大程度上提升了用户体验,帮助了用户更方便、更迅速、更准确的地名相关数据。
【学位授予单位】:天津大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP391.1

手机知网App
【参考文献】
中国期刊全文数据库 前5条
1 周俊生;戴新宇;尹存燕;陈家骏;;基于层叠条件随机场模型的中文机构名自动识别[J];电子学报;2006年05期
2 刘克彬;李芳;刘磊;韩颖;;基于核函数中文关系自动抽取系统的实现[J];计算机研究与发展;2007年08期
3 蒋方玲;王文俊;杨鹏;徐佳佳;;中文地名本体模型研究[J];计算机工程与应用;2011年25期
4 王宁,葛瑞芳,苑春法,黄锦辉,李文捷;中文金融新闻中公司名的识别[J];中文信息学报;2002年02期
5 董静;孙乐;冯元勇;黄瑞红;;中文实体关系抽取中的特征选择研究[J];中文信息学报;2007年04期
中国硕士学位论文全文数据库 前1条
1 张志田;无监督关系抽取方法研究[D];哈尔滨工业大学;2007年
【共引文献】
中国期刊全文数据库 前10条
1 李玉森;张雪英;袁正午;;面向GIS的地理命名实体识别研究[J];重庆邮电大学学报(自然科学版);2008年06期
2 李建平;王慧强;卢爱平;郝洪亮;冯光升;;基于条件随机场的网络安全态势量化感知方法[J];传感器与微系统;2010年10期
3 黄德根;李泽中;万如;;基于SVM和CRF的双层模型中文机构名识别[J];大连理工大学学报;2010年05期
4 周顺先;林亚平;王耀南;易叶青;;基于二阶隐马尔可夫模型的文本信息抽取[J];电子学报;2007年11期
5 黄晨;;语义关系抽取发展现状及抽取方法的研究[J];福建电脑;2009年06期
6 季元叶;;语言学特征在中文实体间语义关系抽取中的应用[J];福建电脑;2010年06期
7 王昌厚;;基于条件随机场的中文命名体识别[J];福建电脑;2012年02期
8 刘海鹏;王小捷;;基于条件随机场和知识库的手机短信命名实体识别[J];广西师范大学学报(自然科学版);2009年01期
9 胡广朋;程辉;邵玉宝;;基于层叠条件随机场的网络入侵识别[J];江苏科技大学学报(自然科学版);2008年05期
10 李军;王丁;王鑫;;基于模板匹配的中文机构名识别[J];信息技术;2008年06期
中国重要会议论文全文数据库 前10条
1 于江德;王希杰;樊孝忠;;汉语词法分析中上文和下文孰重孰轻[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 何正焱;王厚峰;;商品品牌名称挖掘[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 俞鸿魁;张华平;刘群;吕学强;施水才;;基于层叠隐马尔可夫模型的中文命名实体识别[A];全国网络与信息安全技术研讨会'2005论文集(下册)[C];2005年
4 吴雪军;朱靖波;王会珍;叶娜;张宇新;;Co-Training的机器学习方法在中文机构名识别中的应用[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
5 李斌;;中文单字国名简称的自动识别[A];第二届全国学生计算语言学研讨会论文集[C];2004年
6 乔春庚;肖诗斌;孙丽华;施水才;;规则与统计相结合的案件名称识别[A];第三届学生计算语言学研讨会论文集[C];2006年
7 郑家恒;谭红叶;王兴义;;基于模式匹配的中文专有名词识别[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
8 陈禹;史晓东;向晓雯;张润延;;基于混合方法的中文命名实体识别[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
9 陈慧;张普;;基于DCC动态流通语料库的中文组织名监测与研究[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
10 徐薇;付滨;刘柳;苑春法;李文捷;;中文命名实体识别系统的领域扩展[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 李建平;面向异构数据源的网络安全态势感知模型与方法研究[D];哈尔滨工程大学;2010年
2 荆涛;面向领域网页的语义标注若干问题研究[D];吉林大学;2011年
3 吴承荣;骨干通道上的网络论坛通信信息监测和分析的关键技术研究[D];复旦大学;2011年
4 张浩;视频运动人体行为识别与分类方法研究[D];西安电子科技大学;2011年
5 谢琪;基于本体方法构建中医药概念信息模型的方法学示范研究[D];中国中医科学院;2011年
6 刘运;DDoS Flooding攻击检测技术研究[D];国防科学技术大学;2011年
7 朱锁玲;命名实体识别在方志内容挖掘中的应用研究[D];南京农业大学;2011年
8 罗芳;意见挖掘中若干关键问题研究[D];武汉理工大学;2011年
9 刘荣辉;多阶段自适应差分进化算法及应用研究[D];东华大学;2012年
10 张素香;信息抽取中关键技术的研究[D];北京邮电大学;2007年
中国硕士学位论文全文数据库 前10条
1 王东亮;基于条件随机场模型的中文人名识别的研究[D];大连理工大学;2010年
2 红霞;基于层叠条件随机场的中文机构名识别的研究[D];大连理工大学;2010年
3 李小红;基于自举的弱指导中文语义关系抽取研究[D];苏州大学;2010年
4 季元叶;语言学特征在中文命名实体间语义关系抽取中的应用研究[D];苏州大学;2010年
5 杨晓东;中文命名实体识别及若干相关问题的研究[D];江苏大学;2010年
6 韩露;领域知识对领域问答系统答案抽取影响研究[D];昆明理工大学;2008年
7 张宜浩;基于最大熵模型的中文实体关系自动抽取研究[D];昆明理工大学;2010年
8 张卓;基于分层需求的领域本体构建及语义标注方法研究[D];东北财经大学;2010年
9 朱姗;基于本体的电子产品实体关系抽取研究[D];西安电子科技大学;2011年
10 牛彦清;中文问答系统的问句分类研究[D];太原理工大学;2011年
【二级参考文献】
中国期刊全文数据库 前10条
1 刘瑜;张毅;田原;薛露露;;广义地名及其本体研究[J];地理与地理信息科学;2007年06期
2 刘群,张华平,俞鸿魁,程学旗;基于层叠隐马模型的汉语词法分析[J];计算机研究与发展;2004年08期
3 李保利,陈玉忠,俞士汶;信息抽取研究综述[J];计算机工程与应用;2003年10期
4 张晓艳;王挺;陈火旺;;命名实体识别研究[J];计算机科学;2005年04期
5 何婷婷;徐超;李晶;赵君喆;;基于种子自扩展的命名实体关系抽取方法[J];计算机工程;2006年21期
6 鲁松,白硕;自然语言处理中词语上下文有效范围的定量描述[J];计算机学报;2001年07期
7 鲁松,李晓黎,白硕,王实;文档中词语权重计算方法的改进[J];中文信息学报;2000年06期
8 张华平,刘群;基于N-最短路径方法的中文词语粗分模型[J];中文信息学报;2002年05期
9 周茜,赵明生,扈旻;中文文本分类中的特征选择研究[J];中文信息学报;2004年03期
10 车万翔,刘挺,李生;实体关系自动抽取[J];中文信息学报;2005年02期
中国博士学位论文全文数据库 前1条
1 杨小兵;聚类分析中若干关键技术的研究[D];浙江大学;2005年
【相似文献】
中国期刊全文数据库 前10条
1 李腊元;计算机网络的一种通信协议分析[J];系统工程与电子技术;1995年10期
2 吴学斌;;地名错误何其多[J];中国记者;1992年03期
3 王士滨;石兴平;;计算机辅助管理地名档案的好处多[J];黑龙江档案;1995年03期
4 蔡德民;;数字地名档案馆的特征及作用[J];河南科技;2006年10期
5 ;建立健全地名档案工作[J];中国档案;1985年08期
6 初志贤;王密林;;北京地名辨析四例[J];新闻三昧;2004年11期
7 ZKD;;Google Earth不再“水土不服”[J];电脑爱好者;2006年23期
8 黄芳;;浅谈地名档案数字化建设[J];中国地名;2009年12期
9 钱娟;;旧忆新说——地名串起久远记忆[J];数字与缩微影像;2010年03期
10 张达荣;;搜列易错地名,以便正确使用[J];新闻记者;1993年07期
中国重要会议论文全文数据库 前10条
1 陈肖霞;王霞;;对朗读语料的音素标注与研究[A];第六届全国现代语音学学术会议论文集(下)[C];2003年
2 刘昆;张建平;颜永红;;统计语言模型中语料的选择[A];中国声学学会2005年青年学术会议[CYCA'05]论文集[C];2005年
3 周文德;;重庆政区重复地名研究[A];中国训诂学研究会2010年学术年会论文摘要集[C];2010年
4 费小睿;陈玉娜;;汕头市区划地名网络查询系统的设计与实现[A];广东省测绘学会第九次会员代表大会暨学术交流会论文集[C];2010年
5 王庆;;北京部分街道地名标牌书写调查及思考[A];语文现代化论丛(第八辑)[C];2008年
6 刘全旺;;朝阳“北四社”地名之变迁[A];当代北京研究(2011年第4期)[C];2011年
7 诺明花;张立强;刘汇丹;吴健;丁治明;;汉藏短语抽取[A];第五届全国青年计算语言学研讨会论文集[C];2010年
8 蒋宏飞;曹海龙;杨沐昀;;基于大规模语料的中文词聚类研究与实现[A];第二届全国学生计算语言学研讨会论文集[C];2004年
9 刘亚斌;李爱军;;朗读语料与自然口语的差异分析[A];第六届全国人机语音通讯学术会议论文集[C];2001年
10 刘昊;王健;林鸿飞;;一种模板与图核融合的蛋白质关系抽取方法[A];第六届全国信息检索学术会议论文集[C];2010年
中国重要报纸全文数据库 前10条
1 全国政协常委、中国地理学会历史地理专业委员会主任、复旦大学教授 葛剑雄;改地名之风为何愈演愈烈[N];中国文化报;2010年
2 本报记者 潘青青;城市建设快 不少“地名”有点乱[N];台州日报;2010年
3 何敏锋 记者 汪东平;省地名建设推进会在浔召开[N];九江日报;2010年
4 宫殿煜;忻州市 万余条地名基本信息录入数据库[N];中国社会报;2011年
5 通讯员 周建华;市领导督查地名普查工作[N];嘉兴日报;2011年
6 记者 曹晓恒;马踏石,地名背后的待解之谜[N];金华日报;2011年
7 白伟;新生地名要符合“三大要求”[N];太原日报;2008年
8 涂志伟;台湾涉漳旧地名(一)[N];闽南日报;2008年
9 张真真;令人迷糊的武汉地名[N];中国文化报;2008年
10 张培安;济宁地名的前世今生[N];济宁日报;2008年
中国博士学位论文全文数据库 前10条
1 何光辉;救灾保障系统设计研究[D];天津大学;2006年
2 满君丰;开放网络环境下软件行为监测与分析研究[D];中南大学;2010年
3 李淑霞;地名本体及其在地理空间数据组织中的应用研究[D];解放军信息工程大学;2009年
4 王君泽;基于大规模问答语料的问题检索系统[D];华中科技大学;2010年
5 李思;WEB观点挖掘中关键问题的研究[D];北京邮电大学;2012年
6 陈劲光;基于云模型的中文面向查询多文档自动文摘研究[D];华中师范大学;2011年
7 罗芳;意见挖掘中若干关键问题研究[D];武汉理工大学;2011年
8 赵世奇;基于统计的复述获取与生成技术研究[D];哈尔滨工业大学;2009年
9 刘铁程;多思麦历史地理研究[D];兰州大学;2012年
10 赵晖;真实感汉语可视语音合成关键技术研究[D];国防科学技术大学;2010年
中国硕士学位论文全文数据库 前10条
1 蒋方玲;地名本体实体与关系抽取研究[D];天津大学;2012年
2 李冬;基于DOM树的Deep Web实体抽取的研究与实现[D];东北大学;2008年
3 乌恩图;1901-1911年间内蒙古地名研究[D];内蒙古大学;2011年
4 董晓晓;中国地名的人文地理特征及其空间分布研究[D];山西师范大学;2012年
5 刘轩孑;西安地名与文化[D];西安外国语大学;2012年
6 于立平;图像视觉特征及其描述词汇的对齐研究[D];北京邮电大学;2010年
7 刘娟;韩国政治类语料特点研究[D];中国人民解放军外国语学院;2005年
8 刘东生;面向专利文献的中文分词技术的研究[D];沈阳航空工业学院;2010年
9 毋菲;数值信息的抽取方法研究[D];山西大学;2010年
10 郭明;基于文本分类技术的文本情感倾向性研究[D];郑州大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026