收藏本站
《哈尔滨工业大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

基于实例动态泛化的共指消解及应用

张牧宇  
【摘要】:共指消解是自然语言处理中的核心任务,它对于信息抽取、信息检索、篇章分析、自动文摘、信息过滤和机器翻译等都具有重要的意义。本文对基于实例动态泛化的共指消解方法中存在的若干问题进行了改进;开发了多种共指链生成方案用于合并二元分类结果,从而提升共指消解的性能指标;我们将基于实例动态泛化的共指消解方法应用在自然语言处理的其他任务上,帮助提升这些问题的处理效果。 本文重点研究了三部分内容:基于实例动态泛化的共指消解方法中的相关问题;二元分类结果合并也即共指链生成方案的研究;以及基于实例动态泛化方法在自然语言处理其他任务中的应用。 基于实例动态泛化的共指消解方法的相关工作主要集中在Mention识别和精确泛化点的构建两部分。我们开发了基于分类方法和基于序列标注方法两类Mention识别算法,改善识别效果解决层级错误传递问题。此外,为了解决泛化点的质量问题,我们引入了精确泛化点概念,通过抽取更为准确的特征改进消解算法,在多种语料上的实验证明了我们工作的有效性。 在二元分类模块之后,下一步需要解决共指链生成方案。本文讨论了三种二元分类合并算法:基于词汇信息的方法;基于分类置信度的方法;基于Ranking的方法。这三种方案原理不同,适用场合不同,取得的效果也有所差别。我们对这三种方案进行了详细的分析比较,证明了我们工作的有效性,但这种合并始终受限于二元分类过程的处理精度,很难取得根本性的突破。 在二元分类算法和共指链生成方法的基础上,我们把基于实例动态泛化的共指消解方法应用在了全局实体关系抽取任务上。这项任务不同于传统的句子级关系抽取,而是针对篇章中的所有实体进行关系抽取,不限于同一句子中。这项任务需要引入篇章级别的信息,包括共指以及并列等。通过音乐领域的实验证明,利用共指消解方法引入篇章信息之后,可以大幅度提高全局实体关系抽取效果。
【关键词】:共指消解 实例 动态泛化 精确泛化点 共指链生成
【学位授予单位】:哈尔滨工业大学
【学位级别】:硕士
【学位授予年份】:2011
【分类号】:TP391.1
【目录】:
  • 摘要4-5
  • Abstract5-9
  • 第1章 绪论9-18
  • 1.1 课题背景9-10
  • 1.2 课题的研究目的和意义10-11
  • 1.3 研究现状及分析11-16
  • 1.3.1 基于语言学方法的共指消解11-12
  • 1.3.2 基于机器学习算法的共指消解12-15
  • 1.3.3 共指消解研究当前的发展趋势15-16
  • 1.4 本文的主要研究内容16-18
  • 第2章 基于实例动态泛化的共指消解方法18-30
  • 2.1 Mention 识别18-21
  • 2.1.1 基于分类的Mention 识别19-20
  • 2.1.2 基于序列标注的Mention 识别20-21
  • 2.2 泛化点构建21-24
  • 2.2.1 精确泛化点构建21-22
  • 2.2.2 结构化泛化点改进22-24
  • 2.3 CoNLL 评测相关24-25
  • 2.3.1 Mention 识别24
  • 2.3.2 分类特征集合24-25
  • 2.4 实验设计及结果分析25-29
  • 2.4.1 实验设计25-26
  • 2.4.2 实验结果及分析26-29
  • 2.5 本章小结29-30
  • 第3章 共指链生成方法30-42
  • 3.1 共指链生成方法简介30-31
  • 3.2 基于词汇信息的共指链生成方法31-33
  • 3.2.1 方法描述32
  • 3.2.2 实例说明32-33
  • 3.3 基于分类置信度的共指链生成方法33-35
  • 3.3.1 方法描述34
  • 3.3.2 实例说明34-35
  • 3.4 基于Ranking 的共指链生成方法35-39
  • 3.4.1 方法描述36-39
  • 3.4.2 实例说明39
  • 3.5 对比实验及分析39-41
  • 3.5.1 实验设计39-40
  • 3.5.2 实验结果及分析40-41
  • 3.6 本章小结41-42
  • 第4章 基于实例动态泛化的全局实体关系抽取42-53
  • 4.1 实体关系抽取42-46
  • 4.1.1 实体关系类型42-43
  • 4.1.2 关系抽取特征43-44
  • 4.1.3 抽取方案研究44-46
  • 4.2 全局实体关系抽取46-50
  • 4.2.1 基于实体并列的全局关系47-48
  • 4.2.2 基于实体共指的全局关系48-50
  • 4.3 实验结果及分析50-52
  • 4.3.1 实验设计50-51
  • 4.3.2 实验结果及分析51-52
  • 4.4 本章小结52-53
  • 结论53-55
  • 参考文献55-59
  • 攻读学位期间发表的学术论文59-61
  • 致谢61

【参考文献】
中国期刊全文数据库 前3条
1 王厚峰;指代消解的基本方法和实现技术[J];中文信息学报;2002年06期
2 郎君;忻舟;秦兵;刘挺;李生;;集成多种背景语义知识的共指消解[J];中文信息学报;2009年03期
3 王海东;胡乃全;孔芳;周国栋;;基于树核函数的英文代词消解研究[J];中文信息学报;2009年05期
【共引文献】
中国期刊全文数据库 前10条
1 王永梅;胡学钢;;决策树中ID3算法的研究[J];安徽大学学报(自然科学版);2011年03期
2 叶明全;;数据挖掘在医疗数据中的应用[J];安徽工程科技学院学报(自然科学版);2007年03期
3 贾泽露;;基于GIS与SDM集成的农用地定级专家系统[J];安徽农业科学;2008年14期
4 蔡丽艳;冯宪彬;丁蕊;;基于决策树的农户小额贷款信用评估模型研究[J];安徽农业科学;2011年02期
5 赵静娴;;基于决策树的食品安全评估研究[J];安徽农业科学;2011年32期
6 王斌;;基于聚类的决策树在玉米种质筛选中的应用[J];安徽农业科学;2011年33期
7 何甫权;;英语指代与翻译[J];安徽文学(下半月);2008年08期
8 陈文;基于决策树的入侵检测的实现[J];安徽技术师范学院学报;2005年05期
9 覃爱明,胡昌振,谭惠民;网络攻击检测中的机器学习方法综述[J];安全与环境学报;2001年01期
10 左吉峰;乔均俭;;ID3算法的合理性证明及实验分析[J];保定学院学报;2008年04期
中国重要会议论文全文数据库 前10条
1 叶红云;倪志伟;陈恩红;;一种混合型集成学习演化决策树算法[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 ;Learning Algorithm of Decision Tree Generation for Continuous-valued Attribute[A];第二十九届中国控制会议论文集[C];2010年
3 王琦;;基于贝叶斯决策树算法的垃圾邮件识别机制[A];2011年通信与信息技术新进展——第八届中国通信学会学术年会论文集[C];2011年
4 鲁松;;英文介词短语归并歧义的RMBL分类器消解[A];2005年信息与通信领域博士后学术会议论文集[C];2005年
5 刘海霞;钟晓妮;周燕荣;田考聪;;决策树在居民就诊卫生服务利用影响因素研究中的应用[A];重庆市预防医学会2010年论文集[C];2011年
6 汪云亮;吕久明;刘孝刚;;基于信息熵的辐射源属性分类方法[A];2006北京地区高校研究生学术交流会——通信与信息技术会议论文集(上)[C];2006年
7 叶中行;陆青;余敏杰;;计算智能在银行信贷信用分类中的应用[A];中国电子学会第十五届信息论学术年会暨第一届全国网络编码学术年会论文集(下册)[C];2008年
8 徐怡;余斌;李龙澍;;粗糙集在决策树生成中的应用[A];2005中国控制与决策学术年会论文集(下)[C];2005年
9 ;Rough Set Based Autolanding Control[A];第二十三届中国控制会议论文集(下册)[C];2004年
10 刘东升;;基于Mobile Agent的分布式ID3挖掘模型[A];2005年全国开放式分布与并行计算学术会议论文集[C];2005年
中国博士学位论文全文数据库 前10条
1 张明;电能质量扰动相关问题研究[D];华中科技大学;2010年
2 渠瑜;基于SVM的高不平衡分类技术研究及其在电信业的应用[D];浙江大学;2010年
3 徐河杭;面向PLM的数据挖掘技术和应用研究[D];浙江大学;2010年
4 朱佳俊;不确定可拓群决策优化方法及应用[D];东华大学;2010年
5 陈进;高光谱图像分类方法研究[D];国防科学技术大学;2010年
6 管红波;食品连锁经营中的有效客户反应研究[D];东华大学;2010年
7 李军;不平衡数据学习的研究[D];吉林大学;2011年
8 魏小涛;在线自适应网络异常检测系统模型与相关算法研究[D];北京交通大学;2009年
9 王中锋;树型贝叶斯网络分类器鉴别式训练研究[D];北京交通大学;2011年
10 杨明;分布式环境下的安全策略关键技术研究[D];吉林大学;2011年
中国硕士学位论文全文数据库 前10条
1 岳海亮;信息论在粗糙集连续属性离散化中的应用[D];辽宁师范大学;2010年
2 徐洪伟;数据挖掘中决策树分类算法的研究与改进[D];哈尔滨工程大学;2010年
3 曹振兴;适应概念漂移的数据流分类算法研究[D];哈尔滨工程大学;2010年
4 李晓光;数据挖掘技术在高校招生和教务管理中的应用[D];哈尔滨工程大学;2010年
5 秦园;基于SPOT5的土地信息提取技术研究[D];大连理工大学;2010年
6 李仁良;决策树算法在临床诊断中的应用研究[D];辽宁工程技术大学;2009年
7 郑陶;基于平面向量的决策树算法在高考志愿选择系统中的应用[D];辽宁工程技术大学;2010年
8 孙怡哲;一种改进的决策树算法研究与应用[D];辽宁工程技术大学;2010年
9 黄辉;基于LSI和SVC的网页文本分类算法研究[D];长沙理工大学;2010年
10 周翔;决策支持技术在企业销售系统中的应用研究[D];中国海洋大学;2010年
【二级参考文献】
中国期刊全文数据库 前4条
1 秦洪武;第三人称代词在深层回指中的应用分析[J];当代语言学;2001年01期
2 王厚峰,何婷婷;汉语中人称代词的消解研究[J];计算机学报;2001年02期
3 王厚峰;指代消解的基本方法和实现技术[J];中文信息学报;2002年06期
4 张钹;;自然语言处理的计算模型[J];中文信息学报;2007年03期
【相似文献】
中国期刊全文数据库 前10条
1 李元龙;周俊生;陈家骏;;一种基于关联聚类的汉语共指消解方法[J];计算机科学;2007年12期
2 贾莉;;微软淡入零售渠道[J];每周电脑报;1997年09期
3 高善群;;如何做好“三农”电视报道[J];现代视听;2010年S2期
4 孙斌;信息提取技术概述(下)[J];术语标准化与信息技术;2003年01期
5 衣承斌,丁杰,丁康源;基础课教研组怎样开展科研和开发工作[J];电气电子教学学报;1992年04期
6 王厚峰;指代消解的基本方法和实现技术[J];中文信息学报;2002年06期
7 周俊生;黄书剑;陈家骏;曲维光;;一种基于图划分的无监督汉语指代消解算法[J];中文信息学报;2007年02期
8 董国志;朱玉全;程显毅;;中文人称代词指代消解的研究[J];计算机应用研究;2011年05期
9 徐谦;周俊生;陈家骏;;Dirichlet过程及其在自然语言处理中的应用[J];中文信息学报;2009年05期
10 辛启华;乐坛之星──洛林·马泽尔[J];音响技术;1996年03期
中国重要会议论文全文数据库 前4条
1 黎耀炳;张牧宇;秦兵;刘挺;;基于中心语匹配的共指消解[A];第六届全国信息检索学术会议论文集[C];2010年
2 贾修一;张亚兵;陈家骏;商琳;;基于粗糙集方法的共指消解[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 王菁华;刘建毅;王枞;;语义网络结构下的词义消歧[A];2006年首届ICT大会信息、知识、智能及其转换理论第一次高峰论坛会议论文集[C];2006年
4 谭斌;;指代消解的原理和实现方法[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年
中国重要报纸全文数据库 前10条
1 甄颖;132种商品首批强制认证[N];中国乡镇企业报;2003年
2 本报记者 刘盈蓉 通讯员 胡罡;法律援助成为弱势群体保护神[N];湘潭日报;2008年
3 记者 林世钰;西部巡讲要长期坚持下去[N];检察日报;2001年
4 王 萍 乔 真;架连心桥 解千千结[N];人民法院报;2004年
5 潘双清;2万吨柴油可保“三夏”无忧[N];石家庄日报;2008年
6 新华社记者 熊艳 丛峰;成都市:实事办到心坎上群众打分当裁判[N];新华每日电讯;2004年
7 记者 卢怀谦;全国保监局多半实现非现场监管[N];中国证券报;2004年
8 齐文潮 黄桃源;一手抓服务 一手抓监管[N];金融时报;2004年
9 楚良;湖北三措并举稳定市场供应[N];粮油市场报;2008年
10 徐伟;旅客在台停留时间不超过10天[N];法制日报;2008年
中国博士学位论文全文数据库 前4条
1 黄东晶;俄汉代词指示语对比研究[D];黑龙江大学;2001年
2 张晓辉;链接数据网构建的关键问题研究[D];北京工业大学;2013年
3 李自强;大规模文本分类的若干问题研究[D];电子科技大学;2013年
4 王道英;“这”、“那”的指示研究[D];上海师范大学;2003年
中国硕士学位论文全文数据库 前10条
1 漆舒汉;基于待消解项识别的全局优化共指消解方法研究[D];哈尔滨工业大学;2011年
2 张牧宇;基于实例动态泛化的共指消解及应用[D];哈尔滨工业大学;2011年
3 黎耀炳;面向共指消解的动态泛化机制研究[D];哈尔滨工业大学;2010年
4 赵凤娟;中国二语学习者英语口头叙述中重复的使用特征研究[D];扬州大学;2006年
5 陈炜鹏;基于超图分割的共指消解研究[D];哈尔滨工业大学;2012年
6 狄梅;间接回指:其认知阐释及对体裁的影响[D];苏州大学;2004年
7 宋巍;基于句法特征的代词消解方法研究[D];哈尔滨工业大学;2008年
8 高娜;汉语的衔接性重复在英语中的表现[D];上海海事大学;2007年
9 张宜浩;基于最大熵模型的中文实体关系自动抽取研究[D];昆明理工大学;2010年
10 刘龙;音乐领域全局实体关系抽取研究[D];哈尔滨工业大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026