收藏本站
《哈尔滨工业大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

面向共指消解的动态泛化机制研究

黎耀炳  
【摘要】: 共指消解是自然语言处理中的核心任务,它对于篇章分析、自动文摘、信息抽取、信息检索、信息过滤和机器翻译等都具有重要的意义。本文采用基于实例的动态泛化机制,在中英文上完成共指消解。 基于实例的动态泛化机制的核心思想是:从训练实例中寻找那些与测试实例最相似的实例,并根据最相似的训练实例的正、反类别分布预测测试实例的类别标签。以此核心思想为基础,本文提出了泛化点的概念,并设计了动态泛化机制的两个基本算法。 本文重点研究了两类动态泛化机制:基于平面特征的动态泛化机制和基于复杂特征的动态泛化机制。 对基于平面特征的动态泛化机制的研究,本文着重解决了动态泛化机制基本算法中尚未解决的最佳泛化点选取标准与正值置信度计算问题。本文提出了5种最佳泛化点选取标准,并将正例置信度定义为对正例所占比例的分段线性函数。实验结果表明,以本文提出的最佳泛化点选取标准与正例置信度定义方式作为基础,基于平面特征的动态泛化机制在中英文语料达到的效果与三种传统机器学习方法的效果相当。 复杂特征包含取值分别为字符序列型、结构型的特征。本文分两个子任务对基于复杂特征的动态泛化机制进行了研究: (1)基于中心语特征的动态泛化机制研究。本文引入了先行语和照应语的中心语作为新的特征,其属于字符序列型。针对动态泛化机制基本算法的错误分析结果,本文提出竞争模式以捕获命名命名实体识别错误与语言互斥的搭配。实验结果表明,采用竞争模式后,基于中心语特征的动态泛化机制在英文语料上取得明显的增强效果,但在中文语料上有待进一步改进。 (2)基于结构特征的动态泛化机制研究。本文引入了Simple-Expansion树形结构作为新的特征,其属于结构型。本文提出了两种树形结构修剪策略解决结构型泛化点匹配问题,并再次通过竞争模式将树形结构特征融合进动态泛化机制。实验结果表明,采用竞争模式后,基于结构特征的动态泛化机制在英文语料上的效果并不理想,对结构特征开发利用的研究仍需进一步改进。
【关键词】:共指消解 实例 泛化点 中心语 结构化特征
【学位授予单位】:哈尔滨工业大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TP391.1
【目录】:
  • 摘要4-5
  • ABSTRACT5-9
  • 第1章 绪论9-17
  • 1.1 课题背景及意义9-10
  • 1.2 国内外在该方向的研究现状及分析10-16
  • 1.2.1 国内外研究现状10-13
  • 1.2.2 共指消解技术发展趋势13-14
  • 1.2.3 共指消解研究普遍存在的问题14-16
  • 1.3 论文研究内容16-17
  • 第2章 实验系统及动态泛化机制初探17-30
  • 2.1 实验用共指消解系统17-19
  • 2.1.1 现存共指消解系统对比17-18
  • 2.1.2 动态泛化模块18
  • 2.1.3 统一实验设置18-19
  • 2.2 动态泛化机制初探19-25
  • 2.2.1 核心思想19-20
  • 2.2.2 泛化点生成20-23
  • 2.2.3 动态泛化基本算法23-25
  • 2.3 实例存储与检索优化25-28
  • 2.3.1 实例存储25-27
  • 2.3.2 检索优化27-28
  • 2.4 本章小结28-30
  • 第3章 基于平面特征的动态泛化机制30-40
  • 3.1 最佳泛化点选取标准研究30-35
  • 3.1.1 决策树训练方法简介30-31
  • 3.1.2 启发式泛化点选取标准31-35
  • 3.2 正例置信度计算35-36
  • 3.3 实验结果与分析36-39
  • 3.3.1 ACE2005 语料实验结果36-37
  • 3.3.2 音乐语料实验结果37-38
  • 3.3.3 实验总结38-39
  • 3.4 本章小结39-40
  • 第4章 基于复杂特征的动态泛化机制40-54
  • 4.1 基于中心语特征的动态泛化机制40-47
  • 4.1.1 基于中心语特征的强制约束40-43
  • 4.1.2 基于中心语特征的竞争模式43-44
  • 4.1.3 实验结果与分析44-47
  • 4.2 基于结构特征的动态泛化机制47-52
  • 4.2.1 基于结构特征的强制约束47-50
  • 4.2.2 基于结构特征的竞争模式50-51
  • 4.2.3 实验结果与分析51-52
  • 4.3 本章小结52-54
  • 结论54-56
  • 参考文献56-62
  • 致谢62

【参考文献】
中国期刊全文数据库 前3条
1 王厚峰;指代消解的基本方法和实现技术[J];中文信息学报;2002年06期
2 郎君;忻舟;秦兵;刘挺;李生;;集成多种背景语义知识的共指消解[J];中文信息学报;2009年03期
3 王海东;胡乃全;孔芳;周国栋;;基于树核函数的英文代词消解研究[J];中文信息学报;2009年05期
【共引文献】
中国期刊全文数据库 前10条
1 王永梅;胡学钢;;决策树中ID3算法的研究[J];安徽大学学报(自然科学版);2011年03期
2 叶明全;;数据挖掘在医疗数据中的应用[J];安徽工程科技学院学报(自然科学版);2007年03期
3 贾泽露;;基于GIS与SDM集成的农用地定级专家系统[J];安徽农业科学;2008年14期
4 蔡丽艳;冯宪彬;丁蕊;;基于决策树的农户小额贷款信用评估模型研究[J];安徽农业科学;2011年02期
5 赵静娴;;基于决策树的食品安全评估研究[J];安徽农业科学;2011年32期
6 王斌;;基于聚类的决策树在玉米种质筛选中的应用[J];安徽农业科学;2011年33期
7 何甫权;;英语指代与翻译[J];安徽文学(下半月);2008年08期
8 陈文;基于决策树的入侵检测的实现[J];安徽技术师范学院学报;2005年05期
9 王尔丹;人群运动与密度估计技术研究[J];安全;2005年03期
10 覃爱明,胡昌振,谭惠民;网络攻击检测中的机器学习方法综述[J];安全与环境学报;2001年01期
中国重要会议论文全文数据库 前10条
1 叶红云;倪志伟;陈恩红;;一种混合型集成学习演化决策树算法[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 宋海鹰;桂卫华;阳春华;;基于核偏最小二乘的简约最小二乘支持向量机及其应用研究[A];第二十六届中国控制会议论文集[C];2007年
3 宋海鹰;桂卫华;阳春华;;基于最小二乘支持向量机的Hammerstein-Wiener模型辨识[A];第二十六届中国控制会议论文集[C];2007年
4 ;Inverse System Control of Nonlinear Systems Using LS-SVM[A];第二十六届中国控制会议论文集[C];2007年
5 ;A Novel Proximal Support Vector Machine and Its Application in Radar Target Recognition[A];第二十六届中国控制会议论文集[C];2007年
6 ;A CDMA Signal Receiver Based on LS-SVM[A];第二十六届中国控制会议论文集[C];2007年
7 ;LS-SVM Based Stable Generalized Predictive Control[A];第二十七届中国控制会议论文集[C];2008年
8 阎纲;梁昔明;龙祖强;李翔;;一种新的提前一步预测控制算法[A];第二十七届中国控制会议论文集[C];2008年
9 孙玉坤;王博;丁慎平;;基于模糊支持向量机的赖氨酸发酵软测量[A];第二十七届中国控制会议论文集[C];2008年
10 ;GA Based LS-SVM Classifier for Waste Water Treatment Process[A];第二十七届中国控制会议论文集[C];2008年
中国博士学位论文全文数据库 前10条
1 赵莹;半监督支持向量机学习算法研究[D];哈尔滨工程大学;2010年
2 李书艳;单点氨基酸多态性与疾病相关关系的预测及其机制研究[D];兰州大学;2010年
3 张明;电能质量扰动相关问题研究[D];华中科技大学;2010年
4 许伟;基于进化算法的复杂化工过程智能建模方法及其应用[D];华东理工大学;2011年
5 向国齐;支持向量回归机代理模型设计优化及应用研究[D];电子科技大学;2010年
6 桑永胜;空间数据分析的神经计算方法[D];电子科技大学;2010年
7 渠瑜;基于SVM的高不平衡分类技术研究及其在电信业的应用[D];浙江大学;2010年
8 包鑫;稳健回归技术及其在光谱分析中的应用[D];浙江大学;2010年
9 甘良志;核学习算法与集成方法研究[D];浙江大学;2010年
10 邵咏妮;水稻生长生理特征信息快速无损获取技术的研究[D];浙江大学;2010年
中国硕士学位论文全文数据库 前10条
1 曾传华;基于颜色和纹理特征的竹条分级方法研究[D];华中农业大学;2010年
2 田文娟;基于支持向量机的人民币序列号识别方法的研究[D];山东科技大学;2010年
3 孟培培;基于3S的土地督察信息系统研究[D];山东科技大学;2010年
4 李海清;支持向量机在金融市场预测中的应用[D];辽宁师范大学;2010年
5 岳海亮;信息论在粗糙集连续属性离散化中的应用[D];辽宁师范大学;2010年
6 李光远;基于在线聚类和最小二乘支持向量机的模糊建模方法研究[D];郑州大学;2010年
7 王巧立;微生物发酵过程的建模与优化控制研究[D];郑州大学;2010年
8 曲昆鹏;基于支持向量机的杂草识别研究[D];哈尔滨工程大学;2010年
9 徐洪伟;数据挖掘中决策树分类算法的研究与改进[D];哈尔滨工程大学;2010年
10 曹振兴;适应概念漂移的数据流分类算法研究[D];哈尔滨工程大学;2010年
【二级参考文献】
中国期刊全文数据库 前4条
1 秦洪武;第三人称代词在深层回指中的应用分析[J];当代语言学;2001年01期
2 王厚峰,何婷婷;汉语中人称代词的消解研究[J];计算机学报;2001年02期
3 王厚峰;指代消解的基本方法和实现技术[J];中文信息学报;2002年06期
4 张钹;;自然语言处理的计算模型[J];中文信息学报;2007年03期
【相似文献】
中国期刊全文数据库 前10条
1 李元龙;周俊生;陈家骏;;一种基于关联聚类的汉语共指消解方法[J];计算机科学;2007年12期
2 贾莉;;微软淡入零售渠道[J];每周电脑报;1997年09期
3 孙斌;信息提取技术概述(下)[J];术语标准化与信息技术;2003年01期
4 高善群;;如何做好“三农”电视报道[J];现代视听;2010年S2期
5 衣承斌,丁杰,丁康源;基础课教研组怎样开展科研和开发工作[J];电气电子教学学报;1992年04期
6 王厚峰;指代消解的基本方法和实现技术[J];中文信息学报;2002年06期
7 周俊生;黄书剑;陈家骏;曲维光;;一种基于图划分的无监督汉语指代消解算法[J];中文信息学报;2007年02期
8 董国志;朱玉全;程显毅;;中文人称代词指代消解的研究[J];计算机应用研究;2011年05期
9 徐谦;周俊生;陈家骏;;Dirichlet过程及其在自然语言处理中的应用[J];中文信息学报;2009年05期
10 李保利,陈玉忠,俞士汶;信息抽取研究综述[J];计算机工程与应用;2003年10期
中国重要会议论文全文数据库 前4条
1 黎耀炳;张牧宇;秦兵;刘挺;;基于中心语匹配的共指消解[A];第六届全国信息检索学术会议论文集[C];2010年
2 贾修一;张亚兵;陈家骏;商琳;;基于粗糙集方法的共指消解[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 王菁华;刘建毅;王枞;;语义网络结构下的词义消歧[A];2006年首届ICT大会信息、知识、智能及其转换理论第一次高峰论坛会议论文集[C];2006年
4 谭斌;;指代消解的原理和实现方法[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年
中国重要报纸全文数据库 前10条
1 甄颖;132种商品首批强制认证[N];中国乡镇企业报;2003年
2 本报记者 刘盈蓉 通讯员 胡罡;法律援助成为弱势群体保护神[N];湘潭日报;2008年
3 记者 林世钰;西部巡讲要长期坚持下去[N];检察日报;2001年
4 王 萍 乔 真;架连心桥 解千千结[N];人民法院报;2004年
5 潘双清;2万吨柴油可保“三夏”无忧[N];石家庄日报;2008年
6 新华社记者 熊艳 丛峰;成都市:实事办到心坎上群众打分当裁判[N];新华每日电讯;2004年
7 记者 卢怀谦;全国保监局多半实现非现场监管[N];中国证券报;2004年
8 齐文潮 黄桃源;一手抓服务 一手抓监管[N];金融时报;2004年
9 楚良;湖北三措并举稳定市场供应[N];粮油市场报;2008年
10 徐伟;旅客在台停留时间不超过10天[N];法制日报;2008年
中国博士学位论文全文数据库 前4条
1 黄东晶;俄汉代词指示语对比研究[D];黑龙江大学;2001年
2 张晓辉;链接数据网构建的关键问题研究[D];北京工业大学;2013年
3 李自强;大规模文本分类的若干问题研究[D];电子科技大学;2013年
4 王道英;“这”、“那”的指示研究[D];上海师范大学;2003年
中国硕士学位论文全文数据库 前10条
1 漆舒汉;基于待消解项识别的全局优化共指消解方法研究[D];哈尔滨工业大学;2011年
2 张牧宇;基于实例动态泛化的共指消解及应用[D];哈尔滨工业大学;2011年
3 黎耀炳;面向共指消解的动态泛化机制研究[D];哈尔滨工业大学;2010年
4 赵凤娟;中国二语学习者英语口头叙述中重复的使用特征研究[D];扬州大学;2006年
5 陈炜鹏;基于超图分割的共指消解研究[D];哈尔滨工业大学;2012年
6 狄梅;间接回指:其认知阐释及对体裁的影响[D];苏州大学;2004年
7 宋巍;基于句法特征的代词消解方法研究[D];哈尔滨工业大学;2008年
8 高娜;汉语的衔接性重复在英语中的表现[D];上海海事大学;2007年
9 张宜浩;基于最大熵模型的中文实体关系自动抽取研究[D];昆明理工大学;2010年
10 刘龙;音乐领域全局实体关系抽取研究[D];哈尔滨工业大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026