收藏本站
《哈尔滨工业大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

基于待消解项识别的全局优化共指消解方法研究

漆舒汉  
【摘要】:本文主要研究了通过待消解项识别和全局优化改进共指消解的方法。通过结果反馈及参数调节,共指消解系统能够与不同性能的待消解项识别分类器结合产生不同的共指消解性能。 本文将待消解项识别作为一个分类问题,使用最大熵方法构建模型,进行训练和分类。通过使用最大熵模型和70个特征,本文构建了一个消解项分类器。在构建消解项分类器的过程中,本文提出了一种参数调节的方法,通过设置语料比例和概率阈值两个参数,对可消解项进行识别,选取最优的消解项分类器分类器。在进行共指消解工作前,将待消解项识别作为过滤器,能够去除大量不可消解项。 本文使用最大熵模型和65个特征构成共指消解的基准系统。这些特征包括词性、语法、语义、句法、形态学等语言学各个方面的信息。在共指消解前,使用消解项分类器对参与共指消解的短语进行识别,过滤掉不可消解项。由于不同性能的消解项分类器与基准系统结合能够产生不同的结果,所以本文从全局的角度出发,通过语料比例和概率阈值这两个参数对消解项分类器进行调节,使共指消解系统性能达到最优。 本文还研究了另一种全局优化的方式:使用整数线性规划(ILP)对共指消解进行全局优化。将共指消解问题作为一个优化问题,引入线性规划的方法,对最大熵模型的输出进行进一步的全局优化。本文提出了一种松弛的传递性约束,在应用线性规划时作为可行域约束条件。 本文在实验结果部分对基准系统、加入消解项分类器的共指消解系统、使用ILP全局优化的共指消解系统以及Soon和Ng的两种经典共指消解系统进行了比较。在对实验结果评测时,本文使用了MUC、B3、CEAF、BLANC等评测标准对共指消解系统进行评测,并且使用了这些评测标准的平均F值作为共指消解性能的最终衡量标准。本文还研究了使用不同参数的待消解项识别对总体共指消解系统产生的影响。实验结果显示使用了待消解项识别的共指消解系统在综合成绩上要优于其他参与对比的系统。在基准系统的基础上应用待消解项识别后,共指消解的平均F值由50.57%提升到53.35%。
【学位授予单位】:哈尔滨工业大学
【学位级别】:硕士
【学位授予年份】:2011
【分类号】:TP391.1

【参考文献】
中国期刊全文数据库 前4条
1 孔芳;周国栋;朱巧明;钱培德;;指代消解综述[J];计算机工程;2010年08期
2 胡乃全;孔芳;王海东;周国栋;朱巧明;;基于最大熵模型的中文指代消解系统实现[J];计算机应用研究;2009年08期
3 王厚峰;指代消解的基本方法和实现技术[J];中文信息学报;2002年06期
4 郎君;忻舟;秦兵;刘挺;李生;;集成多种背景语义知识的共指消解[J];中文信息学报;2009年03期
【共引文献】
中国期刊全文数据库 前10条
1 何甫权;;英语指代与翻译[J];安徽文学(下半月);2008年08期
2 吴敏;;指代消解在普通语言学理论与课程实践上的应用研究[J];大家;2010年11期
3 杨凯;;浅谈指代消解[J];硅谷;2008年24期
4 谭魏璇;孔芳;王海东;周国栋;;使用树核函数进行中文代词消解的研究[J];计算机工程与应用;2010年24期
5 李莎莎;李舟军;陈火旺;;篇章中的消解问题与消解算法:研究综述[J];计算机科学;2007年07期
6 黄李伟;孔芳;朱巧明;周国栋;;基于树核函数的中文零指代项识别研究[J];计算机科学;2011年01期
7 李艳翠;杨勇;周国栋;朱巧明;;基于支持向量机的英语名词短语指代消解[J];计算机工程;2009年03期
8 胡乃全;孔芳;王海东;周国栋;朱巧明;;基于最大熵模型的中文指代消解系统实现[J];计算机应用研究;2009年08期
9 钱伟中;王娟;傅翀;秦志光;;融合浅层句法分析的蛋白质互作用信息抽取方法[J];计算机应用研究;2011年03期
10 陈九昌;孔芳;朱巧明;周国栋;;指代消解中代词待消解项识别研究[J];计算机应用与软件;2011年03期
中国重要会议论文全文数据库 前8条
1 梅铮;王厚峰;;汉语人称代词消解的前端处理[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
2 郎君;秦兵;刘挺;李生;;中国人名性别自动识别[A];第三届学生计算语言学研讨会论文集[C];2006年
3 宋巍;秦兵;郎君;刘挺;;句法与词义相结合的中文代词消解[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
4 王海东;谭魏旋;周国栋;;语义角色在指代消解中的研究[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
5 谢永康;周雅倩;黄萱菁;;一种基于谱聚类的共指消解方法[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
6 刘茂福;金可佳;姬东鸿;张晓龙;;统计与规则相结合的指代消解在事件自动文摘中的应用[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
7 黎耀炳;张牧宇;秦兵;刘挺;;基于中心语匹配的共指消解[A];第六届全国信息检索学术会议论文集[C];2010年
8 付瑞吉;秦兵;刘挺;;面向音乐领域的文本检索与挖掘系统[A];第五届全国青年计算语言学研讨会论文集[C];2010年
中国博士学位论文全文数据库 前10条
1 邱明波;动词的指向对汉语第三人称代词和反身代词的句内回指的制约[D];复旦大学;2011年
2 钱伟中;基于判别式模型的蛋白质互作用文本挖掘技术研究[D];电子科技大学;2011年
3 刘朝涛;中文问答系统中的句型理论及其应用研究[D];重庆大学;2010年
4 李世奇;面向文景转换的中文浅层语义分析方法研究[D];哈尔滨工业大学;2011年
5 郑逢斌;关于计算机理解自然查询语言的研究[D];西南交通大学;2004年
6 杨尔弘;突发事件信息提取研究[D];北京语言大学;2005年
7 王智强;汉语指代消解及相关技术研究[D];北京邮电大学;2006年
8 翁依琴;汉语零形回指的认知研究[D];复旦大学;2006年
9 段建勇;多词表达抽取及其应用[D];上海交通大学;2007年
10 杨志豪;面向生物医学领域的文本挖掘技术研究[D];大连理工大学;2008年
中国硕士学位论文全文数据库 前10条
1 金璐钰;基于框架的事件抽取关键技术研究[D];苏州大学;2010年
2 张宜浩;基于最大熵模型的中文实体关系自动抽取研究[D];昆明理工大学;2010年
3 高三元;TAC-KBP评测中关键问题的研究[D];北京邮电大学;2011年
4 许婷;面向中文信息处理的复句特征分析器的研究与实现[D];华中师范大学;2011年
5 邱强;新闻语料中名词短语识别的研究[D];北京邮电大学;2011年
6 黎耀炳;面向共指消解的动态泛化机制研究[D];哈尔滨工业大学;2010年
7 刘龙;音乐领域全局实体关系抽取研究[D];哈尔滨工业大学;2010年
8 张牧宇;基于实例动态泛化的共指消解及应用[D];哈尔滨工业大学;2011年
9 沈麒;基于校园网的用户行为分析系统的设计与实现[D];苏州大学;2011年
10 杨国庆;中文缺省识别研究[D];苏州大学;2011年
【二级参考文献】
中国期刊全文数据库 前10条
1 秦洪武;第三人称代词在深层回指中的应用分析[J];当代语言学;2001年01期
2 钱伟,郭以昆,周雅倩,吴立德;基于最大熵模型的英文名词短语指代消解[J];计算机研究与发展;2003年09期
3 王厚峰,何婷婷;汉语中人称代词的消解研究[J];计算机学报;2001年02期
4 王凌飞,张玉敏,李堂秋;汉英机译系统中指代的确定 [J];计算机应用研究;2000年09期
5 王厚峰;指代消解的基本方法和实现技术[J];中文信息学报;2002年06期
6 刘群;统计机器翻译综述[J];中文信息学报;2003年04期
7 李国臣,罗云飞;采用优先选择策略的中文人称代词的指代消解[J];中文信息学报;2005年04期
8 周俊生;黄书剑;陈家骏;曲维光;;一种基于图划分的无监督汉语指代消解算法[J];中文信息学报;2007年02期
9 张钹;;自然语言处理的计算模型[J];中文信息学报;2007年03期
10 张 威,周昌乐;汉语语篇理解中元指代消解初步[J];软件学报;2002年04期
【相似文献】
中国期刊全文数据库 前10条
1 郑立辉,郭亚军,潘德惠;一种基于梯度搜索的全局优化新算法[J];控制理论与应用;1997年03期
2 王芳林,徐国华,陈建军;机加零件可制造性研究中的工艺参数优化方法[J];西安电子科技大学学报;2000年04期
3 徐猛华,黄笑鹃;基于单片机的自适应交通控制系统[J];计算机与现代化;2003年12期
4 韦凌云;柴跃廷;赵玫;;不等式约束的非线性规划混合遗传算法[J];计算机工程与应用;2006年22期
5 王丽芳;曾建潮;;PSOSA混合优化策略[J];计算机工程与科学;2006年09期
6 高亮;王晓娟;魏巍;陈亚洲;;一种改进的类电磁机制算法[J];华中科技大学学报(自然科学版);2006年11期
7 李慧贤;李英华;;改进的进化算法解最短路问题[J];数值计算与计算机应用;2007年01期
8 冯雪;裴志松;;粒子群优化算法的研究与应用[J];吉林建筑工程学院学报;2011年03期
9 高永春;DJS-8 FORTRAN Ⅳ编译程序系统目标程序的全局优化[J];计算机工程与设计;1980年01期
10 李文勇,李泉永;基于模拟退火的全局优化算法[J];桂林电子工业学院学报;2001年02期
中国重要会议论文全文数据库 前10条
1 陈肖霞;王霞;;对朗读语料的音素标注与研究[A];第六届全国现代语音学学术会议论文集(下)[C];2003年
2 刘昆;张建平;颜永红;;统计语言模型中语料的选择[A];中国声学学会2005年青年学术会议[CYCA'05]论文集[C];2005年
3 诺明花;张立强;刘汇丹;吴健;丁治明;;汉藏短语抽取[A];第五届全国青年计算语言学研讨会论文集[C];2010年
4 蒋宏飞;曹海龙;杨沐昀;;基于大规模语料的中文词聚类研究与实现[A];第二届全国学生计算语言学研讨会论文集[C];2004年
5 李勇龙;王承发;徐近霈;;特定领域电话语音数据库的建立[A];第四届全国人机语音通讯学术会议论文集[C];1996年
6 刘亚斌;李爱军;;朗读语料与自然口语的差异分析[A];第六届全国人机语音通讯学术会议论文集[C];2001年
7 刘昊;王健;林鸿飞;;一种模板与图核融合的蛋白质关系抽取方法[A];第六届全国信息检索学术会议论文集[C];2010年
8 李正华;车万翔;刘挺;;基于XML的语言技术平台[A];第五届全国青年计算语言学研讨会论文集[C];2010年
9 邬冬华;张连生;田蔚文;;积分型求全局优化的一些进展[A];2001年全国数学规划及运筹研讨会论文集[C];2001年
10 孟凡东;徐金安;姜文斌;刘群;;异种语料融合方法:基于统计的中文词法分析应用[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
中国重要报纸全文数据库 前10条
1 记者 侯梅竹;汉语语料检索系统问世[N];计算机世界;2004年
2 温端政;山西社科院试建“汉语俗语语料数据库”[N];中国社会科学院院报;2003年
3 蒙宣;抓住机遇储备高层次人才[N];中国人事报;2003年
4 佟文柱;语料更实 题材更广 语速更快[N];中国教师报;2002年
5 陈劲宏;东方快车2003之新鲜体验[N];中国电脑教育报;2002年
6 朱振攀;市人事局制定软环境建设方案[N];连云港日报;2007年
7 记者 吕诺;掌握千字万词,即可看懂九成中文读物[N];新华每日电讯;2006年
8 江获;数据库是语言学家的重要工具[N];中国社会科学院院报;2004年
9 本报记者 姚从权;我国自己的大规模口语库即将建成[N];中国社会科学院院报;2004年
10 富士通中国研究开发中心总经理 石崎洋之;不尊重知识产权将丧失一切[N];光明日报;2002年
中国博士学位论文全文数据库 前10条
1 李彤;基于模拟植物生长的二级整数规划算法研究[D];天津大学;2004年
2 王君泽;基于大规模问答语料的问题检索系统[D];华中科技大学;2010年
3 张艳姝;镁合金热变形性能试验研究及本构参数识别[D];机械科学研究院;2005年
4 刘海涛;实现光学超分辨的衍射器件设计方法研究[D];清华大学;2005年
5 曲杰;考虑动态再结晶的粘塑性本构模型的参数识别[D];清华大学;2004年
6 杨仕友;多段圆弧极靴水轮发电机极弧优化、参数计算和动态性能研究[D];沈阳工业大学;1995年
7 鄢烈祥;过程系统全局优化搜索新算法[D];北京化工大学;1998年
8 赵光权;基于贪婪策略的微分进化算法及其应用研究[D];哈尔滨工业大学;2007年
9 张攀;演化计算系统及其综合设计[D];山东大学;2008年
10 李思;WEB观点挖掘中关键问题的研究[D];北京邮电大学;2012年
中国硕士学位论文全文数据库 前10条
1 于立平;图像视觉特征及其描述词汇的对齐研究[D];北京邮电大学;2010年
2 王晓斌;阜宁方言调查研究[D];南京师范大学;2004年
3 刘娟;韩国政治类语料特点研究[D];中国人民解放军外国语学院;2005年
4 李桂东;现代汉语动宾式动词的认知研究[D];上海外国语大学;2009年
5 刘东生;面向专利文献的中文分词技术的研究[D];沈阳航空工业学院;2010年
6 毋菲;数值信息的抽取方法研究[D];山西大学;2010年
7 郭明;基于文本分类技术的文本情感倾向性研究[D];郑州大学;2010年
8 温艳霞;中文时间规范化方法研究[D];山西大学;2010年
9 黎耀炳;面向共指消解的动态泛化机制研究[D];哈尔滨工业大学;2010年
10 漆舒汉;基于待消解项识别的全局优化共指消解方法研究[D];哈尔滨工业大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026