收藏本站
《哈尔滨工业大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

面向共指消解的动态泛化机制研究

黎耀炳  
【摘要】: 共指消解是自然语言处理中的核心任务,它对于篇章分析、自动文摘、信息抽取、信息检索、信息过滤和机器翻译等都具有重要的意义。本文采用基于实例的动态泛化机制,在中英文上完成共指消解。 基于实例的动态泛化机制的核心思想是:从训练实例中寻找那些与测试实例最相似的实例,并根据最相似的训练实例的正、反类别分布预测测试实例的类别标签。以此核心思想为基础,本文提出了泛化点的概念,并设计了动态泛化机制的两个基本算法。 本文重点研究了两类动态泛化机制:基于平面特征的动态泛化机制和基于复杂特征的动态泛化机制。 对基于平面特征的动态泛化机制的研究,本文着重解决了动态泛化机制基本算法中尚未解决的最佳泛化点选取标准与正值置信度计算问题。本文提出了5种最佳泛化点选取标准,并将正例置信度定义为对正例所占比例的分段线性函数。实验结果表明,以本文提出的最佳泛化点选取标准与正例置信度定义方式作为基础,基于平面特征的动态泛化机制在中英文语料达到的效果与三种传统机器学习方法的效果相当。 复杂特征包含取值分别为字符序列型、结构型的特征。本文分两个子任务对基于复杂特征的动态泛化机制进行了研究: (1)基于中心语特征的动态泛化机制研究。本文引入了先行语和照应语的中心语作为新的特征,其属于字符序列型。针对动态泛化机制基本算法的错误分析结果,本文提出竞争模式以捕获命名命名实体识别错误与语言互斥的搭配。实验结果表明,采用竞争模式后,基于中心语特征的动态泛化机制在英文语料上取得明显的增强效果,但在中文语料上有待进一步改进。 (2)基于结构特征的动态泛化机制研究。本文引入了Simple-Expansion树形结构作为新的特征,其属于结构型。本文提出了两种树形结构修剪策略解决结构型泛化点匹配问题,并再次通过竞争模式将树形结构特征融合进动态泛化机制。实验结果表明,采用竞争模式后,基于结构特征的动态泛化机制在英文语料上的效果并不理想,对结构特征开发利用的研究仍需进一步改进。
【学位授予单位】:哈尔滨工业大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TP391.1

【相似文献】
中国期刊全文数据库 前10条
1 李亚丽;徐为群;颜永红;;语义类的提取及其在语音搜索系统中的应用[J];声学学报;2011年05期
2 张海军;彭成;栾静;;基于外部排序的字串左右熵快速计算方法[J];计算机工程与应用;2011年19期
3 王艳茹;马万军;温长峰;;相容商空间粒度下的话题倾向性研究[J];硅谷;2011年12期
4 王红玲;袁晓虹;王步康;周国栋;;依存关系上的中文名词性谓词识别研究[J];计算机工程与应用;2011年20期
5 王燕;侯敏;邹煜;;电影对白语言中的语音历时对比分析[J];计算机工程与应用;2011年22期
6 赵赟;;民生新闻语言特色研究[J];中国报业;2011年06期
7 毛太田;傅佳;;通过Web数据挖掘为VILA语言搜集多语种词汇[J];中国科技信息;2011年16期
8 赵晓凡;胡顺义;刘永革;;CRF模型中参数f在字标注汉语分词中的适用性研究[J];郑州大学学报(工学版);2011年04期
9 刘茂福;余博;胡慧君;;基于维基百科的多文档自动摘要系统研究[J];微型机与应用;2011年16期
10 孟佳娜;林鸿飞;李彦鹏;;基于特征贡献度的特征选择方法在文本分类中应用[J];大连理工大学学报;2011年04期
中国重要会议论文全文数据库 前10条
1 陈肖霞;王霞;;对朗读语料的音素标注与研究[A];第六届全国现代语音学学术会议论文集(下)[C];2003年
2 刘昆;张建平;颜永红;;统计语言模型中语料的选择[A];中国声学学会2005年青年学术会议[CYCA'05]论文集[C];2005年
3 诺明花;张立强;刘汇丹;吴健;丁治明;;汉藏短语抽取[A];第五届全国青年计算语言学研讨会论文集[C];2010年
4 黎耀炳;张牧宇;秦兵;刘挺;;基于中心语匹配的共指消解[A];第六届全国信息检索学术会议论文集[C];2010年
5 蒋宏飞;曹海龙;杨沐昀;;基于大规模语料的中文词聚类研究与实现[A];第二届全国学生计算语言学研讨会论文集[C];2004年
6 刘亚斌;李爱军;;朗读语料与自然口语的差异分析[A];第六届全国人机语音通讯学术会议论文集[C];2001年
7 李勇龙;王承发;徐近霈;;特定领域电话语音数据库的建立[A];第四届全国人机语音通讯学术会议论文集[C];1996年
8 刘昊;王健;林鸿飞;;一种模板与图核融合的蛋白质关系抽取方法[A];第六届全国信息检索学术会议论文集[C];2010年
9 李正华;车万翔;刘挺;;基于XML的语言技术平台[A];第五届全国青年计算语言学研讨会论文集[C];2010年
10 孟凡东;徐金安;姜文斌;刘群;;异种语料融合方法:基于统计的中文词法分析应用[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
中国重要报纸全文数据库 前10条
1 温端政;山西社科院试建“汉语俗语语料数据库”[N];中国社会科学院院报;2003年
2 记者 侯梅竹;汉语语料检索系统问世[N];计算机世界;2004年
3 佟文柱;语料更实 题材更广 语速更快[N];中国教师报;2002年
4 陈劲宏;东方快车2003之新鲜体验[N];中国电脑教育报;2002年
5 记者 吕诺;掌握千字万词,即可看懂九成中文读物[N];新华每日电讯;2006年
6 甄颖;132种商品首批强制认证[N];中国乡镇企业报;2003年
7 本报记者 姚从权;我国自己的大规模口语库即将建成[N];中国社会科学院院报;2004年
8 通讯员 侯晓斌;运用现代科学技术研究中国传统文化[N];中国社会科学院院报;2006年
9 李玉兰;中国语言文字观念正在变化[N];光明日报;2007年
10 本报记者 杨阳;瓦特开元:一条翻译流水线[N];经济观察报;2007年
中国博士学位论文全文数据库 前10条
1 王君泽;基于大规模问答语料的问题检索系统[D];华中科技大学;2010年
2 李思;WEB观点挖掘中关键问题的研究[D];北京邮电大学;2012年
3 陈劲光;基于云模型的中文面向查询多文档自动文摘研究[D];华中师范大学;2011年
4 罗芳;意见挖掘中若干关键问题研究[D];武汉理工大学;2011年
5 黄东晶;俄汉代词指示语对比研究[D];黑龙江大学;2001年
6 赵世奇;基于统计的复述获取与生成技术研究[D];哈尔滨工业大学;2009年
7 赵晖;真实感汉语可视语音合成关键技术研究[D];国防科学技术大学;2010年
8 王道英;“这”、“那”的指示研究[D];上海师范大学;2003年
9 孙晓;中文词法分析的研究及其应用[D];大连理工大学;2010年
10 于娟;基于文本的领域本体学习方法及其应用研究[D];大连理工大学;2010年
中国硕士学位论文全文数据库 前10条
1 黎耀炳;面向共指消解的动态泛化机制研究[D];哈尔滨工业大学;2010年
2 漆舒汉;基于待消解项识别的全局优化共指消解方法研究[D];哈尔滨工业大学;2011年
3 张牧宇;基于实例动态泛化的共指消解及应用[D];哈尔滨工业大学;2011年
4 于立平;图像视觉特征及其描述词汇的对齐研究[D];北京邮电大学;2010年
5 刘娟;韩国政治类语料特点研究[D];中国人民解放军外国语学院;2005年
6 刘东生;面向专利文献的中文分词技术的研究[D];沈阳航空工业学院;2010年
7 毋菲;数值信息的抽取方法研究[D];山西大学;2010年
8 郭明;基于文本分类技术的文本情感倾向性研究[D];郑州大学;2010年
9 李桂东;现代汉语动宾式动词的认知研究[D];上海外国语大学;2009年
10 王晓斌;阜宁方言调查研究[D];南京师范大学;2004年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026