收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于统计的复述获取与生成技术研究

赵世奇  
【摘要】: 复述,即对相同语义的不同表达方式,是自然语言中非常普遍的现象,它反映了人类在使用语言时的灵活多样性,同时也为自然语言处理的研究提出了挑战。近年来,有许多学者针对复述问题展开研究,并尝试将其应用到机器翻译、自动问答、信息检索、信息抽取、文本生成等相关研究中去。 复述研究主要包含两大类内容:其一是复述资源的获取,即从各式语料中基于各种方法抽取复述句对、复述短语、复述模板等不同粒度和形式的复述资源;其二是复述生成,通常指的是句子级的复述生成,即由计算机自动生成给定句子的复述句。本文的研究工作涵盖了上面两类问题。首先,本文尝试使用了多种语料库,并针对每种语料库提出了有效的方法以抽取复述短语、复述模板以及复述搭配等细粒度的复述资源。在此基础上,本文将抽取到的复述资源用于统计复述生成。本研究的主要内容包括以下几个方面: 1.基于多种方法抽取复述短语资源。复述短语抽取一直是复述研究中的热点问题,有很多方法被相继提出。本文充分借鉴了前人的研究成果并加以改进,分别使用包括单语平行语料库、单语可比较语料库、双语平行语料库、类义词典同义词、词典注释以及搜索引擎用户查询等各类资源抽取复述短语。该工作的意义不仅在于获取了大规模的复述短语,更在于对各种语料资源以及各种复述抽取方法的综合、比较和分析。我们由此清楚地掌握了每种方法和语料资源的优缺点以及抽取得到复述短语的类型和特点等。 2.基于“枢轴法”抽取复述模板资源。与复述短语相比,复述模板中含有表示变量的“槽”,可以通过在槽中填入不同的内容而得到不同的复述实例。因而,复述模板在复述的识别和生成中覆盖度更高、效力更强。本文提出了基于枢轴法从大规模双语平行语料库中抽取复述模板。该方法在句法分析和双语词对齐的基础之上分别抽取英文模板和中文模板,并进而利用中文模板作为枢轴来抽取英文复述模板。该方法使用对数线性模型计算两个英文模板的复述概率,其中使用了基于极大似然估计和“词加权”的特征函数。实验结果表明,利用该方法抽取出的复述模板数量大、准确率高,对后续的复述生成作用显著。 3.基于二元分类的方法抽取复述搭配资源。复述搭配是指语义相同但字面表达不同的搭配。复述搭配在自然语言处理的众多领域中皆有应用,但前人的研究却鲜有涉猎。本文以动宾搭配为例研究复述搭配的抽取。具体地,本方法将复述搭配抽取视作二元分类问题,并综合使用了基于翻译、词典、极性词以及网络挖掘的多种特征。实验结果表明,本文所采用的二元分类的方法对于抽取复述搭配是行之有效的,其中使用的各种特征对于提高复述搭配抽取的效果皆有帮助。 4.提出面向多任务的一体化统计复述生成方法。复述生成在自然语言处理的诸多方向均有重要应用,但在这方面的研究却很不够。本文通过对复述生成问题本质的分析以及与其它相关研究问题(尤其是机器翻译)的比较,提出了一种统计复述生成方法。据我们了解,该方法是第一个专门针对复述生成问题设计的统计方法。该方法的主要特色体现在以下两方面:首先,该方法基于一个统一的统计模型面向不同的应用任务生成复述句,以满足各种任务的不同应用需求;另外,该方法可以非常方便地融合使用以上抽取得到的各种复述资源,从而提高复述生成的性能和效果。 总之,本文一方面致力于各种复述资源的抽取,一方面尝试将抽取得到的复述资源统一地应用到统计复述生成的问题上来。本研究取得了一些初步的成果,期待这些成果能对本领域的其他研究者产生一定的借鉴价值。随着自然语言处理的各项底层技术的不断完善以及计算机对大规模语料处理能力的不断增强,相信复述研究在未来会取得更大的突破。同时,复述技术的成熟也将促进其他相关研究的发展!


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 王正;孙东云;;统计机器翻译系统在网络翻译教学中的应用[J];英语研究;2008年01期
2 张涛;;机器翻译的发展与基于短语的统计机器翻译[J];山西广播电视大学学报;2009年04期
3 肖桐;李天宁;陈如山;朱靖波;王会珍;;面向统计机器翻译的重对齐方法研究[J];中文信息学报;2010年01期
4 刘群;统计机器翻译综述[J];中文信息学报;2003年04期
5 何中军;刘群;林守勋;;统计机器翻译中短语切分的新方法[J];中文信息学报;2007年01期
6 苗洪霞;蔡东风;宋彦;;基于短语的统计机器翻译方法[J];沈阳航空工业学院学报;2007年02期
7 罗毅;李淼;张建;;一种基于短语统计机器翻译的高效柱搜索解码器[J];计算机应用;2007年08期
8 罗毅;李淼;朱鉴;胡冠龙;;基于短语统计机器翻译解码算法的研究与实现[J];计算机工程与应用;2007年30期
9 李枫;;基于短语的统计机器翻译[J];山西财经大学学报;2008年S1期
10 马永亮;赵铁军;;统计机器翻译中多分词结果的融合[J];中文信息学报;2010年01期
11 王丽;韩习武;;双语词典在统计机器翻译中的应用[J];计算机工程与应用;2010年16期
12 任高举;吐尔根·伊布拉音;艾山·吾买尔;;统计机器翻译中汉维短语对抽取的研究[J];新疆大学学报(自然科学版);2010年03期
13 曹杰;吕雅娟;苏劲松;刘群;;利用上下文信息的统计机器翻译领域自适应[J];中文信息学报;2010年06期
14 刘建明;吐尔根·依不拉音;艾山·吾买尔;;基于统计机器翻译的汉维词对齐研究[J];计算机应用与软件;2011年04期
15 李响;徐金安;姜文斌;吕雅娟;刘群;;面向移动终端的统计机器翻译解码定点化方法[J];中文信息学报;2011年02期
16 郎君;;统计机器翻译中翻译模型的约简概述[J];智能计算机与应用;2011年03期
17 董晓芳;曹晖;江涛;;基于短语的藏汉统计机器翻译系统[J];科技风;2012年17期
18 刘树杰;李志灏;李沐;周明;;一种面向统计机器翻译的协同权重训练方法[J];软件学报;2012年12期
19 于惠;谢军;熊皓;吕雅娟;刘群;林守勋;;基于篇章上下文的统计机器翻译方法[J];中文信息学报;2013年02期
20 巢佳媛;贡正仙;;主题模型在统计机器翻译中的应用[J];中国科技信息;2013年11期
中国重要会议论文全文数据库 前10条
1 肖桐;李天宁;陈如山;朱靖波;王会珍;;面向统计机器翻译的重对齐方法研究[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
2 张春越;蒋宏飞;赵铁军;;基于词语对齐融合提高统计机器翻译质量[A];机器翻译研究进展——第四届全国机器翻译研讨会论文集[C];2008年
3 万升华;杨沐昀;李生;赵铁军;;基于字词混合翻译短语的统计机器翻译[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
4 马永亮;赵铁军;;统计机器翻译中多分词结果的融合[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
5 张步峰;何丕廉;张冬冬;李沐;周明;;短语切分概率在统计机器翻译系统中的应用[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
6 付雷;吕雅娟;刘群;;基于句型模板和统计机器翻译技术的翻译方法[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
7 杜金华;王莎;;西安理工大学统计机器翻译系统技术报告(英文)[A];机器翻译研究进展——第七届全国机器翻译研讨会论文集[C];2011年
8 于惠;谢军;熊皓;吕雅娟;刘群;林守勋;;基于篇章上下文的统计机器翻译方法[A];机器翻译研究进展——第七届全国机器翻译研讨会论文集[C];2011年
9 曹杰;任志祥;吕雅娟;刘群;;统计机器翻译系统中传统词典的应用研究[A];机器翻译研究进展——第四届全国机器翻译研讨会论文集[C];2008年
10 梁芳丽;李淼;李文;陈雷;乌达巴拉;;统计机器翻译中的源语言重排序方法研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
中国博士学位论文全文数据库 前10条
1 崔磊;统计机器翻译领域自适应的研究[D];哈尔滨工业大学;2014年
2 蒋宏飞;基于同步树替换文法的统计机器翻译方法研究[D];哈尔滨工业大学;2010年
3 黄书剑;统计机器翻译中的词对齐研究[D];南京大学;2012年
4 刘乐茂;统计机器翻译判别式训练方法研究[D];哈尔滨工业大学;2013年
5 贡正仙;文档级统计机器翻译的研究[D];苏州大学;2014年
6 薛永增;统计机器翻译若干关键技术研究[D];哈尔滨工业大学;2007年
7 梁华参;基于短语的统计机器翻译模型训练中若干关键问题的研究[D];哈尔滨工业大学;2013年
8 肖桐;树到树统计机器翻译优化学习及解码方法研究[D];东北大学;2012年
9 段楠;统计机器翻译的一致性解码方法研究[D];天津大学;2012年
10 陈毅东;基于短语的统计机器翻译模型若干关键技术研究[D];厦门大学;2008年
中国硕士学位论文全文数据库 前10条
1 程立;融合主题的汉语—纳西的统计机器翻译方法研究[D];昆明理工大学;2015年
2 刘乐;统计机器翻译领域适应性研究[D];苏州大学;2015年
3 玉霞;蒙古文词法分析及其在蒙汉统计机器翻译中的应用[D];内蒙古师范大学;2015年
4 孙辉丰;层次短语翻译模型中翻译规则约束问题的研究[D];南京大学;2015年
5 李强;短语统计机器翻译关键技术研究[D];东北大学;2013年
6 仇伟;基于统计机器翻译的视频描述自动生成[D];上海交通大学;2015年
7 王超超;基于分布式合成语义的统计翻译模型研究[D];苏州大学;2016年
8 刘昊;统计机器翻译领域自适应方法研究[D];苏州大学;2016年
9 李婧萱;基于深度神经网络的统计机器翻译模型研究[D];哈尔滨工业大学;2016年
10 应志野;基于最大熵的机器翻译研究与实现[D];电子科技大学;2016年
中国重要报纸全文数据库 前3条
1 何中军米海涛 刘群;统计机器翻译系统中的开源软件[N];计算机世界;2007年
2 中科院计算技术研究所 吕雅娟付雷 黄瑾 何中军 刘群;化繁为简的统计机器翻译技术[N];中国计算机报;2007年
3 吕雅娟付雷 黄瑾 何中军 刘群;能自动翻译专利文献的翻译系统[N];计算机世界;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978