收藏本站
《哈尔滨工业大学》 2009年
收藏 | 手机打开
二维码
手机客户端打开本文

基于统计的复述获取与生成技术研究

赵世奇  
【摘要】: 复述,即对相同语义的不同表达方式,是自然语言中非常普遍的现象,它反映了人类在使用语言时的灵活多样性,同时也为自然语言处理的研究提出了挑战。近年来,有许多学者针对复述问题展开研究,并尝试将其应用到机器翻译、自动问答、信息检索、信息抽取、文本生成等相关研究中去。 复述研究主要包含两大类内容:其一是复述资源的获取,即从各式语料中基于各种方法抽取复述句对、复述短语、复述模板等不同粒度和形式的复述资源;其二是复述生成,通常指的是句子级的复述生成,即由计算机自动生成给定句子的复述句。本文的研究工作涵盖了上面两类问题。首先,本文尝试使用了多种语料库,并针对每种语料库提出了有效的方法以抽取复述短语、复述模板以及复述搭配等细粒度的复述资源。在此基础上,本文将抽取到的复述资源用于统计复述生成。本研究的主要内容包括以下几个方面: 1.基于多种方法抽取复述短语资源。复述短语抽取一直是复述研究中的热点问题,有很多方法被相继提出。本文充分借鉴了前人的研究成果并加以改进,分别使用包括单语平行语料库、单语可比较语料库、双语平行语料库、类义词典同义词、词典注释以及搜索引擎用户查询等各类资源抽取复述短语。该工作的意义不仅在于获取了大规模的复述短语,更在于对各种语料资源以及各种复述抽取方法的综合、比较和分析。我们由此清楚地掌握了每种方法和语料资源的优缺点以及抽取得到复述短语的类型和特点等。 2.基于“枢轴法”抽取复述模板资源。与复述短语相比,复述模板中含有表示变量的“槽”,可以通过在槽中填入不同的内容而得到不同的复述实例。因而,复述模板在复述的识别和生成中覆盖度更高、效力更强。本文提出了基于枢轴法从大规模双语平行语料库中抽取复述模板。该方法在句法分析和双语词对齐的基础之上分别抽取英文模板和中文模板,并进而利用中文模板作为枢轴来抽取英文复述模板。该方法使用对数线性模型计算两个英文模板的复述概率,其中使用了基于极大似然估计和“词加权”的特征函数。实验结果表明,利用该方法抽取出的复述模板数量大、准确率高,对后续的复述生成作用显著。 3.基于二元分类的方法抽取复述搭配资源。复述搭配是指语义相同但字面表达不同的搭配。复述搭配在自然语言处理的众多领域中皆有应用,但前人的研究却鲜有涉猎。本文以动宾搭配为例研究复述搭配的抽取。具体地,本方法将复述搭配抽取视作二元分类问题,并综合使用了基于翻译、词典、极性词以及网络挖掘的多种特征。实验结果表明,本文所采用的二元分类的方法对于抽取复述搭配是行之有效的,其中使用的各种特征对于提高复述搭配抽取的效果皆有帮助。 4.提出面向多任务的一体化统计复述生成方法。复述生成在自然语言处理的诸多方向均有重要应用,但在这方面的研究却很不够。本文通过对复述生成问题本质的分析以及与其它相关研究问题(尤其是机器翻译)的比较,提出了一种统计复述生成方法。据我们了解,该方法是第一个专门针对复述生成问题设计的统计方法。该方法的主要特色体现在以下两方面:首先,该方法基于一个统一的统计模型面向不同的应用任务生成复述句,以满足各种任务的不同应用需求;另外,该方法可以非常方便地融合使用以上抽取得到的各种复述资源,从而提高复述生成的性能和效果。 总之,本文一方面致力于各种复述资源的抽取,一方面尝试将抽取得到的复述资源统一地应用到统计复述生成的问题上来。本研究取得了一些初步的成果,期待这些成果能对本领域的其他研究者产生一定的借鉴价值。随着自然语言处理的各项底层技术的不断完善以及计算机对大规模语料处理能力的不断增强,相信复述研究在未来会取得更大的突破。同时,复述技术的成熟也将促进其他相关研究的发展!
【学位授予单位】:哈尔滨工业大学
【学位级别】:博士
【学位授予年份】:2009
【分类号】:TP391.2

手机知网App
【引证文献】
中国博士学位论文全文数据库 前1条
1 付博;面向社会媒体的用户消费意图分析关键技术研究[D];哈尔滨工业大学;2015年
中国硕士学位论文全文数据库 前9条
1 宋佳颖;基于机器学习的汉语情感极性分类方法研究[D];黑龙江大学;2016年
2 王超越;基于复述技术的汉语情感分析方法研究[D];黑龙江大学;2014年
3 管益龙;基于混联电路的复述识别方法研究[D];华中师范大学;2014年
4 张红;基于传统特征与概念数字特征的复述识别方法研究[D];华中师范大学;2014年
5 苏晨;面向统计机器翻译的领域自适应方法研究[D];北京交通大学;2015年
6 谢碧清;中文句式改写算法研究[D];西北大学;2013年
7 黄梵;基于双层语义分析的文档排序方法研究[D];华中师范大学;2013年
8 王立;中文复述模板及搭配抽取方法研究[D];华中师范大学;2013年
9 康维鹏;基于复述的问题扩展技术研究[D];哈尔滨工业大学;2011年
【参考文献】
中国期刊全文数据库 前1条
1 刘挺;李维刚;张宇;李生;;复述技术研究综述[J];中文信息学报;2006年04期
【共引文献】
中国期刊全文数据库 前10条
1 罗凌;陈毅东;史晓东;苏劲松;;基于复述技术的汉语成语翻译方法研究[J];中文信息学报;2015年04期
2 李良友;贡正仙;周国栋;;机器翻译自动评价综述[J];中文信息学报;2014年03期
3 李莉;刘知远;孙茂松;;基于中英平行专利语料的短语复述自动抽取研究[J];中文信息学报;2013年06期
4 胡金铭;史晓东;苏劲松;陈毅东;;引入复述技术的统计机器翻译研究综述[J];智能系统学报;2013年03期
5 张宁;;自然语言处理中基于模板的汉语语句改写的方法[J];职业技术;2012年07期
6 甘莉;邹辉;邓跃平;;英语词汇复述简化方案及实证研究[J];中南林业科技大学学报(社会科学版);2012年03期
7 赵世奇;刘挺;李生;;复述技术研究[J];软件学报;2009年08期
8 赵世奇;刘挺;李生;;基于自动构建语料库的词汇级复述研究[J];电子学报;2009年05期
9 刘圆圆;王忠建;;基于模板的对几种特殊结构句子的语句改写[J];现代电子技术;2009年03期
10 周强;施水才;李渝勤;吕学强;;句子重述技术在中文文本摘要中的应用[J];情报学报;2008年06期
【同被引文献】
中国博士学位论文全文数据库 前3条
1 刘璟;面向在线社区的用户信息挖掘及应用研究[D];哈尔滨工业大学;2014年
2 伍大勇;搜索引擎中命名实体查询处理相关技术研究[D];哈尔滨工业大学;2012年
3 赵世奇;基于统计的复述获取与生成技术研究[D];哈尔滨工业大学;2009年
中国硕士学位论文全文数据库 前10条
1 张鑫;面向社会媒体的中文文本校对方法研究与实现[D];黑龙江大学;2015年
2 王立;中文复述模板及搭配抽取方法研究[D];华中师范大学;2013年
3 赵艳青;跨领域的汉语意见挖掘方法研究[D];黑龙江大学;2013年
4 魏媛;一种应用于文本信息隐藏的组块分析算法的设计与实现[D];西北大学;2012年
5 周琨峰;基于中文维基百科的概念相关词群研究[D];华中师范大学;2012年
6 张红春;中文维基百科的结构化信息抽取及词语相关度计算[D];华中师范大学;2011年
7 徐帅;面向问答系统的复述识别技术研究与实现[D];哈尔滨工业大学;2009年
8 桑亚辉;基于模板方法的汉语语句自动改写研究[D];解放军信息工程大学;2008年
9 洪鹿平;汉语复句关系自动判定研究[D];南京师范大学;2008年
10 李立;中文信息检索系统研究[D];华中师范大学;2008年
【二级引证文献】
中国硕士学位论文全文数据库 前7条
1 张晶莹;基于深度学习的汉语词义消歧方法研究[D];黑龙江大学;2016年
2 张腾;一些图类的电阻距离及应用[D];兰州理工大学;2016年
3 罗贤亮;基于主题分析的文本检索方法研究[D];华中师范大学;2015年
4 武睿峰;自然语言密写分析及密写量检测[D];西北大学;2014年
5 陈水银;基于语义分析的文档排序方法研究[D];华中师范大学;2014年
6 贺凡黎;基于特征抽取和转换方法的全文检索研究[D];华中师范大学;2014年
7 黄梵;基于双层语义分析的文档排序方法研究[D];华中师范大学;2013年
【二级参考文献】
中国期刊全文数据库 前1条
1 张玉洁,山本和英;汉语语句的自动改写[J];中文信息学报;2003年06期
【相似文献】
中国期刊全文数据库 前10条
1 王正;孙东云;;统计机器翻译系统在网络翻译教学中的应用[J];英语研究;2008年01期
2 张涛;;机器翻译的发展与基于短语的统计机器翻译[J];山西广播电视大学学报;2009年04期
3 肖桐;李天宁;陈如山;朱靖波;王会珍;;面向统计机器翻译的重对齐方法研究[J];中文信息学报;2010年01期
4 刘群;统计机器翻译综述[J];中文信息学报;2003年04期
5 何中军;刘群;林守勋;;统计机器翻译中短语切分的新方法[J];中文信息学报;2007年01期
6 苗洪霞;蔡东风;宋彦;;基于短语的统计机器翻译方法[J];沈阳航空工业学院学报;2007年02期
7 罗毅;李淼;张建;;一种基于短语统计机器翻译的高效柱搜索解码器[J];计算机应用;2007年08期
8 罗毅;李淼;朱鉴;胡冠龙;;基于短语统计机器翻译解码算法的研究与实现[J];计算机工程与应用;2007年30期
9 李枫;;基于短语的统计机器翻译[J];山西财经大学学报;2008年S1期
10 马永亮;赵铁军;;统计机器翻译中多分词结果的融合[J];中文信息学报;2010年01期
中国重要会议论文全文数据库 前10条
1 肖桐;李天宁;陈如山;朱靖波;王会珍;;面向统计机器翻译的重对齐方法研究[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
2 张春越;蒋宏飞;赵铁军;;基于词语对齐融合提高统计机器翻译质量[A];机器翻译研究进展——第四届全国机器翻译研讨会论文集[C];2008年
3 万升华;杨沐昀;李生;赵铁军;;基于字词混合翻译短语的统计机器翻译[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
4 马永亮;赵铁军;;统计机器翻译中多分词结果的融合[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
5 张步峰;何丕廉;张冬冬;李沐;周明;;短语切分概率在统计机器翻译系统中的应用[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
6 付雷;吕雅娟;刘群;;基于句型模板和统计机器翻译技术的翻译方法[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
7 杜金华;王莎;;西安理工大学统计机器翻译系统技术报告(英文)[A];机器翻译研究进展——第七届全国机器翻译研讨会论文集[C];2011年
8 于惠;谢军;熊皓;吕雅娟;刘群;林守勋;;基于篇章上下文的统计机器翻译方法[A];机器翻译研究进展——第七届全国机器翻译研讨会论文集[C];2011年
9 曹杰;任志祥;吕雅娟;刘群;;统计机器翻译系统中传统词典的应用研究[A];机器翻译研究进展——第四届全国机器翻译研讨会论文集[C];2008年
10 梁芳丽;李淼;李文;陈雷;乌达巴拉;;统计机器翻译中的源语言重排序方法研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
中国重要报纸全文数据库 前3条
1 何中军米海涛 刘群;统计机器翻译系统中的开源软件[N];计算机世界;2007年
2 中科院计算技术研究所 吕雅娟付雷 黄瑾 何中军 刘群;化繁为简的统计机器翻译技术[N];中国计算机报;2007年
3 吕雅娟付雷 黄瑾 何中军 刘群;能自动翻译专利文献的翻译系统[N];计算机世界;2007年
中国博士学位论文全文数据库 前10条
1 崔磊;统计机器翻译领域自适应的研究[D];哈尔滨工业大学;2014年
2 蒋宏飞;基于同步树替换文法的统计机器翻译方法研究[D];哈尔滨工业大学;2010年
3 黄书剑;统计机器翻译中的词对齐研究[D];南京大学;2012年
4 刘乐茂;统计机器翻译判别式训练方法研究[D];哈尔滨工业大学;2013年
5 贡正仙;文档级统计机器翻译的研究[D];苏州大学;2014年
6 薛永增;统计机器翻译若干关键技术研究[D];哈尔滨工业大学;2007年
7 梁华参;基于短语的统计机器翻译模型训练中若干关键问题的研究[D];哈尔滨工业大学;2013年
8 肖桐;树到树统计机器翻译优化学习及解码方法研究[D];东北大学;2012年
9 段楠;统计机器翻译的一致性解码方法研究[D];天津大学;2012年
10 陈毅东;基于短语的统计机器翻译模型若干关键技术研究[D];厦门大学;2008年
中国硕士学位论文全文数据库 前10条
1 程立;融合主题的汉语—纳西的统计机器翻译方法研究[D];昆明理工大学;2015年
2 刘乐;统计机器翻译领域适应性研究[D];苏州大学;2015年
3 玉霞;蒙古文词法分析及其在蒙汉统计机器翻译中的应用[D];内蒙古师范大学;2015年
4 孙辉丰;层次短语翻译模型中翻译规则约束问题的研究[D];南京大学;2015年
5 李强;短语统计机器翻译关键技术研究[D];东北大学;2013年
6 仇伟;基于统计机器翻译的视频描述自动生成[D];上海交通大学;2015年
7 王超超;基于分布式合成语义的统计翻译模型研究[D];苏州大学;2016年
8 刘昊;统计机器翻译领域自适应方法研究[D];苏州大学;2016年
9 李婧萱;基于深度神经网络的统计机器翻译模型研究[D];哈尔滨工业大学;2016年
10 应志野;基于最大熵的机器翻译研究与实现[D];电子科技大学;2016年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026