收藏本站
《北京大学》 2019年
收藏 | 手机打开
二维码
手机客户端打开本文

一种多模型融合的问题生成算法设计与实现

王文华  
【摘要】:QA系统以自然语言形式的问题句为输入,从海量结构化数据或非结构化文本中推断问题答案作为输出。目前大部分的QA系统都需要将问答对标记为训练数据,但精标数据集非常昂贵,且大小有限、领域限定。因此,本文探索QG算法,从包含答案片段的篇章段落入手,以句子中的知识点/事实为答案,逆向生成多角度的、信息量丰富的问句。本文的主要工作如下:(1)在综述QG国内外研究现状的基础上,实现了一种多模型融合的QG算法。给定文本段落作为输入,并行执行两种QG模型、两种QG优化模型,得到各自的生成问题句集合,将其输入多QG模型融合模块计算得分,得分前十的问题句作为输出。(2)提出并实现了基于问题模式预测的QG模型。从社区问答网站自动抓取大规模问答对,处理后作为训练数据,通过问题模式挖掘、问题模式预测、问题主题词选择、问题排序四个步骤,实现问题生成。(3)在序列到序列的生成式框架的基础上,实现了基于网格波束搜索的词汇约束译码算法LCD-GBS,结合自训练语义相关词表,实现端到端的问题生成。(4)探讨了QA和QG这两大NLP任务之间的相关性。采用两种思路学习二者之间的关系,将二者看作联合学习任务,试图同时改进二者。第一种思路视二者为对偶任务,提出并实现同时训练QA和QG模型的算法框架,并明确利用二者的概率相关性来指导训练过程。QA模型基于RNN实现,QG模型基于LCD-GBS的序列到序列生成式框架实现。第二种思路视二者为对抗协作任务。与标准的生成对抗网络GAN不同,GCN中QA模型(判别模型)与QG模型(生成模型)之间并不总是竞争关系。实验表明,GCN能同时改善QA和QG任务,且在QA准确性方面,“协作”优于“竞争”。(5)实现了多QG模型融合模块,将语法规则、主题规则、多样性、相关性四大评测标准融入线性加权模型,计算生成的候选问题句得分。本文以随机抽取的3万条Quora问答对为测试集,以BLEU为自动评测标准,结合5名志愿者人工打分作为最终评测。相较于基础的Seq2Seq模型,本文提出的多模型融合的QG算法BLEU得分提升26.3%,相关度得分提升47.8%,类型正确得分提升52.0%,提问正确得分提升28.6%,流利度得分提升56.5%,提问明确度得分提升18.5%,问题多样性得分提升70.0%。
【学位授予单位】:北京大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP391.1

【相似文献】
中国期刊全文数据库 前10条
1 柏华洁;李成名;安真臻;;3维城市模型框架数据的探讨[J];测绘通报;2005年12期
2 刘佳;樊治平;杨国梁;;一种面向知识共享的虚拟社区模型框架[J];管理学报;2006年02期
3 罗世鹏;赵嵩正;殷茗;;基于知识联盟的企业核心能力发展模型框架[J];科技进步与对策;2006年09期
4 范逢曦,何大卫;一种医学综合评价的模型框架[J];中国卫生统计;1998年03期
5 俞东慧,黄丽华,方针;企业变革管理模型框架及其实证研究[J];系统工程理论方法应用;2004年02期
6 徐志毅;新7S管理模型框架与应用[J];通信企业管理;2003年02期
7 赵馨;;浅析知识管理的模型框架[J];科技信息(科学教研);2007年36期
8 徐享忠,王精业,马亚龙;知识管理的模型框架及其关键技术[J];计算机工程;2002年02期
9 刘威;乔立红;;基于元模型的统一制造资源模型框架[J];计算机集成制造系统;2007年10期
10 姜军平;刘伟;;Java并发模型框架的构建及应用[J];西北医学教育;2006年03期
中国重要会议论文全文数据库 前10条
1 岳永;;强制性制度变迁、意识形态与经济绩效——一个关于中俄改革分析的模型框架[A];中国制度经济学年会论文集[C];2003年
2 马运全;;金融创新与制度环境:模型框架与实证分析[A];2011年(第九届)“中国法经济学论坛”论文集[C];2011年
3 杨雪榕;张大曦;范丽;;信息知识层外挂的分层Agent模型框架及其建模方法[A];空天资源的可持续发展——第一届中国空天安全会议论文集[C];2015年
4 乔非;吴启迪;严隽薇;;集成化企业模型体系:概念与构成[A];1998年中国智能自动化学术会议论文集(上册)[C];1998年
5 毛亮;;由外部性引起的交易费用:一个初步的考察[A];中国制度经济学年会论文集[C];2006年
6 王秀敏;应益荣;;MWZ模型框架下的交易者互动模型研究[A];第二届中国智能计算大会论文集[C];2008年
7 刘颖斐;余玉苗;;基于风险控制价值的独立审计定价模型框架[A];中国会计学会2006年学术年会论文集(上册)[C];2006年
8 余勇;晏顺坪;邱勇;;变形状态下辐照后的橡胶弹性本构模型[A];2018年全国固体力学学术会议摘要集(下)[C];2018年
9 张传海;曹波伟;薛青;郭玺;;轮式装甲车辆机动模型框架研究[A];第13届中国系统仿真技术及其应用学术年会论文集[C];2011年
10 张宝民;;提升航空主机院所核心竞争力分析研究[A];中国航空学会管理科学分会2015年学术交流会论文集[C];2015年
中国重要报纸全文数据库 前2条
1 记者杨晓平;关注超前竞争力 旧7S已成明日黄花新7S引领风骚[N];中华工商时报;2002年
2 国家发改委城市和小城镇改革发展中心学术委员会秘书长 冯奎;推动城市治理智慧化水平不断提升[N];中国建设报;2018年
中国博士学位论文全文数据库 前10条
1 夏辰;基于重构的自底向上视觉注意模型研究[D];西安电子科技大学;2017年
2 李鸿禧;基于信用与利率联合风险控制的银行资产负债优化模型[D];大连理工大学;2018年
3 陈华栋;机器翻译中的模型学习问题研究[D];南京大学;2018年
4 刘广达;高逼真度研究型飞行模拟器的可重构关键技术研究[D];哈尔滨工业大学;2010年
5 姚婷婷;视觉分析中的层次化结构关联特性研究[D];合肥工业大学;2016年
6 李小波;基于DSM的效能仿真多范式组合建模方法研究[D];国防科学技术大学;2013年
7 陈学中;基于多主体系统的人才集聚和组织起源研究[D];南京大学;2011年
8 康晓予;仿真模型重用与组合关键技术研究[D];大连理工大学;2012年
9 韩中元;基于时间特性的微博检索和微博过滤研究[D];哈尔滨工业大学;2016年
10 谢明旸;货币政策与股票市场[D];复旦大学;2013年
中国硕士学位论文全文数据库 前10条
1 余燕;基于视觉注意力与主题模型的图像中文描述生成方法研究[D];武汉科技大学;2019年
2 于曼;马氏依赖结构风险模型相关问题的研究[D];安徽工程大学;2019年
3 徐志;基于已实现GARCH类模型的股票市场VaR研究[D];安徽财经大学;2019年
4 叶静怡;基于集成的扩展主题模型的情感分析研究[D];北京邮电大学;2019年
5 王文华;一种多模型融合的问题生成算法设计与实现[D];北京大学;2019年
6 刘颖;Black-Litterman模型的参数优化及其在行业资产配置中的应用[D];武汉理工大学;2018年
7 张丽连;STAR-GARCH模型的设定研究[D];天津财经大学;2018年
8 李泽龙;基于ARMAX-LSTM模型的高炉铁水质量预报研究[D];浙江大学;2019年
9 王安君;基于Condition-CNN模型的立场检测研究[D];上海师范大学;2019年
10 蔡红祥;逐段决定复合泊松风险模型的最优分红问题[D];安徽工程大学;2018年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026