收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于云模型的中文面向查询多文档自动文摘研究

陈劲光  
【摘要】:随着互联网的普及,互联网上包含着海量的并且时刻在增加的信息。针对用户输入的一个简单查询,搜索引擎一般会返回用户可能需要的一系列经过排序的网页,其中有大量不相关的、重复的数据,需要用户耗费很多精力来自己查找有用的结果。面向查询的多文档自动文摘技术将大量的查询相关文档中的内容提炼、重组为一定长度的简短摘要,加速用户的信息获取,通常要求摘要的内容简洁、组织良好、冗余低、满足个性化需求。面向查询的多文档自动文摘技术能够减小从海量数据中获取信息的难度,提高信息获取及理解的速度,进而提高用户获取以及利用信息的效率,提高使用者在信息社会中的竞争实力。 云模型是李德毅院士提出的一种处理不确定性概念中模糊性、随机性及其关联性的定性定量转换模型。云模型从研究自然语言概念的不确定性入手,展开对不确定性人工智能的研究。虽然云模型发端于自然语言中的概念,但遗憾的是,就目前搜集到的论文情况看来,将云模型直接应用在自然语言处理领域本身的工作还比较少见。 本论文针对中文语料中的面向查询多文档自动文摘展开了研究。首先构建可以用于公开评测的评测语料、人工摘要;在此基础上利用云模型进行文摘内容选取、句子修剪、句子排序,力图生成满足用户需求的聚焦度高、内容精练、可读性好的连贯摘要;最后采用修改后的ROUGE工具进行中文文摘自动评测。 本文主要研究工作和研究成果概括如下: 一、提出了一种基于云模型的文摘单元选取方法,利用云模型,全面考虑文摘单元的随机性和模糊性,提高面向查询的多文档自动文摘系统的性能。首先计算文摘单元和查询条件的相关性,将文摘单元和各个查询词的相关度看成云滴,通过对云的不确定性的计算,找出与查询条件真正意义相关的文摘单元。随后利用文档集合重要度对查询相关的结果进行修正,将文摘句和其他各文摘句的相似度看成云滴,利用云的数字特征计算句子重要度,找出能够概括尽可能多的文档集合内容的句子,避免片面地只从某一个方面回答查询问题。为了证明文摘单元选取方法的有效性,在英文大规模公开语料上进行了实验,并参加了国际自动文摘公开评测,取得了较好的成绩。 二、构建了中文自动文摘评测语料库及中文自动评测工具,并以此为基础,构建了一种基于云模型的中文面向查询多文档自动文摘系统。中文自动文摘评测语料库由1000篇文档、100个文档集合和查询条件、400篇人工摘要构成。通过修改英文文摘评测工具ROUGE的源程序,实现了中文自动文摘的ROUGE自动评测。首先将50个文档集合作为训练语料,采用哈工大最新共享的语言技术平台进行句子切分、分词;随后利用中文自动评测工具,在测试语料中进行参数训练;最后采用基于云模型的文摘单元选取方法生成中文摘要,就此搭建了中文云摘要系统。 三、提出了一种基于多维云和依存分析的中文句子修剪方法,进一步提高文摘质量。首先制定基于依存分析的句子修剪规则,对每个候选文摘句进行句子修剪,从而产生多候选句;随后利用多维云,综合考虑词语在句子、文档集合中的分布以及和查询条件的相关性,对各修剪句进行打分,在云的叠加过程中实现了不确定性的有效传递;最后选取那些包含信息量最大、长度最短的修剪句替换候选文摘句,构成自动摘要,从而使文摘包含更多的有效信息。 四、提出了一种基于云模板的文摘句排序方法,使生成的中文云摘要更加连贯。云模板的方法将文档集合中的每一篇文档都看成模板,利用云模型将各篇文档的排序结果综合到一起,既避免了单一模板方法对于单个文档的依赖,也避免了多数次序方法只能两两排序的缺点。首先利用基于复杂网络的自适应增量聚类方法对文档集合进行聚类,找出那些包含有一个或多个文摘句的子主题;随后将文档集合中的每一篇文档都看作模板,利用这些模板构成的云确定子主题和文摘句在模板中的相对位置;最后依次对子主题以及对子主题内部的句子进行排序,从而生成连贯性更好、可读性更强的自动摘要。


知网文化
【相似文献】
中国期刊全文数据库 前19条
1 袁龙云;张琳;;基于主题模型与冗余控制的中文多文档自动文摘技术研究[J];现代计算机(专业版);2017年14期
2 刘楚达,孙海涛;一种基于统计的中文自动文摘方法[J];湖南农业大学学报(自然科学版);2001年06期
3 索红光;梁玉环;刘玉树;;基于时间戳的多文档自动文摘[J];计算机工程;2007年16期
4 刘凯;王红玲;;基于篇章修辞结构的自动文摘连贯性研究[J];中文信息学报;2019年01期
5 倪维健;刘彤;曾庆田;赵华;汤建渝;;基于非平衡数据分类的单文档自动文摘方法[J];计算机工程与科学;2012年04期
6 付茜;;自动文摘综述[J];中国美容医学;2012年16期
7 杨建林;自动文摘的逻辑解释[J];情报理论与实践;2002年02期
8 汤晓鲁;李旎;;手工文摘的评价与自动文摘的产生[J];贵图学刊;1998年02期
9 孙晓腾;李学明;;基于论文关键词和篇章结构的自动文摘抽取方法[J];现代计算机(专业版);2018年13期
10 徐超;王萌;;基于局部主题关键句抽取的多文档自动文摘方法[J];计算机光盘软件与应用;2013年18期
11 王红玲;张明慧;周国栋;;主题信息的中文多文档自动文摘系统[J];计算机工程与应用;2012年25期
12 徐永东;徐志明;王晓龙;;基于信息融合的多文档自动文摘技术[J];计算机学报;2007年11期
13 黄河笑,郭俊文;中文科技文献自动文摘系统的研究[J];现代情报;1996年03期
14 王海;胡珀;;基于遗传算法的查询导向式自动文摘[J];微计算机信息;2009年28期
15 王红玲;周国栋;朱巧明;;面向冗余度控制的中文多文档自动文摘[J];中文信息学报;2012年02期
16 卫佳君;宋继华;;自动文摘的方法研究[J];计算机技术与发展;2011年08期
17 王建波,杜春玲,王开铸;基于篇章理解的自动文摘研究[J];中文信息学报;1995年03期
18 王建波;王开铸;;自动文摘系统—句子级信息处理研究[J];情报科学;1991年06期
19 胡迁;黄青松;刘利军;冯旭鹏;;基于自动文摘的答案生成方法研究[J];计算机应用与软件;2018年12期
中国重要会议论文全文数据库 前10条
1 王红玲;黄超超;张明慧;周国栋;;面向冗余度控制的中文多文档自动文摘[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 刘茂福;金可佳;姬东鸿;张晓龙;;统计与规则相结合的指代消解在事件自动文摘中的应用[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
3 卢冶;林鸿飞;赵晶;;中文自动文摘系统的综合评价模式[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
4 李立燕;杨国纬;;中文自动文摘系统研究[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
5 王小磊;张瑾;许洪波;;基于交互增强原理的多文档自动文摘算法[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
6 胡珀;;基于图模型的多文档自动文摘(英文)[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
7 张明慧;王红玲;周国栋;;LDA主题驱动的中文多文档自动文摘方法[A];第五届全国青年计算语言学研讨会论文集[C];2010年
8 王萌;王晓荣;李春贵;唐培和;;基于局部与全局信息的自动文摘算法[A];广西计算机学会2007年年会论文集[C];2007年
9 邵伟;何婷婷;胡珀;肖华松;;一种面向查询的多文档文摘句选择策略[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
10 万敏;罗振声;郭玉箐;;自动文摘系统中的意义段划分问题研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
中国博士学位论文全文数据库 前10条
1 陈劲光;基于云模型的中文面向查询多文档自动文摘研究[D];华中师范大学;2011年
2 李鹏;面向主题的多文档自动文摘关键技术研究[D];上海交通大学;2013年
3 刘德喜;基于基本要素的多文档自动文摘研究[D];武汉大学;2007年
4 徐永东;多文档自动文摘关键技术研究[D];哈尔滨工业大学;2007年
5 张琳;基于引用聚类的多文档自动文摘技术研究[D];大连海事大学;2013年
6 韦福如;基于图模型多文档自动文摘研究[D];武汉大学;2009年
7 杨潇;基于生成性概率模型的句法分析和多文档自动文摘研究[D];山东大学;2009年
8 赵林;面向查询的多文档自动文摘关键技术研究[D];复旦大学;2008年
9 蒋昌金;基于关键词提取的中文网页自动文摘方法研究[D];华南理工大学;2010年
10 胡珀;融合上下文信息的自动文摘研究[D];武汉大学;2013年
中国硕士学位论文全文数据库 前10条
1 谢静芝;面向循证医学的多文档自动文摘技术研究[D];大连海事大学;2010年
2 王攀;中文多文档自动文摘的研究与实现[D];北京邮电大学;2013年
3 孟庆富;生物医学多文档自动文摘系统设计与实现[D];哈尔滨工业大学;2010年
4 马长林;中文自动文摘技术若干问题的研究[D];华中师范大学;2002年
5 桂卓民;基于事件的多文档自动文摘系统的研究[D];华中师范大学;2010年
6 万欣;基于自动文摘的辅助文档撰写系统研究与实现[D];北京邮电大学;2019年
7 刘凯;基于篇章结构理论的单文档自动文摘研究[D];苏州大学;2018年
8 任宇;基于观点挖掘主题模型的多文档自动文摘技术研究[D];吉林大学;2018年
9 王炜;基于深度学习的中文单文档自动文摘方法研究[D];华中师范大学;2018年
10 张洪荣;中文自动文摘关键技术研究与实现[D];哈尔滨工业大学;2018年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978