收藏本站
《哈尔滨工业大学》 2007年
收藏 | 手机打开
二维码
手机客户端打开本文

中文多文档文摘关键技术研究

姚超  
【摘要】: 随着互联网上信息指数级的增长,信息爆炸已经成为一个很严峻的问题。面对大量的包含重复信息的网页,想要有效地获取所需信息变得越来越困难。如何向用户提供简洁全面的信息、提高人们获取信息的效率倍受研究者关注,因此多文档文摘成为了一个十分受关注的热门研究课题。 多文档文摘是为了达到特定用户或任务的要求,从多文档集合中提取重要信息生成精简版本的过程。本文重点研究了中文多文档文摘中的几个关键技术:句子加权模型、文摘句的选取以及文摘句的排序。具体地讲,本文对以下几个方面进行了研究: 1.对句子的加权模型进行了研究,利用对数似然比实现了主题词的自动抽取,给出了融合词汇特征、位置特征、句子长度特征的句子加权模型。实验表明,基于主题词的句子加权模型能够有效地赋予重要句子以较高的权值,从而能够生成覆盖性较好的文摘。 2.在文摘句的选取部分,提出了一种新的文摘句优选方法,该方法通过在一个较大的集合范围内逐个删除包含重要信息少的句子直到指定长度,使得生成的摘要能够最大程度地包含重要信息而且冗余信息较少。分别在中、英文语料上做了实验,对比了各种参数下的实验结果,证明了所提出的算法的有效性。 3.文摘句的顺序对用户能否正确理解原文的意思有很大影响,因此本文对文摘句的排序方法进行了研究。对现有的排序方法进行了探讨,重点分析了Majority Ordering算法,提出了一种基于内聚度的、自底向上的中文多文档文摘句子排序方法。实验结果表明,该方法要优于Majority Ordering算法。
【关键词】:多文档文摘 主题词 句子加权 文摘句选取 文摘句排序
【学位授予单位】:哈尔滨工业大学
【学位级别】:硕士
【学位授予年份】:2007
【分类号】:TP391.1
【目录】:
  • 摘要4-5
  • Abstract5-9
  • 第1章 绪论9-17
  • 1.1 课题研究的目的和意义9-10
  • 1.2 国内外研究现状10-16
  • 1.2.1 多文档文摘定义10
  • 1.2.2 多文档文摘主要方法10-12
  • 1.2.3 中文多文档文摘发展概况12-13
  • 1.2.4 多文档文摘的自动评测13-15
  • 1.2.5 相关国际会议15-16
  • 1.3 本文主要研究内容及组织16-17
  • 第2章 基于主题词的文摘句加权17-26
  • 2.1 引言17-18
  • 2.2 主题词自动抽取18-20
  • 2.3 句子加权模型20-21
  • 2.4 评测方法21-22
  • 2.5 实验结果及分析22-25
  • 2.6 本章小结25-26
  • 第3章 基于优选算法的文摘句选取26-36
  • 3.1 引言26-27
  • 3.2 文摘句选择算法27-30
  • 3.2.1 候选文摘句子集合的获取27-28
  • 3.2.2 文摘句优选算法28-30
  • 3.3 实验与分析30-35
  • 3.3.1 实验语料30
  • 3.3.2 英文结果及分析30-34
  • 3.3.3 中文结果及分析34-35
  • 3.4 本章小结35-36
  • 第4章 基于内聚度的文摘句排序36-49
  • 4.1 引言36-37
  • 4.2 MO 算法介绍37-38
  • 4.3 基于内聚度的句子排序算法38-42
  • 4.3.1 基于VSM 的句子分类39
  • 4.3.2 类别合并39-41
  • 4.3.3 子主题排序41-42
  • 4.4 实验与评价42-46
  • 4.4.1 评价方法42-43
  • 4.4.2 结果及分析43-46
  • 4.5 多文档文摘系统的实现46-48
  • 4.5.1 系统的主要功能46
  • 4.5.2 系统的主要模块设计46-48
  • 4.6 本章小结48-49
  • 结论49-50
  • 参考文献50-55
  • 攻读学位期间发表的学术论文55-57
  • 致谢57

【引证文献】
中国硕士学位论文全文数据库 前1条
1 王攀;中文多文档自动文摘的研究与实现[D];北京邮电大学;2013年
【参考文献】
中国期刊全文数据库 前10条
1 张其文;李明;;多文档文摘提取方法的研究[J];兰州理工大学学报;2007年01期
2 郑义,黄萱菁,吴立德;文本自动综述系统的研究与实现[J];计算机研究与发展;2003年11期
3 傅间莲;陈群秀;;一种新的自动文摘系统评价方法[J];计算机工程与应用;2006年18期
4 魏继增;孙济洲;秦兵;;多文档文摘评价标准的研究[J];计算机工程与应用;2007年02期
5 郭庆琳;樊孝忠;柳长安;;基于文本聚类的自动文摘系统的研究与实现[J];计算机工程;2006年04期
6 郭庆琳,樊孝忠,柳长安;文本聚类在自动文摘中的应用研究[J];计算机应用;2005年05期
7 吴玲达;雷震;老松杨;雷永林;;基于局部话题句群的事件相关多文档摘要研究[J];计算机仿真;2006年11期
8 秦兵,刘挺,李生;基于局部主题判定与抽取的多文档文摘技术[J];自动化学报;2004年06期
9 沈洲,王永成,许一震,方澈;自动文摘系统评价方法的研究与实践[J];情报学报;2001年01期
10 郭庆琳,樊孝忠;基于文本聚类和NLU的自动文摘系统的研究与实现[J];现代电力;2004年04期
中国博士学位论文全文数据库 前1条
1 郑义;多媒体信息自动摘要及其相关技术研究[D];复旦大学;2003年
【共引文献】
中国期刊全文数据库 前10条
1 仲兆满;刘宗田;;基于两级概念格的信息抽取的研究[J];江西师范大学学报(自然科学版);2008年02期
2 赵鸣;吴磊;;改进性的文本聚类算法研究[J];长江大学学报(自然科学版)理工卷;2009年02期
3 黄丽琼;何中市;;基于统计语义和结构特征的自动文摘[J];广西师范大学学报(自然科学版);2006年04期
4 闫英杰;林鸿飞;王剑峰;;基于混合策略的中文文摘自动评测方法[J];广西师范大学学报(自然科学版);2007年02期
5 路璐;李涓子;侯磊;张蓝姗;;面向话题的新闻综述报告自动生成研究[J];北京大学学报(自然科学版);2014年01期
6 张姝;赵铁军;郑德权;杨沐昀;;基于浅层分析的多文档自动文摘技术[J];哈尔滨工业大学学报;2007年07期
7 刘美玲;赵铁军;郑德权;于摇洋;;面向TDT的动态多文档文摘研究[J];哈尔滨工业大学学报;2010年11期
8 杜家利;于屏方;;自然语言文本语义接受度的在线系统评价研究[J];计算机工程与应用;2008年26期
9 杜家利;于屏方;;日语文本语义接受度评价研究[J];计算机工程与应用;2009年23期
10 杜家利;于屏方;;英日语料库语义接受度对比研究[J];计算机工程与应用;2009年24期
中国重要会议论文全文数据库 前6条
1 刘海涛;老松杨;吴玲达;;基于段落自适应聚类的自动文摘系统研究[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
2 胡珀;何婷婷;张勇;;基于网络化数据挖掘策略的中文多文档自动文摘研究[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
3 肖华松;何婷婷;邵伟;胡珀;;一种改进K-means聚类算法在多文档文摘中的应用[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
4 杨洁;季铎;蔡东风;白宇;;基于联合权重的多文档关键词抽取技术[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
5 桂卓民;何婷婷;陈劲光;李芳;;一种面向查询的多文档自动文摘系统实现方法[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
6 杨潇;马军;杨同峰;杜言琦;邵海敏;;基于主题模型LDA的多文档自动摘要[A];第五届全国信息检索学术会议论文集[C];2009年
中国博士学位论文全文数据库 前10条
1 韦福如;基于图模型多文档自动文摘研究[D];武汉大学;2009年
2 杨瑞龙;基于短语特征的Web文档聚类方法研究[D];重庆大学;2010年
3 代劲;云模型在文本挖掘应用中的关键问题研究[D];重庆大学;2011年
4 陈劲光;基于云模型的中文面向查询多文档自动文摘研究[D];华中师范大学;2011年
5 李振亚;基于知识竞争力的我国高技术企业专利管理研究[D];哈尔滨工程大学;2011年
6 刘娜;文本自动摘要和信息抽取方法及其应用研究[D];大连海事大学;2012年
7 郑义;多媒体信息自动摘要及其相关技术研究[D];复旦大学;2003年
8 余传明;基于本体的语义信息系统研究[D];武汉大学;2005年
9 刘德喜;基于基本要素的多文档自动文摘研究[D];武汉大学;2007年
10 胡佳妮;文本挖掘中若干关键问题的研究[D];北京邮电大学;2008年
中国硕士学位论文全文数据库 前10条
1 付红艳;Web多文档自动文摘研究[D];哈尔滨工程大学;2010年
2 胡志敏;互联网文本自动文摘技术的研究[D];湘潭大学;2010年
3 吴世汉;面向查询的XML文本摘要技术[D];江西财经大学;2010年
4 姜国新;支持多语言标签优先的元搜索引擎结果聚类研究[D];浙江工商大学;2011年
5 李霞;文本过滤防火墙技术研究[D];北方工业大学;2011年
6 刘治华;面向主题的文档摘要技术研究[D];北方工业大学;2011年
7 王询;面向航运领域的文本分类系统[D];大连海事大学;2011年
8 熊颖;中文多文档摘要关键技术研究[D];北京邮电大学;2011年
9 阿热帕提·尕依提;基于统计的维吾尔网页自动摘要提取研究[D];新疆大学;2011年
10 高超;一种基于综合背景概念格的中文自动文摘方法[D];中南大学;2011年
【同被引文献】
中国期刊全文数据库 前5条
1 温春;石昭祥;张霄;;本体概念层次获取方法综述[J];计算机应用与软件;2010年09期
2 秦兵,刘挺,李生;多文档自动文摘综述[J];中文信息学报;2005年06期
3 黄昌宁;赵海;;中文分词十年回顾[J];中文信息学报;2007年03期
4 张继东;余以胜;;利用叙词表构建本体的方法研究[J];图书情报知识;2006年04期
5 仇丽青;刘瑞;张辉;;基于词频统计的多文档自动摘要生成方案[J];微计算机信息;2009年06期
【二级参考文献】
中国期刊全文数据库 前9条
1 刘楚达,孙海涛;一种基于统计的中文自动文摘方法[J];湖南农业大学学报(自然科学版);2001年06期
2 郑义,黄萱菁,吴立德;文本自动综述系统的研究与实现[J];计算机研究与发展;2003年11期
3 李蕾,钟义信,郭祥昊;全信息理论在自动文摘系统中的应用[J];计算机工程与应用;2000年01期
4 张焕炯;李玉鉴;钟义信;;文本相似度计算的一种新方法[J];计算机科学;2002年07期
5 刘昌钰,唐常杰,于中华,杜永萍,郭颖;基于潜在语义分析的BBS文档Bayes鉴别器[J];计算机学报;2004年04期
6 李锦乾,张冬茉,姚天方;自然语言生成中的句子结构优化处理[J];计算机应用研究;1998年01期
7 郭燕慧,钟义信,马志勇,姚均勇;自动文摘综述[J];情报学报;2002年05期
8 刘挺,王开铸;自动文摘的四种主要方法[J];情报学报;1999年01期
9 雷震;谢毓湘;吴玲达;;一种基于反例样本修剪支持向量机的事件追踪算法[J];小型微型计算机系统;2006年08期
中国硕士学位论文全文数据库 前1条
1 吴思;聚类分析及其在农业物种信息自动提取中的应用[D];湘潭大学;2001年
【相似文献】
中国期刊全文数据库 前10条
1 胡明晓;;面向文档集抄袭的快速全文识别算法[J];计算机工程;2010年18期
2 沙莎,罗巍,罗三定;基于重心向量分类算法的概念特征提取方法[J];计算机工程;2005年14期
3 李维勇;;一种基于文档内容的语义标注方法[J];微计算机信息;2011年01期
4 朱颢东;蔡乐才;刘忠英;;一种改进的文本特征选择算法[J];现代电子技术;2008年08期
5 刘畅;罗强;;一种管理XML文档集合的高效方法[J];信息技术;2008年07期
6 王毅,刘云生,钟昊;XSD优化存储与解析[J];计算机工程;2005年19期
7 雷庆,吴扬扬;识别和抽取XM L文档中的关系信息及其出现模式[J];清华大学学报(自然科学版);2005年S1期
8 沈洪良,朱国进;基于Xindice的本体存储查询研究[J];计算机应用研究;2005年12期
9 朱伟彬,朱星,俞勇;一种用于在Peer-to-Peer系统中自动形成社区的元数据[J];上海交通大学学报;2005年S1期
10 李道生;赵强;;基于语景图的主题爬取器的初步设计[J];计算机工程;2006年12期
中国重要会议论文全文数据库 前10条
1 杨建武;陈晓鸥;;XML文档集的聚类研究[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
2 蒋永锴;叶东毅;;基于稀疏非负矩阵分解的自动多文摘方法[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
3 李静静;闫宏飞;;中文网页信息检索测试集的构建、分析及应用[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
4 胡珀;何婷婷;张勇;;基于网络化数据挖掘策略的中文多文档自动文摘研究[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
5 李文波;孙乐;;在查询反馈中改善文档聚类效果的策略研究[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
6 曹慧;;一种xml文档相似性距离的计算方法[A];山东省计算机学会2005年信息技术与信息化研讨会论文集(一)[C];2005年
7 韩哲;王宏志;高宏;李建中;骆吉洲;;基于聚簇的XML文档近似连接方法[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
8 杨潇;马军;杨同峰;杜言琦;邵海敏;;基于主题模型LDA的多文档自动摘要[A];第五届全国信息检索学术会议论文集[C];2009年
9 毕文静;沈华伟;刘悦;许洪波;程学旗;;基于企业环境的专家检索研究[A];第五届全国信息检索学术会议论文集[C];2009年
10 张刚;周昭涛;王斌;;基于主题的分布式信息检索研究[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
中国重要报纸全文数据库 前4条
1 ;实现信息安全与共享的完美结合[N];中国计算机报;2005年
2 何清 史忠植 王伟;搜索引擎的前沿技术[N];计算机世界;2006年
3 本报记者 周蓉蓉;CA整合存储管理软件[N];计算机世界;2004年
4 钟丽红 薛计泉;惠州局质量管理体系跨入电子化管理阶段[N];中国国门时报;2006年
中国博士学位论文全文数据库 前10条
1 贺瑞芳;时序多文档文摘相关技术研究[D];哈尔滨工业大学;2009年
2 陈劲光;基于云模型的中文面向查询多文档自动文摘研究[D];华中师范大学;2011年
3 马海涛;Active XML数据管理基础问题研究[D];哈尔滨工业大学;2009年
4 刘喜平;XML文档搜索中的查询处理技术研究[D];江西财经大学;2010年
5 郭永明;XML文档交互式信息检索技术研究[D];东华大学;2010年
6 徐永东;多文档自动文摘关键技术研究[D];哈尔滨工业大学;2007年
7 茹昭;企业信息检索中的对象检索方法研究[D];北京邮电大学;2008年
8 王进;基于本体的语义信息检索研究[D];中国科学技术大学;2006年
9 刘波;XML数据智能管理若干关键技术研究[D];中南大学;2008年
10 王桐;XML内容路由关键技术研究[D];哈尔滨工程大学;2006年
中国硕士学位论文全文数据库 前10条
1 岳大鹏;基于话题的多文档文摘技术研究[D];国防科学技术大学;2011年
2 周开朋;湿地保护的本体设计及其文档集的分级排序[D];大连理工大学;2006年
3 汤皖宁;基于文档团的Markov网络检索模型[D];江西师范大学;2013年
4 俞昊旻;文档部分重复检测研究[D];复旦大学;2012年
5 马玉玲;一种新的基于向量空间的XML文档相似性度量方法及搜索技术[D];山东大学;2007年
6 傅珊珊;基于聚类的XML文档集成管理方法研究[D];华侨大学;2008年
7 李芳;面向查询的多模式自动摘要研究[D];华中师范大学;2009年
8 陈征;基于XML数据库的数据挖掘研究[D];华中科技大学;2006年
9 李凯诺;Facet分类方法在知识管理中的应用[D];吉林大学;2008年
10 罗丹;基于密度方法的XML文档聚类研究[D];湖南师范大学;2009年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026