收藏本站
《苏州大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

基于统计的多文档关键短语和文摘抽取研究

张永刚  
【摘要】: 关键短语和文摘抽取是智能信息处理的重要技术,主要应用于搜索引擎、话题检测与跟踪、文本聚类和文本分类等文档信息处理。 多文档关键短语和文摘用短语和句子的形式反映多文档主题内容。关键短语主要由多词单元短语的形式出现,文摘将同一主题的文档汇总抽取重要句子组成。 本文首先介绍了短语识别的方法,因为短语识别的质量直接影响关键短语和文摘抽取的结果。其次重点介绍了关键短语和文摘抽取的三个系统,S-MMR系统是把比较成熟的单文档关键短语和文摘抽取方法应用到多文档抽取系统中;G-HITS系统是用基于链接分析算法同时计算句子和短语的重要性,这两个系统在文摘生成时用MMR计算避免抽取到冗余信息,取得了比较好的实验结果。 上面二个关键短语和文摘抽取方法在相似信息处理上采用的是MMR技术避免文摘生成冗余,在吸取这两个方法优点的基础上结合共聚类算法提出基于共聚类的多文档关键短语和文摘抽取方法,该方法利用了相似信息,这是本文的重点也是创新点。系统在短语识别的基础上首先构建句子指向包含短语的有向图,把句子和短语的有向图转化为等价的权重矩阵。在句子和短语的权重矩阵上运用共聚类抽取算法,算法在迭代中依次用基于图的链接分析算法计算句子和短语的权重及对句子和短语分别聚类,在此过程中权重计算和聚类互相影响,句子和短语的权重及类别变化互相影响互相增强,最后达到全局最优权重即聚类不在变化时退出迭代。实验结果表明,基于共聚类系统抽取的关键短语和文摘质量较高,运行高效。在公共的评测语料DUC2004上用ROUGE评测方法,在评测指标ROUGE-1的Average-F值是38.459%,ROUGE-2的Average-F值是0.09382%,高于其它自动文摘。
【关键词】:信息抽取 关键短语 多文档文摘 共聚类 术语 自然语言处理
【学位授予单位】:苏州大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TP391.1
【目录】:
  • 摘要4-5
  • Abstract5-8
  • 第一章 引言8-13
  • 1.1 课题研究意义8-9
  • 1.2 历史与现状9-10
  • 1.3 研究目标10-11
  • 1.4 本文的工作和论文的组织11-13
  • 第二章 关键短语和文摘抽取的相关工作13-19
  • 2.1 定义15
  • 2.2 术语和关键短语抽取15-16
  • 2.2.1 术语抽取15-16
  • 2.2.2 关键短语抽取16
  • 2.3 多文档文摘抽取16-18
  • 2.3.1 基于统计的分析方法17
  • 2.3.2 基于图的分析方法17-18
  • 2.4 共聚类算法18
  • 2.5 本章小结18-19
  • 第三章 短语识别19-24
  • 3.1 识别19-20
  • 3.2 过滤20-22
  • 3.2.1 频度过滤20-21
  • 3.2.2 互信息过滤21-22
  • 3.2.3 C-value 过滤22
  • 3.3 本章小结22-24
  • 第四章 多文档关键短语和文摘抽取系统24-52
  • 4.1 S-MMR 关键短语和文摘抽取系统24-28
  • 4.1.1 S-MMR 系统流程图24-25
  • 4.1.2 S-MMR 系统模型25-26
  • 4.1.3 位置/频度特征权重26
  • 4.1.4 短语和句子权重计算26-27
  • 4.1.5 关键短语抽取和文摘生成27-28
  • 4.2 G-HITS 关键短语和文摘抽取系统28-30
  • 4.2.1 G-HITS 关键短语和文摘抽取流程图28-29
  • 4.2.2 G-HITS 系统模型29
  • 4.2.3 短语和句子权重计算29
  • 4.2.4 关键短语抽取和文摘生成29-30
  • 4.3 共聚类关键短语和文摘抽取系统30-51
  • 4.3.1 预处理和短语识别31
  • 4.3.2 CoC 系统的算法模型31-44
  • 4.3.3 关键短语抽取44-45
  • 4.3.4 文摘生成45
  • 4.3.5 CoC 系统抽取的例子45-51
  • 4.4 本章小结51-52
  • 第五章 实验结果与分析52-60
  • 5.1 实验语料52
  • 5.2 评测方法52-53
  • 5.3 实验结果及分析53-59
  • 5.3.1 多文档关键短语抽取结果53-54
  • 5.3.2 与专家文摘和自动文摘的对比54-55
  • 5.3.3 权重计算方法对结果影响55-56
  • 5.3.4 识别和不识别短语对结果的影响56
  • 5.3.5 不同的聚类方法对结果的影响56-57
  • 5.3.6 相似度阈值的变化对结果的影响57-58
  • 5.3.7 不同的文摘句选择方法对结果的影响58
  • 5.3.8 实验结果58-59
  • 5.4 本章小结59-60
  • 第六章 总结与展望60-62
  • 6.1 总结60-61
  • 6.2 研究展望61-62
  • 参考文献62-68
  • 攻读学位期间公开发表的论文68-69
  • 致谢69-70

【相似文献】
中国期刊全文数据库 前10条
1 龚书;瞿有利;田盛丰;;基于维基语义的多文档文摘研究[J];南京大学学报(自然科学版);2011年04期
2 ;[J];;年期
3 ;[J];;年期
4 ;[J];;年期
5 ;[J];;年期
6 ;[J];;年期
7 ;[J];;年期
8 ;[J];;年期
9 ;[J];;年期
10 ;[J];;年期
中国重要会议论文全文数据库 前10条
1 任竹;贾珈;蔡莲红;;关键词识别中置信度评估方法的研究[A];第七届和谐人机环境联合学术会议(HHME2011)论文集【poster】[C];2011年
2 蒋永锴;叶东毅;;基于稀疏非负矩阵分解的自动多文摘方法[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
3 吴继媛;孙淳;侯敏;;面向传媒语言语料库的关键词自动抽取研究[A];第五届全国青年计算语言学研讨会论文集[C];2010年
4 桂卓民;何婷婷;陈劲光;李芳;;一种面向查询的多文档自动文摘系统实现方法[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
5 李红莲;潘建军;范京;;音节相似度及其在语音识别中的应用[A];第十四届全国信号处理学术年会(CCSP-2009)论文集[C];2009年
6 杨洁;季铎;蔡东风;白宇;;基于联合权重的多文档关键词抽取技术[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
7 刘欣;段云所;陈钟;;电子证据鉴定技术框架研究[A];第十七次全国计算机安全学术交流会暨电子政务安全研讨会论文集[C];2002年
8 王红玲;黄超超;张明慧;周国栋;;面向冗余度控制的中文多文档自动文摘[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
9 刘德喜;吴世汉;吴通;;基于随机冲浪模型的XML文摘句子重排[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
10 陈书炫;熊孟英;;一种基于Rough集的中文LINGO算法[A];中国企业运筹学[2010(1)][C];2010年
中国重要报纸全文数据库 前3条
1 辽宁中期 时 岩;整体环境向好 铜牛越走越稳[N];证券日报;2005年
2 英特尔Dialogic分部计算机通信部营销总监Carl R.Strathmeyer;Internet与客户联络中心[N];网络世界;2001年
3 袁海;新型设备真神奇 帮助美军说外语[N];中国国防报;2002年
中国博士学位论文全文数据库 前2条
1 刘兴林;中文词汇知识获取算法和语义计算研究及应用[D];华南理工大学;2012年
2 韦福如;基于图模型多文档自动文摘研究[D];武汉大学;2009年
中国硕士学位论文全文数据库 前10条
1 张永刚;基于统计的多文档关键短语和文摘抽取研究[D];苏州大学;2010年
2 姜舟;关键短语抽取及相关技术研究[D];哈尔滨工业大学;2010年
3 张超;查询分析在信息检索中的应用[D];电子科技大学;2010年
4 王婍犇;基于信息抽取的手持智能终端网页显示技术研究与实现[D];华东师范大学;2006年
5 李研;基于聚类的个性化搜索引擎研究与设计[D];长春理工大学;2009年
6 李培德;搜索引擎检索结果聚类方法的研究与改进[D];燕山大学;2007年
7 徐德;关于互联网文本数据挖掘的一些关键技术研究[D];电子科技大学;2011年
8 赵莲;大规模中英可比较语料库构建[D];大连理工大学;2010年
9 段晓丽;Web文本自动文摘的研究[D];大连理工大学;2012年
10 王晖;面向Web论坛的自动文摘方法的研究[D];山东大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026