收藏本站
《哈尔滨工业大学》 2007年
收藏 | 手机打开
二维码
手机客户端打开本文

中文多文档文摘关键技术研究

姚超  
【摘要】: 随着互联网上信息指数级的增长,信息爆炸已经成为一个很严峻的问题。面对大量的包含重复信息的网页,想要有效地获取所需信息变得越来越困难。如何向用户提供简洁全面的信息、提高人们获取信息的效率倍受研究者关注,因此多文档文摘成为了一个十分受关注的热门研究课题。 多文档文摘是为了达到特定用户或任务的要求,从多文档集合中提取重要信息生成精简版本的过程。本文重点研究了中文多文档文摘中的几个关键技术:句子加权模型、文摘句的选取以及文摘句的排序。具体地讲,本文对以下几个方面进行了研究: 1.对句子的加权模型进行了研究,利用对数似然比实现了主题词的自动抽取,给出了融合词汇特征、位置特征、句子长度特征的句子加权模型。实验表明,基于主题词的句子加权模型能够有效地赋予重要句子以较高的权值,从而能够生成覆盖性较好的文摘。 2.在文摘句的选取部分,提出了一种新的文摘句优选方法,该方法通过在一个较大的集合范围内逐个删除包含重要信息少的句子直到指定长度,使得生成的摘要能够最大程度地包含重要信息而且冗余信息较少。分别在中、英文语料上做了实验,对比了各种参数下的实验结果,证明了所提出的算法的有效性。 3.文摘句的顺序对用户能否正确理解原文的意思有很大影响,因此本文对文摘句的排序方法进行了研究。对现有的排序方法进行了探讨,重点分析了Majority Ordering算法,提出了一种基于内聚度的、自底向上的中文多文档文摘句子排序方法。实验结果表明,该方法要优于Majority Ordering算法。
【学位授予单位】:哈尔滨工业大学
【学位级别】:硕士
【学位授予年份】:2007
【分类号】:TP391.1

【参考文献】
中国期刊全文数据库 前10条
1 张其文;李明;;多文档文摘提取方法的研究[J];兰州理工大学学报;2007年01期
2 郑义,黄萱菁,吴立德;文本自动综述系统的研究与实现[J];计算机研究与发展;2003年11期
3 傅间莲;陈群秀;;一种新的自动文摘系统评价方法[J];计算机工程与应用;2006年18期
4 魏继增;孙济洲;秦兵;;多文档文摘评价标准的研究[J];计算机工程与应用;2007年02期
5 郭庆琳;樊孝忠;柳长安;;基于文本聚类的自动文摘系统的研究与实现[J];计算机工程;2006年04期
6 郭庆琳,樊孝忠,柳长安;文本聚类在自动文摘中的应用研究[J];计算机应用;2005年05期
7 吴玲达;雷震;老松杨;雷永林;;基于局部话题句群的事件相关多文档摘要研究[J];计算机仿真;2006年11期
8 秦兵,刘挺,李生;基于局部主题判定与抽取的多文档文摘技术[J];自动化学报;2004年06期
9 沈洲,王永成,许一震,方澈;自动文摘系统评价方法的研究与实践[J];情报学报;2001年01期
10 郭庆琳,樊孝忠;基于文本聚类和NLU的自动文摘系统的研究与实现[J];现代电力;2004年04期
中国博士学位论文全文数据库 前1条
1 郑义;多媒体信息自动摘要及其相关技术研究[D];复旦大学;2003年
【共引文献】
中国期刊全文数据库 前10条
1 仲兆满;刘宗田;;基于两级概念格的信息抽取的研究[J];江西师范大学学报(自然科学版);2008年02期
2 赵鸣;吴磊;;改进性的文本聚类算法研究[J];长江大学学报(自然科学版)理工卷;2009年02期
3 黄丽琼;何中市;;基于统计语义和结构特征的自动文摘[J];广西师范大学学报(自然科学版);2006年04期
4 闫英杰;林鸿飞;王剑峰;;基于混合策略的中文文摘自动评测方法[J];广西师范大学学报(自然科学版);2007年02期
5 张姝;赵铁军;郑德权;杨沐昀;;基于浅层分析的多文档自动文摘技术[J];哈尔滨工业大学学报;2007年07期
6 刘美玲;赵铁军;郑德权;于摇洋;;面向TDT的动态多文档文摘研究[J];哈尔滨工业大学学报;2010年11期
7 杜家利;于屏方;;自然语言文本语义接受度的在线系统评价研究[J];计算机工程与应用;2008年26期
8 杜家利;于屏方;;日语文本语义接受度评价研究[J];计算机工程与应用;2009年23期
9 杜家利;于屏方;;英日语料库语义接受度对比研究[J];计算机工程与应用;2009年24期
10 杜家利;于屏方;;法语料库文本语义接受度评价研究[J];计算机工程与应用;2009年29期
中国重要会议论文全文数据库 前6条
1 刘海涛;老松杨;吴玲达;;基于段落自适应聚类的自动文摘系统研究[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
2 胡珀;何婷婷;张勇;;基于网络化数据挖掘策略的中文多文档自动文摘研究[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
3 肖华松;何婷婷;邵伟;胡珀;;一种改进K-means聚类算法在多文档文摘中的应用[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
4 杨洁;季铎;蔡东风;白宇;;基于联合权重的多文档关键词抽取技术[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
5 桂卓民;何婷婷;陈劲光;李芳;;一种面向查询的多文档自动文摘系统实现方法[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
6 杨潇;马军;杨同峰;杜言琦;邵海敏;;基于主题模型LDA的多文档自动摘要[A];第五届全国信息检索学术会议论文集[C];2009年
中国博士学位论文全文数据库 前10条
1 韦福如;基于图模型多文档自动文摘研究[D];武汉大学;2009年
2 杨瑞龙;基于短语特征的Web文档聚类方法研究[D];重庆大学;2010年
3 代劲;云模型在文本挖掘应用中的关键问题研究[D];重庆大学;2011年
4 陈劲光;基于云模型的中文面向查询多文档自动文摘研究[D];华中师范大学;2011年
5 李振亚;基于知识竞争力的我国高技术企业专利管理研究[D];哈尔滨工程大学;2011年
6 刘娜;文本自动摘要和信息抽取方法及其应用研究[D];大连海事大学;2012年
7 郑义;多媒体信息自动摘要及其相关技术研究[D];复旦大学;2003年
8 余传明;基于本体的语义信息系统研究[D];武汉大学;2005年
9 刘德喜;基于基本要素的多文档自动文摘研究[D];武汉大学;2007年
10 胡佳妮;文本挖掘中若干关键问题的研究[D];北京邮电大学;2008年
中国硕士学位论文全文数据库 前10条
1 付红艳;Web多文档自动文摘研究[D];哈尔滨工程大学;2010年
2 胡志敏;互联网文本自动文摘技术的研究[D];湘潭大学;2010年
3 吴世汉;面向查询的XML文本摘要技术[D];江西财经大学;2010年
4 姜国新;支持多语言标签优先的元搜索引擎结果聚类研究[D];浙江工商大学;2011年
5 李霞;文本过滤防火墙技术研究[D];北方工业大学;2011年
6 刘治华;面向主题的文档摘要技术研究[D];北方工业大学;2011年
7 王询;面向航运领域的文本分类系统[D];大连海事大学;2011年
8 熊颖;中文多文档摘要关键技术研究[D];北京邮电大学;2011年
9 阿热帕提·尕依提;基于统计的维吾尔网页自动摘要提取研究[D];新疆大学;2011年
10 高超;一种基于综合背景概念格的中文自动文摘方法[D];中南大学;2011年
【二级参考文献】
中国期刊全文数据库 前8条
1 刘楚达,孙海涛;一种基于统计的中文自动文摘方法[J];湖南农业大学学报(自然科学版);2001年06期
2 郑义,黄萱菁,吴立德;文本自动综述系统的研究与实现[J];计算机研究与发展;2003年11期
3 李蕾,钟义信,郭祥昊;全信息理论在自动文摘系统中的应用[J];计算机工程与应用;2000年01期
4 刘昌钰,唐常杰,于中华,杜永萍,郭颖;基于潜在语义分析的BBS文档Bayes鉴别器[J];计算机学报;2004年04期
5 李锦乾,张冬茉,姚天方;自然语言生成中的句子结构优化处理[J];计算机应用研究;1998年01期
6 郭燕慧,钟义信,马志勇,姚均勇;自动文摘综述[J];情报学报;2002年05期
7 刘挺,王开铸;自动文摘的四种主要方法[J];情报学报;1999年01期
8 雷震;谢毓湘;吴玲达;;一种基于反例样本修剪支持向量机的事件追踪算法[J];小型微型计算机系统;2006年08期
中国硕士学位论文全文数据库 前1条
1 吴思;聚类分析及其在农业物种信息自动提取中的应用[D];湘潭大学;2001年
【相似文献】
中国期刊全文数据库 前10条
1 翁航深;略论档案主题标引的几个问题[J];四川档案;1985年02期
2 蔡新华;;档案数据库检索系统中提高检索速度的一种方法[J];计算机应用研究;1987年01期
3 杨珊;;浅析“分类号主题词对应索引”[J];江西图书馆学刊;1988年01期
4 袁庆华;自动标引“匹配标引法”原理[J];档案学研究;1994年02期
5 柳见成;档案管理系统主题词查询的一个优化算法[J];计算机系统应用;1994年08期
6 黄敬塘,宋桂云;用主题词倒排文档实现快速检索[J];天津纺织工学院学报;1994年03期
7 贺定安;《中国分类主题词表》一体化标引方法研究[J];中国图书馆学报;1995年06期
8 董素音;用主题词和关键词双重标引文献主题初探[J];大学图书馆学报;1997年03期
9 王淑媛;在《中国分类主题词表》中注意到的几个问题[J];津图学刊;1998年03期
10 李步其;如何正确标引公文主题词[J];渭南师范学院学报;2004年S1期
中国重要会议论文全文数据库 前10条
1 忻汝平;;在实践中提高标引质量[A];外向型文献库的数据质量控制——首届CUJA系统学术讨论会论文集[C];1990年
2 刘春阳;叶君峰;母海龙;陆秋霞;陈沧;高莺;;一种商品标题主题词的重要性排序算法[A];第五届全国信息检索学术会议论文集[C];2009年
3 吴秀兰;;主题词在地震情报检索中应用的探讨[A];中国地震学会第四次学术大会论文摘要集[C];1992年
4 刘启恕;;谈谈公文格式常见错误[A];中国当代秘书群星文选[C];1999年
5 闫雷;崔雷;;急性白血病相关基因的文本挖掘分析[A];中华医学会第十二次全国医学信息学术会议论文汇编[C];2006年
6 陈奇哲;刘全升;姚天昉;;汉语意见型语句主题与情感关系抽取的研究[A];第五届全国信息检索学术会议论文集[C];2009年
7 王小仲;张峰;;医学期刊计算机检索系统[A];“新学科与编辑学”学术研讨会论文集[C];1989年
8 张鑫;;刍议地方综合年鉴索引[A];创新与发展——云南省年鉴论文选[C];2003年
9 张学东;李春久;;略谈提高CUJA文献检索词的标引质量[A];外向型文献库的数据质量控制——首届CUJA系统学术讨论会论文集[C];1990年
10 侯跃芳;潘雪;崔雷;;两种内容词聚类方法反映学科热点的效果评价[A];中华医学会第十二次全国医学信息学术会议论文汇编[C];2006年
中国重要报纸全文数据库 前10条
1 周泽雄;沉重的主题词[N];中国图书商报;2001年
2 宋玉书;幸福:时代主题词的审美表达[N];文艺报;2011年
3 刘晓午;和谐社会:从十六大一句话到当今主题词[N];中国经营报;2005年
4 本报记者 张艾阳;2004沈阳主题词:环境[N];辽宁日报;2004年
5 《成都晚报》记者:曾颖;爱是生命的主题词[N];成都日报;2005年
6 记者 秦志刚;“稳健”:今年工业经济运行主题词[N];国际商报;2003年
7 四川长虹电器股份有限公司执行总裁王凤朝北雪整理;2002彩电业的三个主题词[N];中国经营报;2002年
8 ;主题词:知识管理在电子政务的体现[N];中国计算机报;2004年
9 胡敏;主题词:以人为本[N];四川日报;2005年
10 记者 吴军;苏州慈善“三个一”揭晓[N];苏州日报;2008年
中国博士学位论文全文数据库 前10条
1 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年
2 耿焕同;范例推理与互联网文本信息处理研究[D];中国科学技术大学;2006年
3 胡明涵;面向领域的文本分类与挖掘关键技术研究[D];东北大学 ;2009年
4 刘兴林;中文词汇知识获取算法和语义计算研究及应用[D];华南理工大学;2012年
5 李方涛;基于产品评论的情感分析研究[D];清华大学;2011年
6 宗校军;中文网页定题采集及分类研究[D];华中科技大学;2006年
7 周勋君;清代书法批评中对形质的描述及其相关问题的研究[D];中央美术学院;2008年
8 游俊;面向知识发现的神经信息文献系统的设计与初步实现[D];华中科技大学;2007年
9 刘竟;面向概念检索的农史信息门户的设计与构建[D];南京农业大学;2008年
10 高锦萍;XBRL财务报告分类标准研究:质量水平、经济后果与改进[D];上海交通大学;2007年
中国硕士学位论文全文数据库 前10条
1 姚超;中文多文档文摘关键技术研究[D];哈尔滨工业大学;2007年
2 张薇;基于文献轮廓的疾病相关基因的功能分析[D];中国医科大学;2010年
3 周孟霞;基于规则学习的中医药文献自动标引系统[D];浙江大学;2004年
4 卢冶;基于概念扩充和综合评价的中文自动文摘研究[D];大连理工大学;2006年
5 王洋;基于主题词同现图的网页相关度研究[D];华南理工大学;2010年
6 王健;Web信息分类与自动摘要的研究[D];天津大学;2006年
7 李嵩;语言学文献标题的术语提取研究[D];山东大学;2007年
8 袁晓峰;Web文档聚类在搜索引擎中的应用研究[D];江苏大学;2009年
9 温强;2010年上海世博会展馆主题词跨文化交际效果评析[D];海南大学;2012年
10 李艳梅;基于文本相似度的中文文本聚类的研究[D];华北电力大学(北京);2009年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026