收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于关键词提取的中文网页自动文摘方法研究

蒋昌金  
【摘要】: 自动文摘是指由计算机将文本的中心思想或用户所需要的内容,用相同于或不同于原文的句子自动提取出来。自动文摘的生成过程,可分为文本的分析与理解、主题信息的获得和选取以及摘要的生成三个主要步骤。自动文摘的大致发展历程为:早期的基于统计的机械式自动文摘时期(如词频统计法,句子位置法);七、八十年代的基于知识表示的(如脚本、框架、模板或一阶谓词)理解型自动文摘时期;九十年代的基于信息检索的自动文摘时期;进入二十一世纪以来,融合自然语言理解与人工智能方法的综合型自动文摘时期。 从自动文摘的发展历程可知:使用某种单一技术的自动文摘,信息的全面性和准确性都不高。本文主要综合利用文本浅层信息、文本语义信息、知识库方法以及人工智能技术等来获取中文网页的自动文摘。本文首先分析了文本中表达主题的词汇的本质特征,利用这些特征提出了一个词语权重计算方法,该方法能使表达主题的词汇权重更高;在此基础之上,提出了一种对问句进行分析的方法;在分析文本主题信息、语义信息等的基础上,提出了一种发现文本中最能表达主题的重要句子的方法,并运用该方法来生成自动文摘;最后提出一种毗邻段落聚类算法来提高自动文摘的质量。 本文的主要创新点如下: 1、针对现有的中文关键词提取方法准确率不高的现状,通过分析分词系统的影响、同义词现象和一词多义现象等因素,提出了一种能使表达主题的关键词汇或短语有着更高权值的方法。该方法首先通过组合词提取算法识别文本中的组合词和新词,然后利用构造的有着上下文的同义词集,合并同义词的词频,避免同义词在输出结果中同现,最后利用词频、词性、词长、词的位置等综合信息来计算文本中词语的权值。实验结果表明,此方法能够较好地识别文本中的关键词,与基于改进的TF-IDF方法相比,本方法具有一定的优势。 2、提出了一种基于领域词典和问题类别对照表的中文问句分析方法。该方法在对问句进行分词、词性标注之后,提取出其中的名词、动词、形容词等实词成分,去掉虚词成分,组成一个初始查询向量。然后对初始查询向量进行同义词扩展,该扩展能使得查询返回更多的结果。最后对扩展查询向量进行问句类型关联词扩展,以限制返回结果必须含有该问句所在类型的词汇,以提高查询的准确率。实验表明,对查询向量的两次扩展确实能提高查询返回结果的质量。 3、针对现有中文自动文摘系统过于依赖标题信息的缺陷以及用户对多样化文摘的旺盛需求这一现状,提出了一种基于主题词权重和句子特征的句子权重计算方法。该方法首先使用词语权重计算公式计算词语权重,然后根据标题的类型信息以及代表用户偏好的词汇信息等修改词语的权重。再利用修改的词语权重和各种句子特征来计算句子基于内容、位置、线索词和用户偏好的权值,最后通过一个拟合函数对这四种权值进行拟合来获得句子的最终权值。实验数据证明,用该方法计算句子权重获取的文摘要优于基于改进的TF-ISF方法的文摘。 4、针对现行的基于准确率、召回率的文摘评价方法只能从句子的粒度对文摘进行评价的缺陷,提出了一种基于词粒度的文摘评价方法。该方法首先定义了广义多重集的“交”和“并”的运算,然后将人工文摘和机器文摘表示成为一个广义多重集。在此基础之上,重新定义了准确率、召回率和F值计算公式,并用它来进行文摘的评估。由于该方法可以避免内容基本相同但是句子不同的两篇文摘评估结果悬殊的问题,因而用改进的公式计算文摘的准确率和召回率更加合理。 5、针对现有的文本聚类算法计算量大、算法复杂度高、对初始类的选取过于敏感等缺陷,提出了一种毗邻段落聚类算法。该算法的思想是:首先选取文本的第一个段落作为第一个聚类;对于以后的段落,计算其跟与之相邻的前一段落的相似度,若该相似度大于某一阈值,则将该段归入它的前一段所在的类;否则,创建一个新的类,将该段加入其中,直至处理完所有段落。实验数据表明,毗邻段落聚类算法不但算法复杂度低、易于操作,而且能取得和著名的K-Means算法相当的段落聚类质量。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 郭燕慧,钟义信,马志勇,姚均勇;自动文摘综述[J];情报学报;2002年05期
2 王建波,杜春玲,王开铸;基于篇章理解的自动文摘研究[J];中文信息学报;1995年03期
3 郭俊文;中文科技文献自动文摘系统的研究[J];情报探索;1995年04期
4 杨建林;自动文摘的逻辑解释[J];情报理论与实践;2002年02期
5 郭庆琳,樊孝忠,柳长安;文本聚类在自动文摘中的应用研究[J];计算机应用;2005年05期
6 黄河笑,郭俊文;中文科技文献自动文摘系统的研究[J];现代情报;1996年03期
7 刘挺,吴岩,王开铸;基于信息抽取和文本生成的自动文摘系统设计[J];情报学报;1997年S1期
8 沈玮杰;基于文献结构的自动文摘的初探[J];现代图书情报技术;2002年03期
9 金博,史彦军,滕弘飞,艾景波;自动文摘技术及应用[J];计算机应用研究;2004年12期
10 高小云,程慕胜;基于英文文本的自动文摘:技术与展望[J];清华大学教育研究;2002年S1期
11 汤晓鲁;李旎;;手工文摘的评价与自动文摘的产生[J];贵图学刊;1998年02期
12 孙春葵,钟义信;关于自动文摘系统中文摘句式的一种机器学习方法[J];计算机工程与应用;2000年05期
13 杨建林;中文自动文献系统研究[J];情报学报;2001年04期
14 王开铸,李俊杰,李秀坤,吴岩,张军;自动文摘系统的历史和现状[J];电脑学习;1995年04期
15 刘挺,王开铸;基于篇章多级依存结构的自动文摘研究[J];计算机研究与发展;1999年04期
16 李蕾,钟义信,郭祥昊;面向特定领域的理解型中文自动文摘系统[J];计算机研究与发展;2000年04期
17 吴岩,李秀坤,王开铸;HIT-97Ⅰ型英文自动文摘系统[J];情报学报;1998年05期
18 朱爱群;自动标引和自动文摘对机器翻译的影响[J];现代图书情报技术;1997年01期
19 杨建林;一种使用自动聚类思想的自动文摘方法[J];情报学报;2001年05期
20 李小滨,徐越;自动文摘系统EAAS[J];软件学报;1991年04期
中国重要会议论文全文数据库 前10条
1 王红玲;黄超超;张明慧;周国栋;;面向冗余度控制的中文多文档自动文摘[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 万敏;罗振声;郭玉箐;;自动文摘系统中的意义段划分问题研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
3 李成城;;基于修辞结构理论的自动文摘研究[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
4 王萌;何婷婷;王晓荣;;基于hownet概念获取的中文自动文摘系统[A];第二届全国学生计算语言学研讨会论文集[C];2004年
5 桂卓民;何婷婷;陈劲光;李芳;;一种面向查询的多文档自动文摘系统实现方法[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
6 刘德喜;姬东鸿;;基于基本要素的文摘内容连贯性评测模型[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
7 王萌;王晓荣;李春贵;唐培和;;基于局部与全局信息的自动文摘算法[A];广西计算机学会2007年年会论文集[C];2007年
8 李立燕;杨国纬;;中文自动文摘系统研究[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
9 李芳;何婷婷;;面向查询的多模式自动摘要研究[A];第五届全国青年计算语言学研讨会论文集[C];2010年
10 ;哈尔滨工业大学智能技术与自然语言处理研究室简介[A];中国中文信息学会第六次全国会员代表大会暨成立二十五周年学术会议中文信息处理重大成果汇报展资料汇编[C];2006年
中国博士学位论文全文数据库 前10条
1 韦福如;基于图模型多文档自动文摘研究[D];武汉大学;2009年
2 李鹏;面向主题的多文档自动文摘关键技术研究[D];上海交通大学;2013年
3 张琳;基于引用聚类的多文档自动文摘技术研究[D];大连海事大学;2013年
4 蒋昌金;基于关键词提取的中文网页自动文摘方法研究[D];华南理工大学;2010年
5 杨潇;基于生成性概率模型的句法分析和多文档自动文摘研究[D];山东大学;2009年
6 陈清才;基于粗集的汉语建模及其应用研究[D];哈尔滨工业大学;2003年
7 赵林;面向查询的多文档自动文摘关键技术研究[D];复旦大学;2008年
8 周文;基于概念的若干知识表示模型及相关方法研究[D];上海大学;2007年
9 刘兴林;中文词汇知识获取算法和语义计算研究及应用[D];华南理工大学;2012年
10 陈莉萍;英汉语篇结构标注理论与实践[D];上海外国语大学;2007年
中国硕士学位论文全文数据库 前10条
1 孟威;面向微博的自动文摘研究[D];昆明理工大学;2012年
2 张瑞玲;教学资源自动文摘系统的研究与设计[D];北京交通大学;2014年
3 孟庆富;生物医学多文档自动文摘系统设计与实现[D];哈尔滨工业大学;2010年
4 张元虹;基于主题划分的中文单文档自动文摘系统的研究[D];昆明理工大学;2009年
5 张明慧;基于主题模型的中英文多文档自动文摘[D];苏州大学;2011年
6 祝振媛;基于信息分类的网络书评多文档自动文摘研究[D];南京大学;2013年
7 王攀;中文多文档自动文摘的研究与实现[D];北京邮电大学;2013年
8 谢静芝;面向循证医学的多文档自动文摘技术研究[D];大连海事大学;2010年
9 桂卓民;基于事件的多文档自动文摘系统的研究[D];华中师范大学;2010年
10 付红艳;Web多文档自动文摘研究[D];哈尔滨工程大学;2010年
中国重要报纸全文数据库 前2条
1 ;浙江天宇信息技术有限公司[N];中国计算机报;2009年
2 张雪峰;信息检索技术的新视角[N];中华读书报;2005年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978