收藏本站
《哈尔滨工业大学》 2009年
收藏 | 手机打开
二维码
手机客户端打开本文

基于改进的模糊C均值聚类算法的多文档自动文摘

郝志新  
【摘要】:随着互联网在世界范围内的迅猛发展,网络上的信息日益增加。人们迫切需要一种方法来从这些海量信息中快速获取有用信息、排除冗余信息,并将这些信息有机的结合到一起。多文档自动文摘的研究目标正是力求解决这一问题,它将同一主题文档集合中重复出现的信息以一次出现在文摘中,其他与主题相关的信息根据重要性和压缩比依次进行抽取。本文基于子主题的思想将同一主题文档集合中的句子按照相似性重新组合,得到代表各个侧面信息的子主题。对子主题进行文摘句的抽取以及排序生成多文档文摘。 句子相似度计算在多文档文摘领域有着非常重要的地位,其准确性将直接影响子主题的确定以及文摘的生成。本文分别介绍了基于词权重、基于潜在语义分析、基于语义距离以及基于语义依存的句子相似度计算方法,最终采用一种多特征融合方法结合词权重特征、语义距离特征以及语义依存特征计算句子间的相似程度。从而使句子的描述更加全面,相似度计算结果更加准确。 考虑到中文语句具有的歧义性,本文提出一种改进的模糊C均值聚类算法确定多文档集合的子主题。为了减小初值选取不当对模糊C均值算法产生的影响,该方法结合训练阈值的层次聚类算法以及样本密度算法投票生成初始聚类中心,初始化模糊C均值算法的原型矩阵以及划分矩阵,进而聚类生成多文档文摘的子主题。 将子主题按照重要性进行排序,通过文摘句的动态抽取生成文摘句集合。最后采用文档框架与文摘句位置参数相结合的文摘句排序算法生成了多文档文摘。实验结果表明,采用改进的模糊C均值聚类算法得到的子主题聚类效果要优于现有的几种应用于多文档文摘的聚类算法。与此同时,生成文摘的信息覆盖度以及流利度也达到了较理想的效果。
【关键词】:多文档文摘 子主题 模糊C均值 层次聚类 样本密度
【学位授予单位】:哈尔滨工业大学
【学位级别】:硕士
【学位授予年份】:2009
【分类号】:TP391.1
【目录】:
  • 摘要4-5
  • Abstract5-9
  • 第1章 绪论9-16
  • 1.1 课题背景9
  • 1.2 课题研究的目的及意义9-11
  • 1.3 国内外研究现状11-14
  • 1.4 主要研究内容及论文结构14-16
  • 1.4.1 主要研究内容14
  • 1.4.2 论文组织结构14-16
  • 第2章 汉语句子相似度计算16-27
  • 2.1 引言16
  • 2.2 基于词权重的句子相似度计算16-17
  • 2.3 基于潜在语义分析的句子相似度计算17-18
  • 2.4 基于语义距离的句子相似度计算18-19
  • 2.5 基于语义依存的句子相似度计算19-21
  • 2.6 基于多特征融合的句子相似度计算21-22
  • 2.7 实验分析22-25
  • 2.7.1 遗传算法确定权值组合22-23
  • 2.7.2 实验结果以及评价23-25
  • 2.8 本章小结25-27
  • 第3章 多文档文摘子主题的确定27-37
  • 3.1 引言27
  • 3.2 子主题的定义27-28
  • 3.3 模糊集的基本理论28-30
  • 3.3.1 模糊理论的发展28-29
  • 3.3.2 模糊集合论基础29-30
  • 3.4 模糊C均值聚类算法30
  • 3.5 利用改进的FCM算法确定子主题30-33
  • 3.6 实验分析33-36
  • 3.6.1 实验语料以及参数设定33-34
  • 3.6.2 评价标准34
  • 3.6.3 实验结果以及评价34-36
  • 3.7 本章小结36-37
  • 第4章 多文档文摘的生成37-41
  • 4.1 引言37
  • 4.2 文摘句的抽取37-38
  • 4.3 文摘句的排序38-40
  • 4.3.1 基于文本框架的排序算法39
  • 4.3.2 基于位置参数的排序算法39-40
  • 4.3.3 基于文本框架和位置参数的排序算法40
  • 4.4 本章小结40-41
  • 第5章 多文档自动文摘系统的评价41-48
  • 5.1 引言41-42
  • 5.2 内部评价与外部评价42-43
  • 5.2.1 自动文摘的内部评价42
  • 5.2.2 自动文摘的外部评价42-43
  • 5.3 实验分析43-47
  • 5.3.1 文摘的信息覆度评价43-46
  • 5.3.2 文摘的流利度评价46-47
  • 5.4 本章小结47-48
  • 结论48-49
  • 参考文献49-54
  • 攻读学位期间发表的学术论文54-56
  • 致谢56

【参考文献】
中国期刊全文数据库 前10条
1 王安志;李明东;李超;;各种聚类算法及改进算法的研究[J];电脑知识与技术;2008年25期
2 高新波,裴继红,谢维信;模糊c-均值聚类算法中加权指数m的研究[J];电子学报;2000年04期
3 郭艳华,周昌乐;一种汉语语句依存关系网协动生成方法研究[J];杭州电子工业学院学报;2000年04期
4 秦兵;刘挺;陈尚林;李生;;多文档文摘中句子优化选择方法研究[J];计算机研究与发展;2006年06期
5 魏继增;孙济洲;秦兵;;多文档文摘评价标准的研究[J];计算机工程与应用;2007年02期
6 葛加银;黄萱菁;吴立德;;基于实体名的文本自动综述研究[J];计算机科学;2004年09期
7 姚红玉;刘粤钳;;基于PLSA的智能学习支持系统[J];教育信息化;2005年15期
8 秦兵,刘挺,李生;多文档自动文摘综述[J];中文信息学报;2005年06期
9 刘远超;王晓龙;徐志明;关毅;;文档聚类综述[J];中文信息学报;2006年03期
10 张瑾;王小磊;许洪波;;自动文摘评价方法综述[J];中文信息学报;2008年03期
中国博士学位论文全文数据库 前1条
1 陈清才;基于粗集的汉语建模及其应用研究[D];哈尔滨工业大学;2003年
【共引文献】
中国期刊全文数据库 前10条
1 杨海蓉;;大学数学课程中等价关系的教与学[J];合肥师范学院学报;2011年03期
2 张振伟;马建琴;程瑶;;基于模糊对向传播神经网络的水库径流预报[J];安徽农业科学;2010年01期
3 杨方;;农村居民点整理潜力的指标评价模型[J];安徽农业科学;2010年30期
4 魏燕明;;森林生态效益价值影响因素权重确定方法研究[J];安徽农业科学;2012年07期
5 张衍;李灵芝;牛三库;;基于模糊贴近度的农业机械评判模型[J];现代农业科技;2012年06期
6 翟剑锋;;基于遗传算法的模糊聚类在考试成绩分析中的应用[J];信息安全与技术;2012年04期
7 苏瑞;;基于层次的模糊K均值聚类算法研究[J];安阳师范学院学报;2010年02期
8 张毅军;戎晓力;钱七虎;苏畅;;TOPSIS方法在地铁施工风险分析中的应用[J];地下空间与工程学报;2010年04期
9 修振宇;常志;刘波;张杰;;L-fuzzy闭包算子及其等价刻画[J];北方工业大学学报;2009年03期
10 刘合寨;孙世国;阚生雷;冯松宝;;模糊综合评判在高陡边坡稳定性评价中的应用[J];北方工业大学学报;2010年03期
中国重要会议论文全文数据库 前10条
1 李延辉;张玉通;魏引尚;;矿井瓦斯抽采系统可靠性的模糊综合评价[A];安全高效矿井安全保障技术——陕西省煤炭学会学术年会论文集(2011)[C];2011年
2 王荀;李素建;宋涛;姜伯平;;服务于内容侧面发现的框架识别[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 王锋叶;黄志勇;;模糊决策法在物流顾客服务中的应用[A];全国第九届企业信息化与工业工程学术会议论文集[C];2005年
4 黄良辉;陈常青;赵婷;;一种基于模糊聚类思想的评价结果组合模型[A];2006中国控制与决策学术年会论文集[C];2006年
5 徐改丽;史文雷;郭欣荣;;区间数排序的一种新方法[A];第四届中国不确定系统年会论文集[C];2006年
6 王金鹏;张作刚;朱力超;;关键系数加权改进的基于满足率的航材供应评价模型研究[A];第八届中国青年运筹信息管理学者大会论文集[C];2006年
7 张春月;李晓奇;;基于SPSS的模糊聚类分析[A];第七届中国不确定系统年会论文集[C];2009年
8 王小英;肖新平;;基于三角白化权函数的灰色聚类决策在图书馆员评价中的应用[A];第八届中国不确定系统年会论文集[C];2010年
9 张磊;黄遵国;;工作流方法在系统生存能力模糊综合评估中的应用[A];2011年全国通信安全学术会议论文集[C];2011年
10 刘君昂;刘红娟;;森林健康评价方法研究进展[A];第二届中国林业学术大会——S3 森林经理与林业信息化的新使命论文集[C];2009年
中国博士学位论文全文数据库 前10条
1 李桃迎;交通领域中的聚类分析方法研究[D];大连海事大学;2010年
2 孔令启;基于内外圈协同优化策略的间歇化工过程不确定性调度研究[D];华南理工大学;2010年
3 罗航;故障树分析的若干关键问题研究[D];电子科技大学;2011年
4 陈伟;基于时序文本挖掘的新闻内容理解与推荐技术研究[D];浙江大学;2010年
5 刘君昂;油茶林健康经营关键技术研究[D];中南林业科技大学;2010年
6 韦福如;基于图模型多文档自动文摘研究[D];武汉大学;2009年
7 陈曦;基于子串的文本分割与主题标注研究[D];武汉大学;2009年
8 谢莉青;基于图像处理分析的机织物构成要素的综合识别方法与装置[D];东华大学;2010年
9 陈文清;基于免疫机理的水泥生产工艺故障智能诊断方法研究[D];华中科技大学;2011年
10 郭喆;基于用户行为的无线通信网络综合优化研究[D];华中科技大学;2011年
中国硕士学位论文全文数据库 前10条
1 梁竞;都安县岩溶区土地整理潜力评价研究[D];广西师范学院;2010年
2 严晶晶;童装绿色设计评价体系的研究[D];浙江理工大学;2010年
3 李振;网络舆情预测关键技术研究[D];郑州大学;2010年
4 张晓冬;基于全矢谱的智能诊断技术研究[D];郑州大学;2010年
5 尹霞;汽车动态称重数据预处理及模糊补偿算法设计[D];郑州大学;2009年
6 幺飞;基于改进型模糊综合评估的弹道导弹攻防效果研究[D];哈尔滨工程大学;2010年
7 尹丽玲;基于人工免疫算法的Web文本挖掘研究[D];哈尔滨工程大学;2010年
8 付红艳;Web多文档自动文摘研究[D];哈尔滨工程大学;2010年
9 秦宏宇;网络舆情热点发现相关技术研究[D];哈尔滨工程大学;2010年
10 李春明;基于PERT的工期风险模糊综合评价[D];大连理工大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 李蕾,孙春葵,杨晓兰,钟义信;一种特定领域中文自动摘要系统[J];北京邮电大学学报;2000年01期
2 冯志伟;;特思尼耶尔的从属关系语法[J];国外语言学;1983年01期
3 林鸿飞,马雅彬;基于聚类的文本过滤模型[J];大连理工大学学报;2002年02期
4 李蕾,钟义信;自动文摘系统中基于全信息词典的复杂语句分析方法及其实现[J];电子学报;2000年08期
5 卢志茂,刘挺,张刚,李生;基于依存分析改进贝叶斯模型的词义消歧[J];高技术通讯;2003年05期
6 王永成,许慧敏;OA-1.4 版中文自动摘要系统[J];高技术通讯;1998年01期
7 荀恩东,李生,赵铁军;基于汉语二元同现的统计词义消歧方法研究[J];高技术通讯;1998年10期
8 秦兵;刘挺;王洋;郑实福;李生;;基于常问问题集的中文问答系统研究[J];哈尔滨工业大学学报;2003年10期
9 秦兵,刘挺,王洋,郑实福,李生;基于常问问题集的中文问答系统研究[J];哈尔滨工业大学学报;2003年10期
10 吴斌,傅伟鹏,郑毅,刘少辉,史忠植;一种基于群体智能的Web文档聚类算法[J];计算机研究与发展;2002年11期
中国硕士学位论文全文数据库 前2条
1 李东琦;聚类算法的研究[D];西南交通大学;2007年
2 陆云;聚类分析数据挖掘方法的研究与应用[D];安徽大学;2007年
【相似文献】
中国期刊全文数据库 前10条
1 王建波,杜春玲,王开铸;基于篇章理解的自动文摘研究[J];中文信息学报;1995年03期
2 郭俊文;中文科技文献自动文摘系统的研究[J];情报探索;1995年04期
3 杨建林;自动文摘的逻辑解释[J];情报理论与实践;2002年02期
4 郭庆琳,樊孝忠,柳长安;文本聚类在自动文摘中的应用研究[J];计算机应用;2005年05期
5 黄河笑,郭俊文;中文科技文献自动文摘系统的研究[J];现代情报;1996年03期
6 刘挺,吴岩,王开铸;基于信息抽取和文本生成的自动文摘系统设计[J];情报学报;1997年S1期
7 沈玮杰;基于文献结构的自动文摘的初探[J];现代图书情报技术;2002年03期
8 金博,史彦军,滕弘飞,艾景波;自动文摘技术及应用[J];计算机应用研究;2004年12期
9 高小云,程慕胜;基于英文文本的自动文摘:技术与展望[J];清华大学教育研究;2002年S1期
10 杨建林;一种使用自动聚类思想的自动文摘方法[J];情报学报;2001年05期
中国重要会议论文全文数据库 前10条
1 王红玲;黄超超;张明慧;周国栋;;面向冗余度控制的中文多文档自动文摘[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 万敏;罗振声;郭玉箐;;自动文摘系统中的意义段划分问题研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
3 李成城;;基于修辞结构理论的自动文摘研究[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
4 王萌;何婷婷;王晓荣;;基于hownet概念获取的中文自动文摘系统[A];第二届全国学生计算语言学研讨会论文集[C];2004年
5 王萌;王晓荣;李春贵;唐培和;;基于局部与全局信息的自动文摘算法[A];广西计算机学会2007年年会论文集[C];2007年
6 桂卓民;何婷婷;陈劲光;李芳;;一种面向查询的多文档自动文摘系统实现方法[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
7 魏昕路;洪志令;姜青山;;一种基于样本缩减策略的新窗口式聚类算法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
8 王守强;朱大铭;史士英;;基于输入点集求解k-Means聚类算法[A];第二十六届中国控制会议论文集[C];2007年
9 刘洋;江志纲;丁增喜;王大玲;鲍玉斌;于戈;;一种基于图的聚类算法GB-Cluster[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
10 李政涛;夏树倩;王大玲;冯时;张一飞;;一种基于语义引力及密度分布的聚类算法[A];第六届全国信息检索学术会议论文集[C];2010年
中国重要报纸全文数据库 前9条
1 晓夏;电子商务方案的五大改进[N];计算机世界;2002年
2 ;视频数据中挖“宝”[N];计算机世界;2002年
3 朱彬;电子转单签证工作中常见的问题及办法[N];中国国门时报;2006年
4 小溪;IDC:中国新兴消费电子市场蹒跚起步[N];中国经营报;2006年
5 ;浙江天宇信息技术有限公司[N];中国计算机报;2009年
6 张雪峰;信息检索技术的新视角[N];中华读书报;2005年
7 本报记者 赵凤华 通讯员 戴世勇 陶春明;本科生登上全国学术会议讲坛[N];科技日报;2008年
8 王君霞 陈靖;高标准带来高质量[N];中国国门时报(中国出入境检验疫报);2001年
9 本报记者 于翔;多元管理防范金融风险[N];网络世界;2010年
中国博士学位论文全文数据库 前10条
1 韦福如;基于图模型多文档自动文摘研究[D];武汉大学;2009年
2 蒋昌金;基于关键词提取的中文网页自动文摘方法研究[D];华南理工大学;2010年
3 杨潇;基于生成性概率模型的句法分析和多文档自动文摘研究[D];山东大学;2009年
4 陈清才;基于粗集的汉语建模及其应用研究[D];哈尔滨工业大学;2003年
5 赵林;面向查询的多文档自动文摘关键技术研究[D];复旦大学;2008年
6 周文;基于概念的若干知识表示模型及相关方法研究[D];上海大学;2007年
7 万淼;基于群智能和随机索引的网络聚类算法研究[D];北京邮电大学;2011年
8 刘位龙;面向不确定性数据的聚类算法研究[D];山东师范大学;2011年
9 管仁初;半监督聚类算法的研究与应用[D];吉林大学;2010年
10 刘兴林;中文词汇知识获取算法和语义计算研究及应用[D];华南理工大学;2012年
中国硕士学位论文全文数据库 前10条
1 郝志新;基于改进的模糊C均值聚类算法的多文档自动文摘[D];哈尔滨工业大学;2009年
2 孟威;面向微博的自动文摘研究[D];昆明理工大学;2012年
3 孟庆富;生物医学多文档自动文摘系统设计与实现[D];哈尔滨工业大学;2010年
4 付红艳;Web多文档自动文摘研究[D];哈尔滨工程大学;2010年
5 张元虹;基于主题划分的中文单文档自动文摘系统的研究[D];昆明理工大学;2009年
6 张明慧;基于主题模型的中英文多文档自动文摘[D];苏州大学;2011年
7 谢静芝;面向循证医学的多文档自动文摘技术研究[D];大连海事大学;2010年
8 桂卓民;基于事件的多文档自动文摘系统的研究[D];华中师范大学;2010年
9 乔小斐;中文自动文摘关键技术的研究与实现[D];西安电子科技大学;2010年
10 王思翠;基于S2AFCM与篇章内容结构分析的自动文摘系统研究[D];昆明理工大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026