收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于分形理论的自动摘要

鲁凡  
【摘要】:随着信息技术的发展,尤其是因特网和大规模存储介质的普及,形成了信息的汪洋大海。如何查找和利用用户所需的各类信息,为了帮助用户迅速有效地查找和利用信息,各种信息处理技术应运而生。文本摘要技术是一个很好解决信息超载问题的技术。当前很多摘要模型已经被人们提出,但是没有一个模型是完全基于文章节结构的。他们忽略了这样一个事实,人工摘取句子是依据文章的层次结构的。文章结构可以被描述为一些数学对象的分形。在过去,分形理论在数字图像压缩领域有很广泛的应用,这个和文本摘要在某些方面是相似的。他们都是从源文件中提取重要的信息,减少源文件的复杂性。分形摘要模型是第一个在文本摘要中应用分形理论的成果。它依据文章的重复表述运用递归决策算法来提取文章摘要。分形摘要大大提高了摘要的信息覆盖率,它健壮和透明的,用户能够容易的控制文章的压缩比率。同时,分形摘要系统产生出来的摘要具有最大的信息覆盖率、与源文件有最小的差异。 分形观点是运用分形方法控制信息的显示。分形树可以便扩展成为任何逻辑树。树的根的分形权值被设为1,分形权值可以传播到子节点,一个父亲节点的权值可以按比例分到子节点上,分得的权值作为子节点的分形权值。在分形前要先设定一个初始值,用这个值来控制分形显示的数量。节点的分形权值小于初始值的节点将被隐藏起来。分形摘要的模型是基于分形显示,和分形图象压缩的模型而建立的。根据源文件的结构和描述,一个源文件被分成一些子块,形成一棵分形树。 每个节点的分形权值是根据文章被分割的子块中的句子的权重的总和计算出来的。用户可以选择一个压缩率,用以指定有多少句子可以被选中作为文章的摘要。因而摘要包含的句子的限额可以被计算出来。一个节点选取句子的限额将根据它的子节点的分形权值被传播到它的子节点中。 分形摘要算法: 1.选择一个压缩比率和一个初始限额值threshold。 2.计算出摘要应包含的句子的限额。 3.把文章分成一些子块。 4.把文章转换成分形树的形式。 5.把分形树的根节点设成为当前节点。 6. Repeat 6.1 对当前节点的每一个子节点, 计算子节点的分形权值。 WP=46 6.2根据分形权值按比例分配每个子节点的句子的限额值。 6.3 对每一个子节点, 如果限额值n小于限额初始值threshold,则在该子块中选取的权值最大的n个句子。 如果限额值n大于等于限额初始值threshold,则把该子节点设为当前节点 Repeat 步骤 6.1, 6.2, 6.3 7. 当前节点的所有子节点都处理完成跳出循环. 在分形摘要中采用了基于概念统计的主题特征的提取方法。由于文章修辞的需要或文章风格的差异,经常出现用词比较简捷,同义替换的现象。因此,仅仅依靠特征项的重复而产生的频率信息是完全不够的。注意这样一个事实,同一层次的若干自然段,由于共同支持该层次所表达主题思想,因此选用的词汇可能出现同义替换,但表达的概念却是一致的,如果将特征项映射至概念级,无疑将有助于加强同一层次内段落间的聚合能力。 在基于概念统计的特征提取中主要的四个定义。 1)概念的S-频度 即概念所在文章中直接出现的次数。本文把待处理文本中直接表达概念C的词语次数定义为C的S-频度(Self Frequency)。设原文中语义概念为C的词的集合为{W1,W2,W3,…Wn},则概念C的S-频度Fs(C)为: Fs(C)= 其中F(Wi)是词语Wi在文中出现的频度。 2)概念的T-频度 即概念自身及所属全部子概念在文章中出现的次数。本文将以C为根结点的子树所含概念的总频度称为C的T-频度(Tree Frequency)。设概念C的后代集合为{A1,A2,…,An},定义C的T-频度FT(C)为: FT(C)=F(C)+ 其中F(Ai)是Ai在文中出现的频度。与S-频度不同,T-频度反映的是C对文章所用词语的涵盖能力,体现了C与文章内容联系的紧密程度。 3)概念的归纳度 即概念对所属子概念的归纳能力,也即子概念的语义分布均匀度。设C 的儿子集合为{S1,S2,S3,…Sn},定义概念C 的归纳度R(C)如下: WP=47 R(C)=1- 其中Ft(Si)表示子概念Si的T-频度。 4)概念的选取度 综合以上分析中所定义的三项参数,本文给出概念C被选为主题概率的选取度Sel(C)公式为: Sel(C)=[log(Fs(C)+1)+β*log(Ft(C)+1)]*[R(C)+δ] 其中Fs(C) ,Ft(C), R(C)分别为概念C 的S-频度、T-频度与归纳度。因为频度为0时不能取对数,所以上式中Fs(C)和Ft(C)都分别加 1 后再取对数。β与δ为加权系数,用来调整各参数之间的权重,其数值根据经验制定并结合实验结果进行优化调整。 抽取出文章相应的主题概念集合后,可以把主题概念作为VSM的义项,建立空间向量模型VSM。对待处理文本中的每个段落P、句子S,将P、S包含的每个词语归入到对应的主题概念上,建立起对应向量P(T1,W1;T2,W2;…;Tn,Wn)、S(T1,W1;T2,W2;…;Tn,Wn)。其中Ti为段落、句子所含的各主题概念,Wi为Ti对应的频度。在此基础上,根据Ti在各概念层次树上的分布,可以得到P、S的概念层次树分布向量P’(Tr1,V1;…;Trn,Vn) 、S’(Tr1,V1;…;Trm,Vm)其中Tri为各概念层次树,Vi为P、S 中分布在Tri 上的主题概念的总频度。两个段落间的主题相


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 史磊,王永成;英文文献自动摘要系统研究[J];情报学报;1999年06期
2 李蕾,孙春葵,杨晓兰,钟义信;一种特定领域中文自动摘要系统[J];北京邮电大学学报;2000年01期
3 张雷生,万绍俊,许鹏文;简单中文自动摘要系统研究[J];装备指挥技术学院学报;2004年03期
4 刘洋,王永成;基于Web服务自动摘要系统的安全实现方案[J];计算机工程与应用;2005年15期
5 陈桂林,王永成;Internet网络信息自动摘要的研究[J];高技术通讯;1999年02期
6 谭种;陈跃新;;自动摘要方法综述[J];情报学报;2008年01期
7 ;计算机中文文本自动摘要系统通过专家鉴定[J];预防医学文献信息;1996年03期
8 王继成 ,武港山 ,周源远 ,张福炎;一种篇章结构指导的中文Web文档自动摘要方法[J];计算机研究与发展;2003年03期
9 张筱丹;胡学钢;;基于向量空间模型的自动摘要冗余处理研究[J];合肥工业大学学报(自然科学版);2010年09期
10 黄水清;李志燕;梁刚;;面向计算机类文献的自动摘要系统的研究与实现[J];图书与情报;2006年03期
11 陈珂;殷凡;;中文自动摘要综述[J];福建电脑;2007年02期
12 王永成;刘功申;刘传汉;胡佩华;孙展;;论文本的自动摘要[J];中国索引;2003年02期
13 阿热帕提·尕依提;维尼拉·木沙江;;基于统计的维吾尔文网页自动摘要提取研究[J];电脑知识与技术;2011年01期
14 沈洲,王永成,韩客松;一种基于主题敏感辞分析的新闻文献自动摘要系统的研究与实践[J];高技术通讯;2001年09期
15 刘郑;杜祝平;;浅析英文自动摘要技术[J];魅力中国;2008年28期
16 王麒;江开忠;杨静;顾君忠;;基于领域本体的文档自动摘要算法[J];华东师范大学学报(自然科学版);2007年05期
17 吴敏金;多重分形熵与多重分维谱[J];电子学报;1993年10期
18 周美莲;一个分形图形获取的趣例[J];计算机应用;1994年02期
19 王永成,王继才;中文文本摘要的自动编制[J];微型电脑应用;1998年02期
20 陈刚,戚飞虎;基于分形和遗传算法的人脸识别方法[J];红外与毫米波学报;2000年05期
中国重要会议论文全文数据库 前10条
1 唐明;巴恒静;;基于分形理论的混凝土孔隙特征研究[A];高性能混凝土的研究与应用——第五届全国高性能混凝土学术交流会论文[C];2004年
2 郑洪龙;吕英民;董绍华;;腐蚀管道评定方法研究——对B31G公式的分形修正[A];第十二届全国疲劳与断裂学术会议论文集[C];2004年
3 高福聚;刘锡良;;建筑结构工程中的分形和标度现象[A];第十届全国结构工程学术会议论文集第Ⅲ卷[C];2001年
4 郭万林;李天文;;分形在钎焊领域中的应用[A];第十次全国焊接会议论文集(第1册)[C];2001年
5 杨文;孙洪;何勇;徐戈;;基于分形的SAR图像人造目标检测[A];现代通信理论与信号处理进展——2003年通信理论与信号处理年会论文集[C];2003年
6 梁军林;;水泥混凝土路面分形疲劳破坏机理及应用研究[A];科技、工程与经济社会协调发展——中国科协第五届青年学术年会论文集[C];2004年
7 侯振德;秦玉文;;分形相关法位移测量的研究[A];“力学2000”学术大会论文集[C];2000年
8 曹宁;宋扬;沙济彰;;自组织特征映射网络在分形图象编码中的应用[A];1999年中国神经网络与信号处理学术会议论文集[C];1999年
9 张飞;周海东;赵云霞;巴蕾;;岩石细观损伤的三维数字图像分形[A];岩石力学与工程的创新和实践:第十一次全国岩石力学与工程学术大会论文集[C];2010年
10 赵歆波;邹晓春;赵荣椿;;一种计算各向异性分形维数的新方法[A];信号与信息处理技术第三届信号与信息处理全国联合学术会议论文集[C];2004年
中国博士学位论文全文数据库 前10条
1 赵歆波;基于分形的从明暗恢复形状方法研究[D];西北工业大学;2002年
2 毛玉星;小波域图像与视频压缩算法及应用研究[D];重庆大学;2003年
3 戚大伟;基于分形理论的原木缺陷X射线图像分析与处理[D];东北林业大学;2003年
4 陈永忠;我国股市非线性时间序列分析[D];华中科技大学;2004年
5 朱毅;广义非线性Schr(?)dinger方程中孤立波的弱相互作用[D];清华大学;2008年
6 李建军;股票市场的分形特征和股票价格的FIGARCH模型研究[D];中国社会科学院研究生院;2002年
7 陈刚;高能强子-强子与电子-正电子碰撞中的非线性动力学起伏与喷注的非线性性质的研究[D];华中师范大学;2002年
8 沙智华;基于拟实体数控车削加工仿真研究[D];大连交通大学;2005年
9 张海林;提高散体有效导热系数模型准确度的理论与实验研究[D];华北电力大学(河北);2004年
10 李勇;银纹化高聚物的分形损伤模型[D];哈尔滨工业大学;2006年
中国硕士学位论文全文数据库 前10条
1 鲁凡;基于分形理论的自动摘要[D];吉林大学;2004年
2 李阜;基于滑窗取词的单文档自动摘要技术研究[D];国防科学技术大学;2010年
3 阿热帕提·尕依提;基于统计的维吾尔网页自动摘要提取研究[D];新疆大学;2011年
4 余博;基于维基百科的多文档自动摘要系统研究[D];武汉科技大学;2011年
5 商玥;面向概念查询的生物医学多文档摘要技术研究[D];大连理工大学;2011年
6 许旭阳;网络新闻多文档自动摘要技术研究[D];解放军信息工程大学;2011年
7 于光辉;基于分形和小波的几种图象编码方法的研究[D];北京工业大学;2000年
8 邢志鹏;液压设备故障诊断的分形方法研究[D];广东工业大学;2003年
9 张兵;非饱和土水力参数的分形模型[D];西南农业大学;2003年
10 于红志;分形图形生成研究[D];大连理工大学;2003年
中国重要报纸全文数据库 前10条
1 袁佳丽 高建敏;探索的脚步[N];科技日报;2011年
2 李建国;致力于微电子电路与系统研究[N];科技日报;2007年
3 何雨锋;构建超循环与分形的体系结构[N];中国国防报;2010年
4 财经前导网 凌颢华;四月大3浪尾部延伸[N];中国证券报;2007年
5 马海兵;网络舆情及其分析技术[N];光明日报;2007年
6 王云鹤 熊立;武汉电信直销中心剑指聚类市场[N];人民邮电;2009年
7 记者 肖卓;聚类市场:想挖金矿不容易[N];人民邮电;2009年
8 张秋;突破聚类市场的信息化盲区[N];中国计算机报;2007年
9 财经前导网 凌颢华;谨慎观望二次回探[N];中国证券报;2008年
10 陈璧羡;中医的科学基础和科学方法[N];中国中医药报;2004年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978