基于分形理论的自动摘要
【摘要】:随着信息技术的发展,尤其是因特网和大规模存储介质的普及,形成了信息的汪洋大海。如何查找和利用用户所需的各类信息,为了帮助用户迅速有效地查找和利用信息,各种信息处理技术应运而生。文本摘要技术是一个很好解决信息超载问题的技术。当前很多摘要模型已经被人们提出,但是没有一个模型是完全基于文章节结构的。他们忽略了这样一个事实,人工摘取句子是依据文章的层次结构的。文章结构可以被描述为一些数学对象的分形。在过去,分形理论在数字图像压缩领域有很广泛的应用,这个和文本摘要在某些方面是相似的。他们都是从源文件中提取重要的信息,减少源文件的复杂性。分形摘要模型是第一个在文本摘要中应用分形理论的成果。它依据文章的重复表述运用递归决策算法来提取文章摘要。分形摘要大大提高了摘要的信息覆盖率,它健壮和透明的,用户能够容易的控制文章的压缩比率。同时,分形摘要系统产生出来的摘要具有最大的信息覆盖率、与源文件有最小的差异。
分形观点是运用分形方法控制信息的显示。分形树可以便扩展成为任何逻辑树。树的根的分形权值被设为1,分形权值可以传播到子节点,一个父亲节点的权值可以按比例分到子节点上,分得的权值作为子节点的分形权值。在分形前要先设定一个初始值,用这个值来控制分形显示的数量。节点的分形权值小于初始值的节点将被隐藏起来。分形摘要的模型是基于分形显示,和分形图象压缩的模型而建立的。根据源文件的结构和描述,一个源文件被分成一些子块,形成一棵分形树。
每个节点的分形权值是根据文章被分割的子块中的句子的权重的总和计算出来的。用户可以选择一个压缩率,用以指定有多少句子可以被选中作为文章的摘要。因而摘要包含的句子的限额可以被计算出来。一个节点选取句子的限额将根据它的子节点的分形权值被传播到它的子节点中。
分形摘要算法:
1.选择一个压缩比率和一个初始限额值threshold。
2.计算出摘要应包含的句子的限额。
3.把文章分成一些子块。
4.把文章转换成分形树的形式。
5.把分形树的根节点设成为当前节点。
6. Repeat
6.1 对当前节点的每一个子节点,
计算子节点的分形权值。
WP=46
6.2根据分形权值按比例分配每个子节点的句子的限额值。
6.3 对每一个子节点,
如果限额值n小于限额初始值threshold,则在该子块中选取的权值最大的n个句子。
如果限额值n大于等于限额初始值threshold,则把该子节点设为当前节点
Repeat 步骤 6.1, 6.2, 6.3
7. 当前节点的所有子节点都处理完成跳出循环.
在分形摘要中采用了基于概念统计的主题特征的提取方法。由于文章修辞的需要或文章风格的差异,经常出现用词比较简捷,同义替换的现象。因此,仅仅依靠特征项的重复而产生的频率信息是完全不够的。注意这样一个事实,同一层次的若干自然段,由于共同支持该层次所表达主题思想,因此选用的词汇可能出现同义替换,但表达的概念却是一致的,如果将特征项映射至概念级,无疑将有助于加强同一层次内段落间的聚合能力。
在基于概念统计的特征提取中主要的四个定义。
1)概念的S-频度
即概念所在文章中直接出现的次数。本文把待处理文本中直接表达概念C的词语次数定义为C的S-频度(Self Frequency)。设原文中语义概念为C的词的集合为{W1,W2,W3,…Wn},则概念C的S-频度Fs(C)为:
Fs(C)=
其中F(Wi)是词语Wi在文中出现的频度。
2)概念的T-频度
即概念自身及所属全部子概念在文章中出现的次数。本文将以C为根结点的子树所含概念的总频度称为C的T-频度(Tree Frequency)。设概念C的后代集合为{A1,A2,…,An},定义C的T-频度FT(C)为:
FT(C)=F(C)+
其中F(Ai)是Ai在文中出现的频度。与S-频度不同,T-频度反映的是C对文章所用词语的涵盖能力,体现了C与文章内容联系的紧密程度。
3)概念的归纳度
即概念对所属子概念的归纳能力,也即子概念的语义分布均匀度。设C 的儿子集合为{S1,S2,S3,…Sn},定义概念C 的归纳度R(C)如下:
WP=47
R(C)=1-
其中Ft(Si)表示子概念Si的T-频度。
4)概念的选取度
综合以上分析中所定义的三项参数,本文给出概念C被选为主题概率的选取度Sel(C)公式为:
Sel(C)=[log(Fs(C)+1)+β*log(Ft(C)+1)]*[R(C)+δ]
其中Fs(C) ,Ft(C), R(C)分别为概念C 的S-频度、T-频度与归纳度。因为频度为0时不能取对数,所以上式中Fs(C)和Ft(C)都分别加 1 后再取对数。β与δ为加权系数,用来调整各参数之间的权重,其数值根据经验制定并结合实验结果进行优化调整。
抽取出文章相应的主题概念集合后,可以把主题概念作为VSM的义项,建立空间向量模型VSM。对待处理文本中的每个段落P、句子S,将P、S包含的每个词语归入到对应的主题概念上,建立起对应向量P(T1,W1;T2,W2;…;Tn,Wn)、S(T1,W1;T2,W2;…;Tn,Wn)。其中Ti为段落、句子所含的各主题概念,Wi为Ti对应的频度。在此基础上,根据Ti在各概念层次树上的分布,可以得到P、S的概念层次树分布向量P’(Tr1,V1;…;Trn,Vn) 、S’(Tr1,V1;…;Trm,Vm)其中Tri为各概念层次树,Vi为P、S 中分布在Tri
上的主题概念的总频度。两个段落间的主题相
|
|
|
|
1 |
史磊,王永成;英文文献自动摘要系统研究[J];情报学报;1999年06期 |
2 |
李蕾,孙春葵,杨晓兰,钟义信;一种特定领域中文自动摘要系统[J];北京邮电大学学报;2000年01期 |
3 |
张雷生,万绍俊,许鹏文;简单中文自动摘要系统研究[J];装备指挥技术学院学报;2004年03期 |
4 |
刘洋,王永成;基于Web服务自动摘要系统的安全实现方案[J];计算机工程与应用;2005年15期 |
5 |
陈桂林,王永成;Internet网络信息自动摘要的研究[J];高技术通讯;1999年02期 |
6 |
谭种;陈跃新;;自动摘要方法综述[J];情报学报;2008年01期 |
7 |
;计算机中文文本自动摘要系统通过专家鉴定[J];预防医学文献信息;1996年03期 |
8 |
王继成
,武港山
,周源远
,张福炎;一种篇章结构指导的中文Web文档自动摘要方法[J];计算机研究与发展;2003年03期 |
9 |
张筱丹;胡学钢;;基于向量空间模型的自动摘要冗余处理研究[J];合肥工业大学学报(自然科学版);2010年09期 |
10 |
黄水清;李志燕;梁刚;;面向计算机类文献的自动摘要系统的研究与实现[J];图书与情报;2006年03期 |
11 |
陈珂;殷凡;;中文自动摘要综述[J];福建电脑;2007年02期 |
12 |
王永成;刘功申;刘传汉;胡佩华;孙展;;论文本的自动摘要[J];中国索引;2003年02期 |
13 |
阿热帕提·尕依提;维尼拉·木沙江;;基于统计的维吾尔文网页自动摘要提取研究[J];电脑知识与技术;2011年01期 |
14 |
沈洲,王永成,韩客松;一种基于主题敏感辞分析的新闻文献自动摘要系统的研究与实践[J];高技术通讯;2001年09期 |
15 |
刘郑;杜祝平;;浅析英文自动摘要技术[J];魅力中国;2008年28期 |
16 |
王麒;江开忠;杨静;顾君忠;;基于领域本体的文档自动摘要算法[J];华东师范大学学报(自然科学版);2007年05期 |
17 |
吴敏金;多重分形熵与多重分维谱[J];电子学报;1993年10期 |
18 |
周美莲;一个分形图形获取的趣例[J];计算机应用;1994年02期 |
19 |
王永成,王继才;中文文本摘要的自动编制[J];微型电脑应用;1998年02期 |
20 |
陈刚,戚飞虎;基于分形和遗传算法的人脸识别方法[J];红外与毫米波学报;2000年05期 |
|