基于统计的维吾尔网页自动摘要提取研究
【摘要】:摘要提取技术的采用在一定程度上提高搜索引擎搜索结果的质量,为此节省用户的搜索时间。在原有维、哈、柯搜索引擎中采用的自动摘要提取方法的不足使其未能达到令人满意的优化搜索效果。
为了补充这一缺点,提高所提取的摘要质量,本文在原有技术的基础上提出了更为适合维、哈、柯文的自动摘要提取方法。
首先介绍了自动摘要的定义、分类以及相关技术包括基于统计、基于信息抽取、基于理解和基于结构的自动摘要方法,文本表示方法和评价技术。然后分析设计并实现了基于统计的维吾尔文网页自动摘要提取系统,最后对实验结果进行了评价。
基于统计的自动摘要通过计算词条权重和句子权重,选出权重较高的句子组成摘要。基于统计的自动摘要方法实现简单,效率较高,不受领域限制,因此本文重点研究此方法。在具体的实现过程当中用向量空间模型(VSM)来表示文本,而计算词条和句子权重时在TF*ISF算法和句子权重计算方法基础上综合考虑了词频、词性、句子包含的词条、关键词、提示词以及句子长度等文本信息特征。本文根据维吾尔文的特征分析并设计了基于统计的维吾尔文网页自动摘要提取实验系统。实验结果表明摘要质量有所提高,为此证明该方法的可行性。