文档摘要算法的研究与应用
【摘要】:文档摘要是解决“信息爆炸”和信息过载问题的一种可行途径,而且可以为广泛使用的手持便携设备生成简洁的文本,缓解其屏幕小、阅读大量信息不方便的问题。本文针对文档摘要中的文本单元排序与抽取问题、结构化摘要生成、句子压缩以及基因文本摘要等关键问题展开研究,取得了具有一定理论和实用价值的成果。本文的工作包括:
1.对抽取式文档摘要的两个关键问题——文本单元的排序与抽取进行了系统的比较研究与深入分析。在标准评测数据集上的实验结果表明了pairwise和listwise排序学习方法以及基于整数线性规划的句子抽取方法的优势。进而,本文提出了一种广义感知器学习和整数规划摘要生成相结合的联合学习摘要框架,取得了较好的效果。然后本文对抽取式摘要系统的性能上限进行了探讨。
2.研究结构化文档摘要中的冗余去除和内容多样化问题,提出了一种基于预定义aspects生成结构化摘要的框架,生成摘要时该框架以最大化所有aspects所描述信息需求的期望满意度为目标。对给定的aspects和文档集采用Labeled LDA模型进行建模,并基于概率推理计算各个aspect的重要性以及句子与aspect的相关性,生成结构化摘要。
3.提出了一种基于马尔科夫逻辑网,通过删除单词进行英文句子压缩的方法。该方法用一阶逻辑公式表示单词的局部特征以及单词之间的相互依赖关系,判断单词是否应该删除。该方法既融合了丰富的句子特征,又以逻辑公式方便地表示全局约束。在书面和口语两个新闻数据集上的实验结果表明该方法的压缩结果好于两个最新的系统。
4.研究基因文本自动摘要,实现了一个从生物学文献中自动抽取代表性句子生成基因文本摘要的系统GeneSum。该系统利用ListNet排序学习算法,融合了多种文本特征和生物学数据资源,对生物文献中的句子进行排序,然后基于整数线性规划选取代表性句子生成摘要。我们在包含7294个基因的数据集上对系统进行了评测,并对测试结果进行了深入分析。