收藏本站
《清华大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

文档摘要算法的研究与应用

金锋  
【摘要】:文档摘要是解决“信息爆炸”和信息过载问题的一种可行途径,而且可以为广泛使用的手持便携设备生成简洁的文本,缓解其屏幕小、阅读大量信息不方便的问题。本文针对文档摘要中的文本单元排序与抽取问题、结构化摘要生成、句子压缩以及基因文本摘要等关键问题展开研究,取得了具有一定理论和实用价值的成果。本文的工作包括: 1.对抽取式文档摘要的两个关键问题——文本单元的排序与抽取进行了系统的比较研究与深入分析。在标准评测数据集上的实验结果表明了pairwise和listwise排序学习方法以及基于整数线性规划的句子抽取方法的优势。进而,本文提出了一种广义感知器学习和整数规划摘要生成相结合的联合学习摘要框架,取得了较好的效果。然后本文对抽取式摘要系统的性能上限进行了探讨。 2.研究结构化文档摘要中的冗余去除和内容多样化问题,提出了一种基于预定义aspects生成结构化摘要的框架,生成摘要时该框架以最大化所有aspects所描述信息需求的期望满意度为目标。对给定的aspects和文档集采用Labeled LDA模型进行建模,并基于概率推理计算各个aspect的重要性以及句子与aspect的相关性,生成结构化摘要。 3.提出了一种基于马尔科夫逻辑网,通过删除单词进行英文句子压缩的方法。该方法用一阶逻辑公式表示单词的局部特征以及单词之间的相互依赖关系,判断单词是否应该删除。该方法既融合了丰富的句子特征,又以逻辑公式方便地表示全局约束。在书面和口语两个新闻数据集上的实验结果表明该方法的压缩结果好于两个最新的系统。 4.研究基因文本自动摘要,实现了一个从生物学文献中自动抽取代表性句子生成基因文本摘要的系统GeneSum。该系统利用ListNet排序学习算法,融合了多种文本特征和生物学数据资源,对生物文献中的句子进行排序,然后基于整数线性规划选取代表性句子生成摘要。我们在包含7294个基因的数据集上对系统进行了评测,并对测试结果进行了深入分析。
【学位授予单位】:清华大学
【学位级别】:博士
【学位授予年份】:2011
【分类号】:TP391.1

手机知网App
【相似文献】
中国期刊全文数据库 前10条
1 ;《文本之星3.3测试版》[J];电子计算机与外部设备;2001年07期
2 克里斯蒂昂·雅各布,陆象淦;从书籍到文本——文献学比较史刍议[J];第欧根尼;2003年01期
3 杨英;处理文本用的软件[J];管理科学文摘;1996年04期
4 王毅;Windows 98中渐变彩色文本的实现[J];微电脑世界;1999年07期
5 张均东,孙宏;Word 2000中的几则常用技巧[J];微电脑世界;2000年21期
6 李建生!云南;EmEditor──文本飞扬[J];电子科技;2001年11期
7 陈东;亲和性文本:编辑追求的最高境界[J];编辑之友;2002年06期
8 东东;轻松文本[J];网络与信息;2004年04期
9 柴振荣;文本管理程序[J];管理科学文摘;1995年04期
10 姚尹雄,贺尚红;“文本型”数据处理方法及其实现研究[J];长沙交通学院学报;1995年04期
中国重要会议论文全文数据库 前10条
1 李晓栋;胡清华;;汽轮机故障诊断文本支持系统的研究与建立[A];2004电站自动化信息化学术技术交流会议论文集[C];2004年
2 赵宬斐;黄丽萍;;浙江外来新居民的生活空间发展检视——以店口为例[A];“秩序与进步:浙江社会发展60年研究”理论研讨会暨2009浙江省社会学年会论文集[C];2009年
3 易绵竹;南振兴;李绍哲;薛恩奎;;文本生成与理解的语言学模拟——伊戈尔·梅里丘克《意思(?)文本》模型评介[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
4 胡洁;;浅谈习作教学中的“对话性格”[A];江苏省教育学会2005年小学语文优秀论文集[C];2005年
5 沈志斌;白清源;;基于加权修正的KNN文本分类算法[A];第二十五届中国数据库学术会议论文集(一)[C];2008年
6 张鹏;李国臣;李茹;刘海静;石向荣;;基于FrameNet框架关系的文本蕴含识别[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
7 单大甫;周斌;黄九鸣;;基于CAAR算法的文本倾向性分析技术[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年
8 徐代刚;唐常杰;于中华;;从Web文档中采掘语言知识[A];第十五届全国数据库学术会议论文集[C];1998年
9 周继军;杨著;钮心忻;杨义先;;文本信息隐藏检测算法研究[A];第九届全国青年通信学术会议论文集[C];2004年
10 何菊文;巫成贵;;在情境中体验,在对话中享受[A];江苏省教育学会2005年小学语文优秀论文集[C];2005年
中国重要报纸全文数据库 前10条
1 中国人民大学法学院教授 莫纪宏;从宪法文本看公民概念的百年发展[N];北京日报;2010年
2 陆建松;“诊疗”博物馆展览工程管理之展览文本[N];中国文物报;2005年
3 刘福旺;让文本动起来[N];中国电脑教育报;2002年
4 宋成剑;文本、对话、实践的有机统一[N];社会科学报;2001年
5 刘戈;文本的价值与意义[N];文艺报;2001年
6 朱志美;满文本《三国志演义》[N];人民日报海外版;2008年
7 江苏省锡山高级中学 曹菊华;探寻创作意图 深入解读文本[N];江苏教育报;2010年
8 田华;莫让文本式管理束缚学校和教师[N];天津教育报;2010年
9 詹斌;解构的欢愉[N];青海日报;2003年
10 作者:翁贝托·艾柯 译文:康慨;艾柯:书的未来(下)[N];中华读书报;2004年
中国博士学位论文全文数据库 前10条
1 金锋;文档摘要算法的研究与应用[D];清华大学;2011年
2 宋胜利;文本语义表示及多层分类关键技术研究[D];西安电子科技大学;2012年
3 富世平;敦煌变文的口头传统研究[D];四川大学;2005年
4 刘顺利;文本研究[D];中国社会科学院研究生院;2002年
5 彭青龙;“写回”帝国中心[D];华东师范大学;2005年
6 李雁南;近代日本文学中的“中国形象”[D];暨南大学;2005年
7 曹海军;文本与语境:罗尔斯正义理论研究[D];吉林大学;2006年
8 张学波;媒体素养教育的课程发展取向研究[D];华南师范大学;2005年
9 吴致远;技术的后现代诠释[D];东北大学;2006年
10 谢登斌;当代美国课程话语研究[D];华东师范大学;2005年
中国硕士学位论文全文数据库 前10条
1 徐晴阳;从网页中精确提取链接上下文相关文本[D];吉林大学;2004年
2 何固佳;原语文本的解码模式[D];湖南师范大学;2004年
3 陈晓华;程乃珊笔下上海想象的变迁及其社会文化语境[D];首都师范大学;2004年
4 李旺欣;语文对话教学研究[D];上海师范大学;2006年
5 苏平萍;初中语文对话教学个案研究[D];广西师范大学;2006年
6 杨黎丽;爱的缺失与张爱玲文本的悲剧性[D];郑州大学;2007年
7 任云岚;论《管家》中的不确定性[D];河北师范大学;2009年
8 未怡;论《七姐妹》的重生主题[D];四川外语学院;2011年
9 潘莹;基于需求文本的GIS语义挖掘初步研究[D];南京师范大学;2004年
10 王光阵;玩出来的品牌帝国[D];四川大学;2005年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026