收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

中文多文档自动文摘的研究与实现

王攀  
【摘要】:网络信息的日益膨胀,使得人们在搜索信息时,不得不通过阅读大量的文本资料才能最终筛选出自己想要的内容,这样不仅浪费了大量的精力,而且往往会因为人为疏忽漏掉一些重要的信息。基于此,多文本自动文摘的设计研究工作具有十分重要的现实意义。 现有自动文摘方法大部分是依赖于重要信息在文本中出现的频率来确定信息的重要性,文摘提取的结果有很大程度的不确定性,而且极易造成文摘结果的可读性差。针对这两个问题,本文提出了一种基于篇章浅层依存关系的自动文摘提取方法。 本文的多文档自动文摘研究工作概括如下: (])多文档自动文摘的系统设计方法。主要包括了文本数据预处理、文本树形存储、自然语言处理、知识匹配、提取文摘句、文摘生成等几个部分。其中文本预处理主要的工作是进行文本分类。 (2)多文档自动文摘的关键技术。主要包括文本分类、自然语言处理、文本结构本体的建立和文摘生成方法几个方面。文本分类用的是简单的贝叶斯分类方法,在特征提取的过程中,采用TF-IDF值作为特征选择的标准,并用三元组中心词来限定选取范围,达到自然降维的目的。自然语言处理的主要工作是对文本进行分词标注、句法分析、三元组提取等工作。文本结构本体的建立是选取人物描述类作为本体建模的样本,能起到代表性意义。文摘的生成方法主要是通过文本结构匹配的结果,按照逐层抽象的方法和同构信息融合的方法进行提取,这样不仅能够保留文本的重要信息,还能保证提取出的文摘的良好的可读性。 (3)多文档自动文摘的效果和评测。以人物类描述为例,从信息覆盖度、可读性和正确性三个方面,结合人工打分进行评测,自动文摘系统能达到不错的效果。用TAC会议的评测标准来进行衡量,效果也是不错的。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 王建波,杜春玲,王开铸;基于篇章理解的自动文摘研究[J];中文信息学报;1995年03期
2 郭俊文;中文科技文献自动文摘系统的研究[J];情报探索;1995年04期
3 孙春葵,钟义信;关于自动文摘系统中文摘句式的一种机器学习方法[J];计算机工程与应用;2000年05期
4 杨建林;自动文摘的逻辑解释[J];情报理论与实践;2002年02期
5 郭庆琳,樊孝忠,柳长安;文本聚类在自动文摘中的应用研究[J];计算机应用;2005年05期
6 黄河笑,郭俊文;中文科技文献自动文摘系统的研究[J];现代情报;1996年03期
7 刘挺,吴岩,王开铸;基于信息抽取和文本生成的自动文摘系统设计[J];情报学报;1997年S1期
8 刘挺,王开铸;基于篇章多级依存结构的自动文摘研究[J];计算机研究与发展;1999年04期
9 沈玮杰;基于文献结构的自动文摘的初探[J];现代图书情报技术;2002年03期
10 金博,史彦军,滕弘飞,艾景波;自动文摘技术及应用[J];计算机应用研究;2004年12期
11 王萌;李春贵;唐培和;王晓荣;;一种主题句发现的中文自动文摘研究[J];计算机工程;2007年08期
12 高小云,程慕胜;基于英文文本的自动文摘:技术与展望[J];清华大学教育研究;2002年S1期
13 黄长伟;;自动文摘技术研究现状分析[J];中外企业家;2011年14期
14 汤晓鲁;李旎;;手工文摘的评价与自动文摘的产生[J];贵图学刊;1998年02期
15 杨建林;中文自动文献系统研究[J];情报学报;2001年04期
16 黄丽琼;何中市;;基于统计语义和结构特征的自动文摘[J];广西师范大学学报(自然科学版);2006年04期
17 王开铸,李俊杰,李秀坤,吴岩,张军;自动文摘系统的历史和现状[J];电脑学习;1995年04期
18 李蕾,钟义信,郭祥昊;面向特定领域的理解型中文自动文摘系统[J];计算机研究与发展;2000年04期
19 麦范金;李东普;甘国庆;;基于指代消解的自动文摘方法研究[J];情报理论与实践;2010年10期
20 吴岩,李秀坤,王开铸;HIT-97Ⅰ型英文自动文摘系统[J];情报学报;1998年05期
中国重要会议论文全文数据库 前10条
1 王红玲;黄超超;张明慧;周国栋;;面向冗余度控制的中文多文档自动文摘[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 万敏;罗振声;郭玉箐;;自动文摘系统中的意义段划分问题研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
3 李成城;;基于修辞结构理论的自动文摘研究[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
4 王萌;何婷婷;王晓荣;;基于hownet概念获取的中文自动文摘系统[A];第二届全国学生计算语言学研讨会论文集[C];2004年
5 桂卓民;何婷婷;陈劲光;李芳;;一种面向查询的多文档自动文摘系统实现方法[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
6 郎君;刘挺;李生;张会鹏;;基于XML的开放式语言技术平台:LTP[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
7 ;哈尔滨工业大学智能技术与自然语言处理研究室简介[A];中国中文信息学会第六次全国会员代表大会暨成立二十五周年学术会议中文信息处理重大成果汇报展资料汇编[C];2006年
8 朱嫣岚;闵锦;周雅倩;黄萱菁;吴立德;;基于HowNet的词汇语义倾向计算[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
9 刘德喜;姬东鸿;;基于基本要素的文摘内容连贯性评测模型[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
10 郎君;刘挺;张会鹏;李生;;LTP:语言技术平台[A];第三届学生计算语言学研讨会论文集[C];2006年
中国博士学位论文全文数据库 前10条
1 韦福如;基于图模型多文档自动文摘研究[D];武汉大学;2009年
2 李鹏;面向主题的多文档自动文摘关键技术研究[D];上海交通大学;2013年
3 蒋昌金;基于关键词提取的中文网页自动文摘方法研究[D];华南理工大学;2010年
4 杨潇;基于生成性概率模型的句法分析和多文档自动文摘研究[D];山东大学;2009年
5 赵林;面向查询的多文档自动文摘关键技术研究[D];复旦大学;2008年
6 陈清才;基于粗集的汉语建模及其应用研究[D];哈尔滨工业大学;2003年
7 周文;基于概念的若干知识表示模型及相关方法研究[D];上海大学;2007年
8 付剑锋;面向事件的知识处理研究[D];上海大学;2010年
9 刘兴林;中文词汇知识获取算法和语义计算研究及应用[D];华南理工大学;2012年
10 赵世奇;基于统计的复述获取与生成技术研究[D];哈尔滨工业大学;2009年
中国硕士学位论文全文数据库 前10条
1 王攀;中文多文档自动文摘的研究与实现[D];北京邮电大学;2013年
2 张元虹;基于主题划分的中文单文档自动文摘系统的研究[D];昆明理工大学;2009年
3 张明慧;基于主题模型的中英文多文档自动文摘[D];苏州大学;2011年
4 张佳培;基于子主题划分和句子特征的中文文档自动文摘研究[D];重庆大学;2012年
5 孙萍;面向事件的多文档自动文摘研究[D];江苏大学;2010年
6 桂卓民;基于事件的多文档自动文摘系统的研究[D];华中师范大学;2010年
7 乔小斐;中文自动文摘关键技术的研究与实现[D];西安电子科技大学;2010年
8 江军;基于语义的自动文摘系统[D];电子科技大学;2011年
9 孟威;面向微博的自动文摘研究[D];昆明理工大学;2012年
10 刘福君;基于指代消解的自动文摘研究[D];安徽大学;2012年
中国重要报纸全文数据库 前10条
1 张伟城;中文热持续升温[N];人民日报海外版;2009年
2 张海桐;用中文把歌剧唱出来[N];人民日报海外版;2011年
3 朱珉迕;说中文和“拌洋荤”[N];解放日报;2009年
4 本报驻巴黎记者 姚立;“中文热”在法升温速度令人始料不及[N];光明日报;2010年
5 刘菲;关注特殊的学中文群体[N];人民日报海外版;2011年
6 晓阳;《选报》落户起点中文网[N];中华新闻报;2009年
7 记者钟哲 通讯员李世举;合编首部“民族版”高校中文教材[N];中国社会科学报;2010年
8 ;中文在线 “九死一生”的出版经历[N];电脑报;2010年
9 ;“汉语桥”世界大学生中文比赛举行[N];人民日报;2011年
10 记者 仇国强 通讯员 赵红蓉;苏丹雇员掀起学中文热潮[N];中国石化报;2009年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978