收藏本站
《中南大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

一种基于综合背景概念格的中文自动文摘方法

高超  
【摘要】:随着当前信息技术的发展以及Internet的普及,人们对诸如自动文摘这样的文本处理需求与日俱增。中文自动文摘研究起步较晚,加上中文自身的特点导致中文自动文摘技术成熟还尚需时日。 本文首先总结、分析了自动文摘的国内外研究现状,在此基础上,提出了一种基于概念格理论实现中文自动文摘的方法,建立了自动文摘系统框架CBCL-TAS,重点阐述了基于文本实时分割的无词典抓词算法、中文特征提取方法及文本概念格建立算法,并在实验基础上对基于该方法构造的自动文摘系统进行了评价。本文提出的自动文摘方法利用综合文本背景建立与全文对应的概念“骨架”,将对自然语言的理解转换为对文本形式背景的理解,避免了复杂的语法语义、语句相似度计算、语句联系度计算等处理。对较大规模的文本进行抓词首先需要对文本进行分割,本文提出的抓词算法动态调整文本分割段的大小,与传统的固定分割式算法相比,对于50万字以上的较大文本具有更高的处理效率。 实验结果表明,CBCL-TAS系统生成的中文文摘质量良好,尤其对于议论型体裁的文本,准确率较高。由于采用了实时分割式的抓词处理,避免了系统受到文本规模变化的影响,整体处理速度保持在较高水平。
【学位授予单位】:中南大学
【学位级别】:硕士
【学位授予年份】:2011
【分类号】:TP391.1

手机知网App
【参考文献】
中国期刊全文数据库 前10条
1 吕琳,周世斌,刘玉树;一种高性能英文词性标注器的设计与实现[J];北京理工大学学报;2005年10期
2 张楠;于波;;基于概念格的Web文本挖掘方法[J];大庆石油学院学报;2009年03期
3 陈蒲清;论世界文字发展轨迹与汉字[J];湖南师范大学社会科学学报;2001年04期
4 石琳;;不同文化背景对英汉词语发展的影响探析[J];怀化学院学报;2009年06期
5 蒋运承;王驹;周生明;汤庸;;描述逻辑εL循环术语集的混合推理[J];计算机研究与发展;2009年01期
6 师智斌;黄厚宽;;基于形式概念分析的约简数据立方体研究[J];计算机研究与发展;2009年11期
7 傅间莲;陈群秀;;一种新的自动文摘系统评价方法[J];计算机工程与应用;2006年18期
8 蒋义勇;张继福;张素兰;;基于链表结构的概念格渐进式构造[J];计算机工程与应用;2007年11期
9 韩洁;周勇;刘少辉;史忠植;;基于WWW的未登录词识别研究[J];计算机科学;2002年12期
10 余远;钱旭;钟锋;李晓瑞;;基于最大概念的概念格增量构造算法[J];计算机工程;2009年21期
【共引文献】
中国期刊全文数据库 前10条
1 高艳萍;于红;尹祥贵;綦孝姬;王春永;赵志强;;基于双数组Trie树的渔业领域分词研究[J];安徽农业科学;2008年11期
2 白雪,马垣,张小平;概念格最简子直接分解概念及算法[J];鞍山科技大学学报;2004年06期
3 胡锡衡;;正向最大匹配法在中文分词技术中的应用[J];鞍山师范学院学报;2008年02期
4 胡顺义;赵晓凡;;基于PB的汉语电子词典管理系统设计与实现[J];安阳师范学院学报;2010年05期
5 龚书;瞿有利;田盛丰;;基于语义的自动文摘研究综述[J];北京交通大学学报;2009年05期
6 廉捷;刘云;;网络舆情中的信息预处理与自动摘要算法[J];北京交通大学学报;2010年05期
7 唐振民,靳从,杨静宇;档案文献主题词微机自动标引系统[J];兵工自动化;1993年02期
8 王玉美,阮晓钢;基于人的语言认知行为的汉语文法分析专家系统[J];北京工业大学学报;2003年01期
9 罗智勇;宋柔;;基于多特征的自适应新词识别[J];北京工业大学学报;2007年07期
10 马志强;周长胜;丁维;杨娜;;校园网搜索引擎的研究与实现[J];北京机械工业学院学报;2007年01期
中国重要会议论文全文数据库 前10条
1 陈红英;;基于广义表概念树的Web服务匹配[A];第二十七届中国控制会议论文集[C];2008年
2 韩冬煦;常宝宝;;基于边界熵和卡方统计量的多领域适应性中文分词方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 王红玲;黄超超;张明慧;周国栋;;面向冗余度控制的中文多文档自动文摘[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
4 夏虹;李增智;陈彦萍;;基于概念格的语义Web服务匹配研究[A];2006年全国通信软件学术会议论文集[C];2006年
5 潘雪莲;;词频统计在词典收词中的作用[A];中国辞书论集2001[C];2001年
6 周蕾;李培峰;朱巧明;杨季文;;碎片分词与词结合提取的未登录词识别方法[A];第六届汉语词汇语义学研讨会论文集[C];2005年
7 安娜;刘海涛;侯敏;;语料库中熟语的标记问题[A];第三届全国语言文字应用学术研讨会论文集[C];2004年
8 傅思泉;;机器词典中按韵分词及虚词问题[A];江西省语言学会第五届会员大会暨2002年学术年会论文集[C];2002年
9 贺前华;徐秉铮;;神经网络在汉语自动分词中的应用[A];第二届全国人机语音通讯学术会议论文集[C];1992年
10 邹纲;刘洋;刘群;孟遥;于浩;西野文人;亢世勇;;面向Internet的中文新词语检测[A];2004年辞书与数字化研讨会论文集[C];2004年
中国博士学位论文全文数据库 前10条
1 韦福如;基于图模型多文档自动文摘研究[D];武汉大学;2009年
2 张海军;基于大规模语料的中文新词识别技术研究[D];中国科学技术大学;2011年
3 屠晓;英文地址图像识别与翻译研究[D];华东师范大学;2011年
4 唐素勤;面向语义Web的描述逻辑本体构建[D];中南大学;2011年
5 毛萌萌;引进粒计算与形式概念分析技术的认知诊断研究[D];江西师范大学;2011年
6 杨瑞龙;基于短语特征的Web文档聚类方法研究[D];重庆大学;2010年
7 侯东风;流式数据多维建模与查询关键技术研究[D];国防科学技术大学;2010年
8 鞠可一;石油价格波动对经济的影响及其预警知识库系统研究[D];南京航空航天大学;2011年
9 陈劲光;基于云模型的中文面向查询多文档自动文摘研究[D];华中师范大学;2011年
10 黄水清;非相关文献知识发现方法及在农业经济学中的应用[D];南京农业大学;2010年
中国硕士学位论文全文数据库 前10条
1 胡志敏;互联网文本自动文摘技术的研究[D];湘潭大学;2010年
2 吴世汉;面向查询的XML文本摘要技术[D];江西财经大学;2010年
3 冯晶晶;面向软件测试领域的自动问答系统[D];河南理工大学;2010年
4 孙萍;面向事件的多文档自动文摘研究[D];江苏大学;2010年
5 史迎馨;建筑图中有限自然语言的分析与理解的研究[D];长春工业大学;2010年
6 马宝辉;分布式格属性挖掘研究[D];长春工业大学;2010年
7 岂欣;移动网格安全策略存储机制研究[D];长春工业大学;2010年
8 李丹;基于规则与统计的汉语自动分词研究[D];长春工业大学;2010年
9 梁桢;基于尾字词典的逆向回溯中文分词技术研究[D];武汉工业学院;2010年
10 司圣涛;领域知识库的构建方法及其应用研究[D];昆明理工大学;2009年
【二级参考文献】
中国期刊全文数据库 前10条
1 张德鑫;“水至清则无鱼”——我的新生词语规范观[J];北京大学学报(哲学社会科学版);2000年05期
2 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
3 王秀坤,李政,简幼良,刘剑;基于Hash方法的机器翻译词典的组织与构造[J];大连理工大学学报;1996年03期
4 瞿锋;陈纪元;;汉语自动分词算法综述[J];福建电脑;2006年04期
5 张继福;张素兰;蒋义勇;;基于约束概念格的天体光谱局部离群数据挖掘系统[J];光谱学与光谱分析;2009年02期
6 董辉;马垣;沈文轩;宫玺;汤新明;;基于交集为空的概念格批处理生成算法[J];广西师范大学学报(自然科学版);2007年04期
7 刘秉权,王晓龙;一种面向用户的语言模型及其机器学习方法[J];哈尔滨工业大学学报;2004年02期
8 吴传飞;中国网络语言研究概观[J];湖南师范大学社会科学学报;2003年06期
9 张放;;刍议汉语特色及法国的汉语教学[J];吉林华侨外国语学院学报;2006年01期
10 张文修,魏玲,祁建军;概念格的属性约简理论与方法[J];中国科学E辑:信息科学;2005年06期
中国博士学位论文全文数据库 前2条
1 谢志鹏;基于概念格模型的知识发现研究[D];合肥工业大学;2001年
2 陈清才;基于粗集的汉语建模及其应用研究[D];哈尔滨工业大学;2003年
【相似文献】
中国期刊全文数据库 前10条
1 郭燕慧,钟义信,马志勇,姚均勇;自动文摘综述[J];情报学报;2002年05期
2 王建波,杜春玲,王开铸;基于篇章理解的自动文摘研究[J];中文信息学报;1995年03期
3 郭俊文;中文科技文献自动文摘系统的研究[J];情报探索;1995年04期
4 杨建林;自动文摘的逻辑解释[J];情报理论与实践;2002年02期
5 郭庆琳,樊孝忠,柳长安;文本聚类在自动文摘中的应用研究[J];计算机应用;2005年05期
6 黄河笑,郭俊文;中文科技文献自动文摘系统的研究[J];现代情报;1996年03期
7 刘挺,吴岩,王开铸;基于信息抽取和文本生成的自动文摘系统设计[J];情报学报;1997年S1期
8 沈玮杰;基于文献结构的自动文摘的初探[J];现代图书情报技术;2002年03期
9 金博,史彦军,滕弘飞,艾景波;自动文摘技术及应用[J];计算机应用研究;2004年12期
10 高小云,程慕胜;基于英文文本的自动文摘:技术与展望[J];清华大学教育研究;2002年S1期
中国重要会议论文全文数据库 前10条
1 王红玲;黄超超;张明慧;周国栋;;面向冗余度控制的中文多文档自动文摘[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 万敏;罗振声;郭玉箐;;自动文摘系统中的意义段划分问题研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
3 李成城;;基于修辞结构理论的自动文摘研究[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
4 王萌;何婷婷;王晓荣;;基于hownet概念获取的中文自动文摘系统[A];第二届全国学生计算语言学研讨会论文集[C];2004年
5 桂卓民;何婷婷;陈劲光;李芳;;一种面向查询的多文档自动文摘系统实现方法[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
6 刘德喜;姬东鸿;;基于基本要素的文摘内容连贯性评测模型[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
7 王萌;王晓荣;李春贵;唐培和;;基于局部与全局信息的自动文摘算法[A];广西计算机学会2007年年会论文集[C];2007年
8 李立燕;杨国纬;;中文自动文摘系统研究[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
9 李芳;何婷婷;;面向查询的多模式自动摘要研究[A];第五届全国青年计算语言学研讨会论文集[C];2010年
10 ;哈尔滨工业大学智能技术与自然语言处理研究室简介[A];中国中文信息学会第六次全国会员代表大会暨成立二十五周年学术会议中文信息处理重大成果汇报展资料汇编[C];2006年
中国重要报纸全文数据库 前2条
1 ;浙江天宇信息技术有限公司[N];中国计算机报;2009年
2 张雪峰;信息检索技术的新视角[N];中华读书报;2005年
中国博士学位论文全文数据库 前10条
1 韦福如;基于图模型多文档自动文摘研究[D];武汉大学;2009年
2 李鹏;面向主题的多文档自动文摘关键技术研究[D];上海交通大学;2013年
3 张琳;基于引用聚类的多文档自动文摘技术研究[D];大连海事大学;2013年
4 蒋昌金;基于关键词提取的中文网页自动文摘方法研究[D];华南理工大学;2010年
5 杨潇;基于生成性概率模型的句法分析和多文档自动文摘研究[D];山东大学;2009年
6 陈清才;基于粗集的汉语建模及其应用研究[D];哈尔滨工业大学;2003年
7 赵林;面向查询的多文档自动文摘关键技术研究[D];复旦大学;2008年
8 周文;基于概念的若干知识表示模型及相关方法研究[D];上海大学;2007年
9 刘兴林;中文词汇知识获取算法和语义计算研究及应用[D];华南理工大学;2012年
10 陈莉萍;英汉语篇结构标注理论与实践[D];上海外国语大学;2007年
中国硕士学位论文全文数据库 前10条
1 孟威;面向微博的自动文摘研究[D];昆明理工大学;2012年
2 张瑞玲;教学资源自动文摘系统的研究与设计[D];北京交通大学;2014年
3 孟庆富;生物医学多文档自动文摘系统设计与实现[D];哈尔滨工业大学;2010年
4 张元虹;基于主题划分的中文单文档自动文摘系统的研究[D];昆明理工大学;2009年
5 张明慧;基于主题模型的中英文多文档自动文摘[D];苏州大学;2011年
6 祝振媛;基于信息分类的网络书评多文档自动文摘研究[D];南京大学;2013年
7 王攀;中文多文档自动文摘的研究与实现[D];北京邮电大学;2013年
8 谢静芝;面向循证医学的多文档自动文摘技术研究[D];大连海事大学;2010年
9 桂卓民;基于事件的多文档自动文摘系统的研究[D];华中师范大学;2010年
10 付红艳;Web多文档自动文摘研究[D];哈尔滨工程大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026