收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于ICVSM的摘要抽取算法研究

郭志兵  
【摘要】:摘要抽取是应对现代信息化社会而产生的一种信息提炼技术,它从大篇幅的文本中快速、准确地抽取出能够表达文本主题意思的句子生成文摘,为人们高效获取有用信息提供帮助。本文首先介绍摘要抽取的研究现状及相关技术;然后针对统计和语义相结合类型的中文摘要抽取算法存在的不足,提出一种改进的摘要抽取算法。新算法从以下两方面对原有算法进行了改进。 针对汉语词语的多义性问题,本文提出一种词义排歧的改进算法。该算法先利用知网和训练语料建立义原同现频率数据库,作为词义排歧的依据;在计算待排歧词各义项与上下文特征词的相关系数时,考虑对表达语义能力不同的四类义原的对应关系,并且考虑两个影响词语语义表达的距离因素:特征词与待排歧词之间的空间距离;最近选择该义项的同形歧词与待排歧词之间的空间距离。 针对概念向量空间模型中项之间的独立性问题,本文基于聚类思想提出一种模糊的概念等价类划分算法。该算法从现实意义出发,对那些在表达语义上没有明显区别、相似度很大的概念,进行等价类划分,合并为概念集合,以概念集合代替单独的概念作为向量空间模型的项,用改进的概念向量空间模型表示文本,进而更准确地对文本进行量化,以便生成更为精简的摘要。 最后本文开发了相应的实验系统,对提出的基于ICVSM(改进概念向量空间模型)的摘要抽取算法进行了实验验证。实验结果表明,改进后的算法较以往的算法,在对歧义词排歧的准确率和召回率上均有相应的提高,并且使生成的摘要在质量上也有所改进。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 刘亚清;于纯妍;张瑾;;改进的基于义原同现频率的汉语词义排歧方法[J];计算机工程与科学;2006年12期
2 张瑾;刘亚清;于纯妍;;汉语词义排歧的另一种方法[J];小型微型计算机系统;2006年04期
3 郭志兵;黄广君;卢朝华;;一种改进的词义排歧算法[J];计算机工程与应用;2010年19期
4 张国清,张永奎;一种基于神经网络的词义排歧方法[J];计算机工程;2001年12期
5 冯志伟;词义排歧方法研究[J];术语标准化与信息技术;2004年01期
6 葛瑞芳,李涓子;一个汉语词义自动标注系统的设计与实现[J];计算机工程与应用;2001年17期
7 张宝剑;一种基于无指导的词义排歧方法[J];河南职业技术师范学院学报;2002年01期
8 李涓子,黄昌宁,杨尔弘;一种自组织的汉语词义排歧方法[J];中文信息学报;1999年03期
9 玉素甫·艾白都拉;维语句法分析器中的词义排歧问题的研究[J];计算机应用与软件;2002年04期
10 谈文蓉;符红光;刘莉;杨宪泽;;一种基于贝叶斯分类与机读词典的多义词排歧方法[J];计算机应用;2006年06期
11 李伯约;白若冰;刘井玉;姜妮;向健雄;;基于英汉平行语料库的汉语信息处理研究[J];外国语言文学研究;2004年04期
12 杨尔弘,张国清,张永奎;基于义原同现频率的汉语词义排歧方法[J];计算机研究与发展;2001年07期
13 赵晨光;蔡东风;;基于改进的VSM的词义排歧策略[J];计算机应用;2010年06期
14 刘冬明,杨尔弘,方莹;汉英双语平行语料库的词义标注[J];中文信息学报;2005年06期
15 卢志茂;刘挺;李生;;基于无指导机器学习的全文词义自动标注方法[J];自动化学报;2006年02期
16 肖建涛;张仰森;谢宇;;面向汉语词义自动标注研究的软件平台开发[J];北京机械工业学院学报;2007年03期
17 李朝虹,陆建湖;现代汉语自动分析研究现状综述[J];广西教育学院学报;2003年01期
18 段绮丽;常识推理在机器翻译词义排歧中的应用[J];中央民族大学学报(自然科学版);2004年02期
19 李涓子,黄昌宁;基于转换的无指导词义标注方法[J];清华大学学报(自然科学版);1999年07期
20 秦春秀;赵捧未;刘怀亮;;词语相似度计算研究[J];情报理论与实践;2007年01期
中国重要会议论文全文数据库 前10条
1 王宏显;周强;;句法特征在动词词义排歧中的应用[A];第五届全国青年计算语言学研讨会论文集[C];2010年
2 刘冬明;杨尔弘;;基于汉英双语平行语料库的词义排歧[A];第二届全国学生计算语言学研讨会论文集[C];2004年
3 杨晓峰;李堂秋;洪青阳;;汉英机器翻译系统中的一种词义排歧方法[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
4 杨尔弘;米丽萍;郝秀兰;;基于《知网》的词义排岐方法[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
5 杨尔弘;李盛;;面向真实文本的汉语词义排歧模型研究[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
6 卢伟清;苏新春;;词义开放处理平台的研究和实现[A];第六届汉语词汇语义学研讨会论文集[C];2005年
7 张仰森;俞士汶;段惠明;吴云芳;;汉语词义自动标注研究软件平台的设计与实现[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
8 王智超;季铎;蔡东风;张桂平;;文本聚类中基于知网的特征抽取方法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
9 王红玲;吕强;徐瑞;;一种基于知网的中文语义相关度计算模型[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
10 曲维光;董宇;陈钟;陈小荷;;基于语境计算模型的词义消歧[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
中国硕士学位论文全文数据库 前5条
1 郭志兵;基于ICVSM的摘要抽取算法研究[D];河南科技大学;2009年
2 刘冬明;汉英双语平行语料库中对齐方法的研究[D];山西大学;2004年
3 李盛;面向真实文本的汉语词义排歧系统[D];山西大学;2003年
4 刘风成;基于AdaBoost.MH算法的汉语多义词消歧[D];大连理工大学;2006年
5 何夏燕;基于汉语概念图的词汇语义相似度计算[D];上海交通大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978