收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于同义词词林的自动文摘系统的研究

杨乐  
【摘要】: 进入20世纪90年代,随着互联网的迅猛发展,信息的爆炸式增长满足了人们对信息需求的同时,也使人们快速、准确地找到真正需要的信息变得更加困难。自动文摘是解决这一问题的一种非常有效的技术,因此目前成为了人们日益关注的研究热点。 本文首先介绍了自动文摘的发展历史与研究现状,并说明了目前几种主要的自动文摘系统模型和方法:基于统计的机械文摘、基于理解的文摘、基于篇章结构的自动文摘以及它们的研究处理过程,对它们的优点和缺点进行了讨论,归纳出各自的特点。 接着本文对自然语言处理的技术基础进行了阐述。介绍了语料库的发展现状,并对本文所采用的来自北大计算语言研究所标注的《人民日报》语料库进行了说明,在其基础上进行了词典的建立,以及词性转移概率统计;介绍了本文采用的分词切分方法:正向、逆向以及双向结合得方法;针对出现的交集型切分歧义,本文采用基于互信息的消歧方法,并通过对语料库中歧义现象的统计建立了歧义信息统计表,避免了对整个语料库的重复搜索,提高了消歧的效率;词性标注方面,本文介绍了马尔科夫相关模型,借助其特征转移的性质对已切分完毕的语句进行标注,取得了很好的效果。 随后,本文利用同义词词林进行了词语概念的提取,构建文本概念的向量空间,并利用相似度的理论计算出其中的参数值,即段落重要度,从而在此基础上计算出了句子的重要度,最后利用fisher分类方法对重要度较高的语句进行提取,从而形成文摘。 本文尝试将句子格作为描述句子的特征,在句法依存的基础上进行格的提取,提出了粗糙集的决策方案,并进行了探索性工作。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 韩月阳;邓世昆;贾时银;李远方;;基于字分类的中文分词的研究[J];计算机技术与发展;2011年07期
2 常青;马营涛;;基于片词模糊匹配技术的在线考试系统[J];煤炭技术;2011年09期
3 郭崇慧;张艳昌;;基于率失真理论的模糊聚类模型与算法[J];情报学报;2011年08期
4 韩敏;梁志平;;改进型平均移位柱状图估算概率密度并对互信息作相关分析[J];控制理论与应用;2011年06期
5 朱颢东;李红婵;;基于互信息和粗糙集理论的特征选择[J];计算机工程;2011年15期
6 王水利;黄广君;霍亚格;;基于语义分析的查询扩展方法[J];计算机工程;2011年16期
7 龙志祎;程葳;;基于词聚类的热点话题检测算法[J];计算机工程与设计;2011年06期
8 霍亚格;黄广君;;基于最大熵的汉语短语结构识别方法[J];计算机工程;2011年16期
9 赵珊;高国红;赵倩;;结合边缘信息的图像检索技术[J];小型微型计算机系统;2011年07期
10 沈友文;赵新建;徐俊;;一种改进的集中度和分散度文本特征选择算法[J];计算机应用与软件;2011年09期
11 王丽娟;章辉;;通讯访问约束条件下线性随机系统的状态可估计性[J];控制理论与应用;2011年09期
12 张净;孙志挥;宋余庆;倪巍伟;晏燕华;;基于信息论的高维海量数据离群点挖掘[J];计算机科学;2011年07期
13 何敏;章兢;王炼红;晏敏;陈华;;基于信息熵和组合纹理特征的熟料状态检测[J];仪器仪表学报;2011年08期
14 方志龙;;文本特征选择算法MI的改进[J];计算机与现代化;2011年07期
15 许光;;一种综合考虑目标检测与估计的波形设计方法[J];现代雷达;2011年07期
16 张倩;朱虹;郑丽敏;王奇文;;几种相似性测度在小鼠序列图片中的应用对比[J];计算机应用;2011年S1期
17 袁里驰;;基于词聚类的依存句法分析[J];中南大学学报(自然科学版);2011年07期
18 袁江南;石江宏;陈辉煌;;基于复数ICA的无线直放站反馈干扰抵消算法[J];解放军理工大学学报(自然科学版);2011年03期
19 丁菊玲;勒中坚;;基于观点树的网络舆情危机预警方法[J];计算机应用研究;2011年09期
20 张国梁;肖超锋;;基于SVM新闻文本分类的研究[J];电子技术;2011年08期
中国重要会议论文全文数据库 前10条
1 龙旭霞;李洪东;范伟;许青松;梁逸曾;;基于互信息的模型集群分析变量选择方法研究[A];中国化学会第28届学术年会第14分会场摘要集[C];2012年
2 周晓;李超;胡明涵;王会珍;;基于人物互斥属性的中文人名消歧[A];第六届全国信息检索学术会议论文集[C];2010年
3 李丽;孙甲申;王小捷;李江;宋占江;;基于属性信息的中文人名消歧[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
4 孙慧;关毅;董喜双;;中文情感词倾向消歧[A];第六届全国信息检索学术会议论文集[C];2010年
5 宗仁鹤;朱祥胜;刘良成;曾钢燕;;基于互信息的医学图像配准[A];全国第16届计算机科学与技术应用(CACIS)学术会议论文集[C];2004年
6 时迎超;王会珍;肖桐;胡明涵;;面向人名消歧任务的人名识别系统[A];第六届全国信息检索学术会议论文集[C];2010年
7 丁海波;肖桐;朱靖波;;基于多阶段的中文人名消歧聚类技术的研究[A];第六届全国信息检索学术会议论文集[C];2010年
8 周云;王挺;易绵竹;王之元;;全词消歧的序列标注方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
9 王芳;万常选;;基于互信息的中文完整词自动识别模型[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年
10 安镇文;张乃玲;;地震活动的互信息研究[A];中国地震学会第九次学术大会论文摘要集——纪念李善邦先生百年诞辰[C];2002年
中国博士学位论文全文数据库 前10条
1 时永刚;广义距离度量和多模态图像配准技术研究[D];中国科学院研究生院(电子学研究所);2004年
2 史玉峰;数字信息模式识别理论及其应用[D];山东科技大学;2003年
3 强保华;异构数据库语义集成技术研究[D];重庆大学;2005年
4 杨金宝;基于灰度相似性测度的医学图像配准技术研究[D];山东大学;2008年
5 张桦;场景图像拼接关键技术研究[D];天津大学;2008年
6 赵建平;医学图像处理若干关键问题研究[D];长春理工大学;2008年
7 刘华文;基于信息熵的特征选择算法研究[D];吉林大学;2010年
8 郑春厚;独立分量分析算法及其应用研究[D];中国科学技术大学;2006年
9 胡旺;图像融合中的关键技术研究[D];四川大学;2006年
10 侯丽珍;量子噪声通道中的信息传送[D];湖南师范大学;2007年
中国硕士学位论文全文数据库 前10条
1 胡学友;盲信号分离技术及其应用研究[D];合肥工业大学;2003年
2 罗棻;医学图象的配准及融合技术研究[D];电子科技大学;2003年
3 关菁华;基于依赖分析的贝叶斯网络结构学习和分类器的研究与实现[D];吉林大学;2005年
4 陈雅菊;现代汉语词语搭配的自动抽取方法[D];华东师范大学;2006年
5 朱祥胜;基于互信息法的多模医学图像配准研究[D];合肥工业大学;2005年
6 邓雁城;数字水印的安全性研究[D];北京邮电大学;2006年
7 王蕾;基于互信息网络模型的冰雹回波时间序列知识发现[D];天津大学;2008年
8 杨打生;特征选择的信息论算法研究[D];东南大学;2005年
9 夏召红;基于小波变换的图像配准[D];辽宁科技大学;2008年
10 汪春芳;基于互信息的医学图像配准方法研究[D];华中科技大学;2008年
中国重要报纸全文数据库 前10条
1 张素芳 译 陈永伶 校;《消歧公约》面临新挑战[N];中国妇女报;2000年
2 北京科技大学法律系副教授 王竹青;《消歧公约》与中国司法实践[N];中国妇女报;2010年
3 本报记者木佳;私企难入农业科研门[N];中华工商时报;2003年
4 本报记者 王春霞;性别平等有助实现全面建设和谐社会[N];中国妇女报;2007年
5 本报记者 胡京春;跳出农业抓农业[N];人民政协报;2003年
6 傅燕;呼吁两会更多关注性别平等话题[N];中国妇女报;2007年
7 薛宁兰;我国妇女人权与法律的回顾和展望[N];中国社会科学院院报;2005年
8 谢虹;今春,民工返城不见“潮”[N];江苏经济报;2005年
9 水兵;助力珠峰攀登[N];中国计算机报;2003年
10 夏吟兰;在妇女人权框架下研究家庭暴力[N];法制日报;2004年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978