收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于词向量模型特征空间优化的同义词扩展研究与应用

张为泰  
【摘要】:近年,互联网快速发展,网络中文本信息也呈现指数级的增长。各种社交网络在交流中的使用,使得词语的含义不断变化,不断丰富。随着网络中新鲜词语、旧词新用以及语言不规范使用等现象的出现,在信息检索、自然语言处理、文本挖掘等领域中,词语相关度计算特别是同义词扩展等基础任务的重要性愈发凸显。 在信息检索和自然语言处理等领域中,同义词扩展一直是一个基础而关键的任务,包括文本聚类,频繁项集挖掘,主题模型等多种方法在同义词扩展上有着良好的效果。除了基于统计的方法,基于规则的方法,人工同义词词典等也是同义词扩展重要研究成果。随着近年深度学习方法在图像处理,语音处理等方向上取得惊人的成果,如何将其优势体现在自然语言处理任务上一直是诸多研究者们研究的重点方向。 本文基于深度学习和词向量在自然语言处理上的研究成果,进行同义词扩展方向的创新性研究和应用。基于目前大数据的特征和词语同义特性,本文主要研究问题是如何在给定的种子词集中,从海量文本中扩展出具有与词集中各词具有相同语义和语法信息的词语。针对前述问题,本文主要完成以下重点工作: 第一,实验并对比分析了多种常用的词表示方法和词语相似度计算算法,包括稀疏向量表示方法,基于主题模型的表示方法,基于wAF的表示方法等,并针对各种方法进行实验从而判断优劣。 第二,实现并改进了基于word embedding的词向量表示法,并实现了基本的同义词扩展算法。主要采用CW提出的神经网络模型和word2vec工具包进行词向量的训练,以及词语相似度的计算实验。 第三,提出将词向量与词语语法特征结合的特征优化方法,以及基于特征空间变换的词向量空间优化算法。基于词向量学习出种子词集中各词具有的共同语义,对种子词集词向量进行特征空间变换,并由此扩展出具有相同含义的词语。本文创新地将词向量与目前先进的词语信息标注方法,如POS, NER, parser等结合,并采用负抽样等方法,加强模型的准确性和健壮性。该模型方法与word2vec和WordNet同义词词典的实验比较结果显示,本算法在同义词扩展上有着更优秀的表现。 第四,将上述核心算法应用在微博短文本分类,TREC KBA评测等项目中,并取得了良好的效果。在微博分类中,由于文本过短、不规范和信息缺失等原因,导致分类效果不好;而本文可以有效地进行特征扩展,从而增加特征,提高分类准确度。本方法应用于查询扩展任务时,将有效提高信息检索的召回率等。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 贾品贵;杨一平;卢朋;;基于类向量模型的中文姓名识别研究[J];计算机应用研究;2007年04期
2 陈方园;;网络话题发现技术的研究[J];科协论坛(下半月);2011年02期
3 殷耀明;张东站;;基于关系向量模型的句子相似度计算[J];计算机工程与应用;2014年02期
4 胡正平,张晔;带拒识能力的双层支持向量模型分类器[J];电子学报;2005年07期
5 张辉;周敬民;王亮;赵莉萍;;基于三维文档向量的自适应话题追踪器模型[J];中文信息学报;2010年05期
6 蒋宗礼;鲁国相;;MatchLink:一种主题爬行方法[J];北京工业大学学报;2007年11期
7 高飞;鱼江;任芳;黄保瑞;次旺多吉;;四维文档向量模型的k-means新闻文本聚类算法[J];西藏大学学报(自然科学版);2013年01期
8 周彩兰;王鹏;;基于空间向量模型的用户建模算法改进[J];计算机与数字工程;2010年02期
9 史敏军;;基于个性化服务的教学系统研究[J];中国科技信息;2009年22期
10 赵恒;白晓;刘沁源;;基于微博的学生学习资源推荐系统的构建[J];现代计算机(专业版);2014年02期
11 王法松;张林让;周宇;;压缩感知的多重测量向量模型与算法分析[J];信号处理;2012年06期
12 魏振达;阳小华;刘军;;成员搜索引擎的查询参数表达能力的建模设计[J];南华大学学报(自然科学版);2005年04期
13 ;[J];;年期
14 ;[J];;年期
15 ;[J];;年期
16 ;[J];;年期
17 ;[J];;年期
18 ;[J];;年期
19 ;[J];;年期
20 ;[J];;年期
中国重要会议论文全文数据库 前2条
1 王会珍;朱靖波;季铎;张斌;;基于多向量模型的中文话题追踪[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
2 罗辛;邰晓英;Masami Shishibori;Kenji Kita;;一个基于向量模型转换的图像反馈检索方法[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
中国硕士学位论文全文数据库 前5条
1 宁浪;改进空间向量模型及其在文档自动分类系统中的应用[D];西南交通大学;2009年
2 黄泽明;基于主题模型的学术论文推荐系统研究[D];大连海事大学;2013年
3 疏兴旺;基于地理本体的皖江岸线空间规划决策研究[D];安徽农业大学;2012年
4 孙亮;基于分类控制识别的业务预警应用[D];电子科技大学;2012年
5 张为泰;基于词向量模型特征空间优化的同义词扩展研究与应用[D];北京邮电大学;2015年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978