收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

面向文本分类任务的主题强化词句嵌入模型研究

邢宁  
【摘要】:近年来,深度学习在自然语言处理领域受到了更多的重视,基于深度学习的神经语言模型和词句嵌入模型相继被提出,这类模型以其高准确率、低复杂度的优点被学术界和工业界广泛研究和应用。然而,将原本依赖语言模型分布假设的词句嵌入模型直接用于文本分类等任务,显然是不合适的,因为文本分类任务所需要的是高极性的主题特征,而原词句嵌入模型只是单纯的捕捉语言规律,没有重视主题信息的挖掘。为了使基于深度学习的词句嵌入模型更加适合应用到文本分类任务中,本文对原模型进行主题强化,提出了主题强化的词句嵌入模型,期望获得更高的文本分类性能。由于语义极性相反的单词可能拥有相似的局部上下文,而原模型只利用局部上下文训练该单词的分布式嵌入表示,是无法捕捉到具有相反极性的语义的。因此,本文提出用高阶纯依赖建模词句嵌入模型中的长程上下文,从而加强词句分布式嵌入表示的情感或者主题信息,进而提高情感分析和主题挖掘任务的性能。高阶纯依赖方法有严格的理论依据保证长程上下文单词间的依赖是“纯”的,即单词依赖是一个完整的语义实体,并且单词的联合概率分布不能够被条件分解(当然也不能被非条件分解)。这样保证了高阶的单词依赖不能够分解成几个低阶依赖的随机共现,从而高阶纯依赖可以有效地建模出语义丰富的、非歧义的主题信息。本文将主题强化的词句嵌入模型应用到基于标准数据集的情感分析和主题挖掘任务中,均超过了所有现有模型的性能。在中文新闻语料的分类项目中,与词袋模型、LDA主题模型特征作对比,分别应用了线性和非线性分类器,从多角度调研了其分类结果,证明了主题强化的词句嵌入模型完全可以与现有主流文本特征提取方法相竞争。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 李天铎;利用塑料模型设计高技术产品[J];管理科学文摘;1999年02期
2 高俊波;安博文;王晓峰;;在线论坛中潜在影响力主题的发现研究[J];计算机应用;2008年01期
3 吴玲达,谢毓湘,栾悉道,肖鹏;互联网多媒体主题信息自动收集与处理系统的研制[J];计算机应用研究;2005年05期
4 常跃中;;计算机在建筑模型设计中的应用[J];中国科技信息;2006年02期
5 王灏,王换招,刘洪斐;一个分布式入侵检测系统模型的设计[J];微机发展;2003年01期
6 蒋凡,高俊波,张敏,王煦法;BBS中主题发现原型系统的设计与实现[J];计算机工程与应用;2005年31期
7 刘洪星;陈明;;PowerDesigner设计XER模型的方法[J];武汉理工大学学报(信息与管理工程版);2006年02期
8 ;其它计算机与系统[J];电子科技文摘;2003年01期
9 ;TV Game秀[J];网络与信息;2004年01期
10 周亦鹏;杜军平;;基于时空情境模型的主题跟踪[J];华南理工大学学报(自然科学版);2012年08期
11 李波,赵文娟,李震;基于扩充关系模型的MDBMS研究[J];武警工程学院学报;2004年04期
12 华镕;;基于模型设计的控制程序自动生成[J];国内外机电一体化技术;2010年06期
13 秦春影;喻红兰;喻晓锋;;随机选题模型设计与分析[J];现代计算机(专业版);2008年02期
14 陈婷婷;田文军;殷安会;刘朝红;;数据模型设计模式及应用[J];内江科技;2012年10期
15 郭丹;刘杰;;基于模型设计与传统方式的联合设计开发[J];单片机与嵌入式系统应用;2012年09期
16 华镕;;基于模型设计的控制程序自动生成[J];软件;2010年05期
17 沈国华;黄志球;钱巨;徐拥军;郝进;赵文耘;彭鑫;;软件可信评估模型及其工具实现[J];计算机科学与探索;2011年06期
18 陈雄;都云程;李渝勤;施水才;;基于页面结构分析的论坛主题信息定位方法研究[J];微计算机信息;2010年27期
19 吴玉军;多媒体模型设计[J];广西科学;1995年03期
20 姜莉;;基于XML技术的多Agent模型的设计与实现[J];科技经济市场;2007年05期
中国重要会议论文全文数据库 前10条
1 马智;杜雪涛;罗枫;;基于模式的网络资源模型设计[A];中国通信学会信息通信网络技术委员会2009年年会论文集(上册)[C];2009年
2 张霖;;面向复杂系统仿真的模型工程[A];新观点新学说学术沙龙文集58:复杂系统建模仿真中的困惑和思考[C];2011年
3 吴晨;宋丹;薛德军;师庆辉;;科技主题识别及表示[A];第五届全国信息检索学术会议论文集[C];2009年
4 熊方;王晓宇;郑骏;周傲英;;ITED:一种基于链接的主题提取和主题发现系统[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
5 王玉婷;杜亚军;涂腾涛;;基于Web链接的主题爬行虫初始URL的研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
6 李洪波;;从业务需求分析到软件业务模型设计[A];创新驱动,加快战略性新兴产业发展——吉林省第七届科学技术学术年会论文集(上)[C];2012年
7 宁晓莉;尤扬;葛培勤;;基于状态的Fuzz测试模型设计与实现[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年
8 李韬;周亮;;一种多属性识别的模型设计[A];2008年中国西部青年通信学术会议论文集[C];2008年
9 鲍培明;;XML的语义结构模型设计[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
10 冯少卿;都云程;施水才;;基于模板的网页主题信息抽取[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
中国博士学位论文全文数据库 前8条
1 余化鹏;复杂场景下的目标检测技术研究[D];电子科技大学;2015年
2 杨肖;基于主题的互联网信息抓取研究[D];浙江大学;2014年
3 马威;云计算环境中高保证隔离模型及关键技术研究[D];北京交通大学;2016年
4 赵一鸣;基于多维尺度分析的潜在主题可视化研究[D];华中师范大学;2013年
5 吴永辉;面向专业领域的网络信息采集及主题检测技术研究与应用[D];哈尔滨工业大学;2010年
6 薛利;面向证券应用的WEB主题观点挖掘若干关键问题研究[D];复旦大学;2013年
7 陶军;基于非合作博弈模型的QoS分配中关键技术的研究[D];东南大学;2005年
8 周厚奎;概率主题模型的研究及其在多媒体主题发现和演化中的应用[D];浙江大学;2017年
中国硕士学位论文全文数据库 前10条
1 邢宁;面向文本分类任务的主题强化词句嵌入模型研究[D];天津大学;2016年
2 葛丽娟;基于出租汽车运营数据的交通基础模型研究及计算[D];长安大学;2015年
3 刘轩;最优统计套利模型[D];上海交通大学;2015年
4 郑茂;篇章级联想模型的研究与实现[D];哈尔滨工业大学;2015年
5 解琰;主题优化过滤方法研究与应用[D];大连海事大学;2015年
6 杨春艳;基于语义和引用加权的文献主题提取研究[D];浙江大学;2015年
7 卢洋;基于主题模型的混合推荐算法研究[D];电子科技大学;2014年
8 黄志;基于维基歧义页的搜索结果聚类方法研究[D];北京理工大学;2015年
9 王亮;基于主题模型的文本挖掘的研究[D];大连理工大学;2015年
10 任昱凤;基于Hadoop的分布式主题爬虫及其实现[D];陕西师范大学;2015年
中国重要报纸全文数据库 前5条
1 关石;层次化模型[N];计算机世界;2001年
2 本报记者 刘玉杰;模型艺术:寓于建筑 超越建筑[N];建筑时报;2003年
3 邱桂奇;品筑模型:创新第一 服务制胜[N];中国房地产报;2012年
4 记者 李鹏;邬荣领:能预测生物未来的人[N];北京科技报;2012年
5 记者 沙星海 见习记者 毛玺玺;一大学生开发出解决业内难题软件[N];平顶山日报;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978