收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于主题模型的文本情感和话题建模的研究

徐康  
【摘要】:随着互联网的快速发展以及社交媒体的崛起,用户生成的大量文本等数据日积月累,其中,包含篇幅较长的新闻文本、篇幅不一的评论文本以及篇幅较短的社交媒体文本,例如,微博、推特文本。新闻文本之类的文本一般描述重大事件、科学发现等内容,虽然单一文档中包含信息量大,但是文档涉及话题比较固定。评论文本中包含大量用户对评价对象的主观评价,虽然文本长度不一,但是包含的信息相对丰富。不同于新闻之类的文本和评论数据,虽然单条微博文本长度较短且信息量少,但是更新速度快,数据规模大,涉及领域广。这些海量的文本数据中包含大量有实用价值的信息。但是如何挖掘这些文本中隐藏的语义结构信息是目前自然语言处理和文本检索领域的一大研究难点。主题模型是一种比较热门且有效的方法,该方法通过词语之间在文档中的高阶共现模式挖掘文本中的语义结构信息。主题模型的技术已经应用到各个研究领域并且取得了不错的成果。本文以新闻文本、评论文本、微博文本三种不同的文本为实际应用背景,对于话题建模以及情感相关的话题建模展开了研究。因为新闻文本中一般包含客观的话题信息,而评论文本和微博文本中包含大量的情感信息,因此,本文针对新闻文本只建模话题信息(不考虑文本的情感信息),而针对评论数据和微博文本则建模话题和情感两种信息。本文的工作主要基于生成式主题模型,用改进的生成主题模型抽取文本的话题或者情感相关的话题。其中,现有的针对新闻文本的主题模型和针对评论文本的情感主题模型,并没有合理地考虑文本中词语或者实体之间包含的语义知识。同时,现有的工作并没有针对短文本的情感和话题建模提出有效的模型。为了解决上述的问题,本文重点研究话题建模或者情感相关的话题建模中的三个重要的问题:融合知识库中的语义知识建模新闻文本的话题,融合词语之间的语义知识建模评论数据中的情感和话题以及融合用户和时间信息建模微博短文本的情感和话题。具体研究内容如下:(1)本文分析现有的话题建模方法在新闻文本中的不足,即单纯依靠语料中词语之间的高阶共现模式建模话题。当语料中的有些词语没有充分的共现模式,主题模型不能很好地挖掘它们的语义信息。为了克服这一问题,本文研究一种融合维基百科知识到新闻文本中的主题模型,也就是利用外界知识库中的概念和分类知识弥补文本中词语共现模式不足的问题。本文提出一种维基百科知识主题模型(WCM-LDA)。WCM-LDA模型同时建模文本中的词语和实体,并且引入了实体在知识库中对应的概念和分类知识,因此WCM-LDA模型可以缓解建模话题时词语共现模式不足的问题。另外,WCM-LDA模型输出每个话题的词语、概念和分类,可以更加直观地展示每个话题。(2)在评论数据中词语之间的先验语义关系对于情感相关的话题建模同样尤为重要,但是现有的情感主题模型只能通过共现模式挖掘词语之间的语义关系,有些词语在小规模的数据集中没有充分的共现模式同样会导致情感和话题建模的质量不佳。不同于前面的新闻文本中包含了大量实体,可以引入实体对应的知识。评论数据中更多的是评论对象的属性词或者评价词,建模评论文本的情感和话题时,更需要引入的知识是属性词或者评论词语之间的语义关系。因此,本文研究一种引入外界的词向量,来构建词语之间的先验语义关系,这样缓解有些词语共现模式不足的问题从而有效地提升情感和话题建模的质量。本文提出的基于语义聚类和词语的混合情感主题模型(HST-SCW),该模型可以使词向量语义空间中语义相近的词语选择相同的聚类,从而使得语义相近的词语可以分配到相同的话题和情感。(3)为了提升微博短文中的情感和话题建模的质量,本文分析传统的情感主题模型在短文本的建模上的不足,主要问题就是这些模型单纯地利用词语之间的共现模式,而短文本的上下文稀疏,很难挖掘到充分的共现模式。而微博之类的短文本与新闻文本和评论数据不同,微博数据中的噪声较大很难有效地引入类似于知识库或者词向量之类的外界知识。因此,本文研究微博等社交媒体的特点,发现微博的内容发布的时间和用户有很强的关系,跟用户相关的微博一般都是跟个人兴趣相关,跟时间相关的微博一般都跟实时事件或者话题相关。通过引入这些社交媒体中的时间和用户等结构知识,本文提出一种面向短文本的情感和话题建模的方法,利用用户和时间聚合微博以弥补上下文不足的问题。基于这个思想,本文提出时间-用户的情感主题模型(TUS-LDA),该模型中将微博分配到对应的用户或者时间下,并且限制同一条微博属于相同的话题,但是一条微博可以表达不同的情感。


知网文化
【相似文献】
中国期刊全文数据库 前19条
1 汪明霓;BASIC文本系统[J];计算机应用研究;1988年01期
2 易树鸿;张为群;;一种基于粗集的文本数据特征信息的挖掘方法[J];计算机科学;2002年08期
3 潘大胜;;不确定噪声下海量文本数据的模糊挖掘算法研究[J];微电子学与计算机;2017年09期
4 王珊珊;冯利鑫;;基于新词识别的大数据聊天文本舆情热点挖掘[J];电子商务;2018年01期
5 陈晓峰;如何在flash中读入外部文本数据[J];电脑知识与技术;2004年13期
6 施瑞朗;;基于社交平台数据的文本分类算法研究[J];电子科技;2018年10期
7 张玉红;陈伟;胡学钢;;一种面向不完全标记的文本数据流自适应分类方法[J];计算机科学;2016年12期
8 袁鹏;江媛媛;;多元化文本数据的智能提取[J];测绘与空间地理信息;2015年09期
9 王海燕;胡学钢;李培培;;基于向量表示和标签传播的半监督短文本数据流分类算法[J];模式识别与人工智能;2018年07期
10 陈伟;勾东升;徐发亮;;基于文本数据分析的大数据审计方法研究[J];中国注册会计师;2018年11期
11 刘俊华;利用Excel生成的文本数据提高工作效率和质量[J];山西交通科技;2005年01期
12 杨爱芹;;大规模文本数据的分类系统的设计与实现[J];现代计算机(专业版);2012年25期
13 宗峰;;基于MapReduce技术的海量文本数据统计方法研究[J];山东英才学院学报;2017年04期
14 张椿琳;;汽车行业文本信息炼金术[J];经营者(汽车商业评论);2018年06期
15 朱林源;;公司披露文本分析研究进展[J];现代经济信息;2018年02期
16 李长镜;赵书良;池云仙;罗燕;;文本情感分类方法的分析[J];电子世界;2018年03期
17 谢攀;邓珍荣;朱益立;;结合文本信息量和聚类的文本裁剪算法[J];计算机工程与设计;2018年03期
18 何进安;;Excel中转换大量文本数据和准确计算年龄的方法[J];农村电工;2009年07期
19 徐阳;王志杰;钱诗友;;基于分布式平台Spark的空间文本查询分析[J];华东师范大学学报(自然科学版);2018年05期
中国重要会议论文全文数据库 前10条
1 易天元;叶春生;;工业锅炉图纸输入的文本数据处理[A];1997中国控制与决策学术年会论文集[C];1997年
2 陈光强;杨树强;张晓辉;李润恒;贾焰;;面向海量文本数据的多任务并行调度加载技术研究与实现[A];第15届全国信息存储技术学术会议论文集[C];2008年
3 周纯洁;黎巎;徐翼龙;;文本情感分析研究[A];中国计算机用户协会网络应用分会2018年第二十二届网络新技术与应用年会论文集[C];2018年
4 刘伟;陈春林;;基于注意模型深度学习的文本情感倾向性研究[A];第19届中国系统仿真技术及其应用学术年会论文集(19th CCSSTA 2018)[C];2018年
5 丁兆云;贾焰;周斌;;基于文本数据的多维层次式舆情计算模型的研究与实现[A];第二十五届中国数据库学术会议论文集(一)[C];2008年
6 李洋;倪丽萍;李莹;;电子商务平台在线评论对冰箱销量的影响——基于文本情感分析方法[A];第十三届(2018)中国管理学年会论文集[C];2018年
7 李锋刚;张亚南;汪兵;;基于词向量和AP聚类的短文本主题演化分析[A];第十三届(2018)中国管理学年会论文集[C];2018年
8 苏变萍;侯筱婷;;文本数据的非线性降维方法研究[A];2007年全国开放式分布与并行计算机学术会议论文集(下册)[C];2007年
9 李虎;邹鹏;贾焰;周斌;;一种基于Map Reduce的分布式文本数据过滤模型研究[A];第26次全国计算机安全学术交流会论文集[C];2011年
10 刘建伟;于守健;乐嘉锦;;基于分裂-凝聚的Web新闻主题聚类算法[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
中国博士学位论文全文数据库 前10条
1 徐康;基于主题模型的文本情感和话题建模的研究[D];东南大学;2017年
2 胡卉芪;空间文本数据的量质融合与推送[D];清华大学;2016年
3 李荣陆;文本分类及其相关技术研究[D];复旦大学;2005年
4 谭松波;高性能文本分类算法研究[D];中国科学院研究生院(计算技术研究所);2006年
5 张友华;面向智能服务的Web内容计算研究与应用[D];中国科学技术大学;2006年
6 熊云波;文本信息处理的若干关键技术研究[D];复旦大学;2006年
7 杨震;文本分类和聚类中若干问题的研究[D];北京邮电大学;2007年
8 尚文倩;文本分类及其相关技术研究[D];北京交通大学;2007年
9 龚才春;短文本语言计算的关键技术研究[D];中国科学院研究生院(计算技术研究所);2008年
10 尹世群;Web文本分类关键技术研究[D];西南大学;2008年
中国硕士学位论文全文数据库 前10条
1 余文礼;基于深度学习的多类标文本分类算法研究[D];哈尔滨工业大学;2017年
2 付钊;基于文本语义分块的中医病情分类问题研究[D];浙江大学;2018年
3 付宇博;基于决策树的英语文本难度评估研究[D];华中师范大学;2018年
4 郝利栋;基于深度学习的短文本情感分类研究[D];华东师范大学;2018年
5 李伟;基于决策树的网页敏感词过滤系统设计[D];西北农林科技大学;2018年
6 夏亮;面向电子商务评论文本的情感分析技术研究[D];华中师范大学;2018年
7 唐玉茹;空间文本数据发布/订阅研究[D];华中师范大学;2018年
8 王逍翔;基于Simhash的文本相似性检测研究与改进[D];昆明理工大学;2018年
9 范创;人机对话中的情感文本生成方法研究[D];哈尔滨工业大学;2018年
10 许萧宇;基于深度语义特征的文本情感分析方法研究[D];杭州电子科技大学;2018年
中国重要报纸全文数据库 前1条
1 通讯员 王成弟 刘欢 本报记者 廖志林;肺部常见疾病AI诊断产品呼之欲出[N];健康报;2018年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978