收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于深度学习的电商平台评论情感分析系统研究

许欣  
【摘要】:随着信息技术的飞速发展带动网络购物的迅速普及,各大电商收集了大量包含消费者主观意见的评论信息,这些信息蕴含着巨大的商业和社会价值。要从海量的评论数据中获得辅助决策的有效信息,采用人工智能技术挖掘评论情感信息的方案相较于人力浏览总结具有显著的优势。综观几大电商平台所获取的商品评论数据,发现存在如下典型问题:由于评论数据中差评数量相对稀少导致的严重数据种类不均衡和评论数据总量大导致的数据标注难度高。在业界对评论数据的重视程度已经达成共识的今天,针对上述问题,电商平台评论作为决策的辅助依据,如何使用深度学习技术对之进行更有效的情感信息挖掘,具有重大的研究意义。本文提出一种从语义理解角度针对电商平台用户评论文本的情感分析方法,将情感倾向分析问题转换为语义主题的分类问题。由于BERT预训练语言模型在各类情感分析任务中都表现出了不错的效果,本文以BERT语言模型为最基本的网络框架,在模型基础上根据评论数据特性进行一系列改进研究,论文主要工作如下:(1)针对海量评论数据导致数据标注难度高的问题:本文使用用户在电商平台对本次购物的星级评价作为初始标注。考虑到这种标注存在覆盖率不足以及用户评价随意等问题,本文采用聚类方法,结合开源情感字典和电商平台评论数据,生成适用于电商评论领域的情感词典,随后使用该词典对评论数据进行初步的情感分析,再将评论的情感分析结果与评论标签进行对比匹配,从而筛选出高质量标签数据。(2)针对差评数量稀少导致的情感分析训练数据类别不均衡的问题:本文引入图像领域数据增强方法Mix Match与NLP传统数据增强回译方法,对负例样本进行数据增强,增加其样本个数。由于Mix Match方法只适用于连续变量,故本文采用BERT的前10层将离散的文本向量变换成高维稠密向量,并结合筛选出的低质量标签进行Mixup操作,得到增强数据。同时,本文进一步引入目标识别领域的Focal_Loss算法,结合Mix Match与BERT的损失函数,引入权值与调质因子,通过惩罚大规模数据与易识别数据对总Loss的贡献,达到抵抗数据不平衡的目的。本文经过对电商平台评论的情感分析实验,检验本文提出的情感分析方法有效性,实验结果表明,本文提出的模型效果良好,相较于普通BERT模型与传统数据增强方法都有明显的提升。


知网文化
【相似文献】
中国期刊全文数据库 前16条
1 钟山;;基于BERT模型的陆空通话语义校验方法的探究[J];科学技术创新;2021年09期
2 许欣;余杉;;基于BERT与Focal Loss的电商平台评论情感研究[J];仪器仪表用户;2021年03期
3 郭雷;;统计语言模型分析[J];软件导刊;2011年11期
4 鲁一冰;刘驰;;Skip-ngram模型解决数据稀疏问题的研究[J];自动化技术与应用;2015年03期
5 张明辉;;情感分析在商品评论中的应用[J];现代信息科技;2019年10期
6 张仰森,徐波,曹元大;自然语言处理中的语言模型及其比较研究[J];广西师范大学学报(自然科学版);2003年01期
7 乔士君;;基于面向对象语言模型的自然语言处理[J];网络安全技术与应用;2020年11期
8 林奕欧;雷航;李晓瑜;吴佳;;自然语言处理中的深度学习:方法及应用[J];电子科技大学学报;2017年06期
9 许铭淏;;用户评论数据模型与信息处理[J];信息技术与信息化;2019年03期
10 徐延勇,郭忠伟,周献中;基于最大熵方法的统计语言模型[J];计算机工程与应用;2002年05期
11 魏上斐;乔保军;于俊洋;姚相宇;;基于预训练语言模型词向量融合的情感分析研究[J];计算机应用与软件;2021年05期
12 郭杨;拥措;;藏语语言模型的研究现状及展望[J];电脑知识与技术;2020年09期
13 田园;原野;刘海斌;满志博;毛存礼;;基于BERT预训练语言模型的电网设备缺陷文本分类[J];南京理工大学学报;2020年04期
14 段瑞雪;巢文宇;张仰森;;预训练语言模型BERT在下游任务中的应用[J];北京信息科技大学学报(自然科学版);2020年06期
15 黄昌宁;统计语言模型能做什么?[J];语言文字应用;2002年01期
16 仁青吉;安见才让;;藏语语言模型的研究[J];信息与电脑(理论版);2015年06期
中国重要会议论文全文数据库 前20条
1 林红;胡欣;;最大熵模型的应用[A];新世纪气象科技创新与大气科学发展——中国气象学会2003年年会“地球气候和环境系统的探测与研究”分会论文集[C];2003年
2 ;哈尔滨工业大学智能技术与自然语言处理研究室简介[A];中国中文信息学会第六次全国会员代表大会暨成立二十五周年学术会议中文信息处理重大成果汇报展资料汇编[C];2006年
3 钟茂生;;自然语言中的对象及其处理[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
4 冯志伟;;自然语言处理中的理性主义和经验主义[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
5 关毅;王晓龙;;基于统计的汉语词汇间语义相似度计算[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
6 刘一闻;李泽魁;秦玉芳;;基于深度神经网络的稿件标题生成[A];中国新闻技术工作者联合会2020年学术年会论文集[C];2020年
7 杨睿涵;续子恺;;自然语言处理技术在解放日报智能视觉创作系统的应用[A];中国新闻技术工作者联合会2020年学术年会论文集[C];2020年
8 李凡姝;姚登峰;;自然语言处理中的文本表示和语言模型综述[A];中国计算机用户协会网络应用分会2020年第二十四届网络新技术与应用年会论文集[C];2020年
9 张宇航;;自然语言处理在金融科技领域的应用[A];2020中国信息通信大会论文集(CICC 2020)[C];2020年
10 吴凯文;赵媛媛;陈超;王少锋;;自然语言处理技术、电网数据管理[A];全国第四届“智能电网”会议论文集[C];2019年
11 范漪萍;王晓迪;张炜;吴玉辉;刘彦君;;北京人工智能产业发展人才需求分析及精准引才对策建议[A];创新发展与情报服务[C];2019年
12 纪宁;;教育人工智能赋能教育现代化[A];天津市社会科学界第十四届学术年会优秀论文集:加快构建中国特色哲学社会科学 推进“五个现代化天津”建设(中)[C];2018年
13 徐源;施洪美;赵媛媛;王少锋;;新技术驱动的自然语言处理进展[A];全国第四届“智能电网”会议论文集[C];2019年
14 宇文道璐;陈锦飞;;基于肿瘤多学科讨论的治疗方案和人工智能临床决策一致性评价[A];2018年中国肿瘤标志物学术大会暨第十二届肿瘤标志物青年科学家论坛论文集[C];2018年
15 徐超;毕玉德;;面向自然语言处理的韩国语隐喻知识库构建研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
16 李文;程华良;彭耀;温明杰;肖威清;张陈斌;陈宗海;;自然语言处理云平台[A];系统仿真技术及其应用学术论文集(第15卷)[C];2014年
17 李生;;哈工大自然语言处理研究进展[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
18 张斌;周延泉;;一种适用于语言模型的检索词扩展方法[A];第五届全国青年计算语言学研讨会论文集[C];2010年
19 付晓寅;魏玮;徐波;;一种基于状态转移的N元语言模型快速查询方法[A];机器翻译研究进展——第七届全国机器翻译研讨会论文集[C];2011年
20 刘昆;张建平;颜永红;;统计语言模型中语料的选择[A];中国声学学会2005年青年学术会议[CYCA'05]论文集[C];2005年
中国博士学位论文全文数据库 前18条
1 才智杰;藏文词向量表示关键技术研究[D];青海师范大学;2018年
2 方兰婷;基于机器学习的自然语言处理和传输技术的研究[D];东南大学;2018年
3 郭俊飞;基于可调语言模型的机器翻译[D];武汉大学;2015年
4 陈志刚;英语考试自动答题技术的研究[D];中国科学技术大学;2018年
5 文娟;统计语言模型的研究与应用[D];北京邮电大学;2010年
6 张俊林;基于语言模型的信息检索系统研究[D];中国科学院研究生院(软件研究所);2004年
7 刘阳;多标签数据分类技术研究[D];西安电子科技大学;2018年
8 董爱美;带标签和/或无标签数据综合利用的模式分类新方法研究[D];江南大学;2016年
9 傅群超;基于深度学习的词和句子表示关键技术研究[D];北京邮电大学;2020年
10 高红;基于统计语言模型的汉语浅层分析研究[D];大连理工大学;2007年
11 任飞亮;高适应性基于实例的机器翻译中关键技术研究[D];东北大学;2008年
12 郭江;基于分布表示的跨语言跨任务自然语言分析[D];哈尔滨工业大学;2017年
13 刘建成;模糊模型的智能学习方法与应用研究[D];中南大学;2005年
14 冷明伟;主动半监督聚类及其在社团检测中的应用研究[D];兰州大学;2014年
15 王宁;基于电子病历的中医临床决策支持研究[D];中国科学技术大学;2021年
16 陈清才;基于粗集的汉语建模及其应用研究[D];哈尔滨工业大学;2003年
17 施寒潇;细粒度情感分析研究[D];苏州大学;2013年
18 于墨;自然语言句子级结构表示的建模与学习[D];哈尔滨工业大学;2016年
中国硕士学位论文全文数据库 前20条
1 许欣;基于深度学习的电商平台评论情感分析系统研究[D];北方工业大学;2021年
2 雷孝钧;面向小数据量垂直领域的问答方法研究[D];北京交通大学;2020年
3 廖浩宇;基于文段选择的中文问答系统研究[D];暨南大学;2020年
4 魏上斐;基于预训练语言模型自注意力机制的情感分析研究[D];河南大学;2020年
5 赵佳悌;网络商品评论的情感分析研究[D];北京邮电大学;2020年
6 梁啸;基于预训练语言模型的微博情感分类研究[D];南华大学;2020年
7 张晓;命名实体识别的领域适应性研究及应用[D];山东理工大学;2020年
8 陈波;中文统计自然语言处理隐马模型的研究[D];重庆大学;2003年
9 于尤婧;面向可解释性双向编码语言模型的文本分类研究[D];吉林大学;2020年
10 谢锦松;基于Bert的文本相关度研究[D];华南理工大学;2020年
11 于尊瑞;基于预训练语言模型的问题生成技术研究[D];中国科学技术大学;2021年
12 唐永明;基于关联词的复句语言模型[D];北京邮电大学;2009年
13 刘涛;基于预训练语言模型的自然语言理解方法研究[D];黑龙江大学;2021年
14 张国强;层次化蒙古语语言模型的构建研究[D];内蒙古大学;2008年
15 黄永文;基于互信息的统计语言模型平滑技术[D];重庆大学;2005年
16 段帅阳;初等数学问题知识图谱的半自动构建技术研究及实现[D];电子科技大学;2019年
17 涂文博;基于深度学习的医疗文本信息抽取[D];杭州师范大学;2019年
18 陈梁;运用自然语言处理技术从中文电子化病历系统中提取临床有用信息[D];重庆医科大学;2019年
19 解波;基于自然语言处理及机器学习的文本分类研究[D];云南大学;2018年
20 彭湃;自然语言处理—中文词和短文本向量化的研究[D];华中师范大学;2019年
中国重要报纸全文数据库 前20条
1 中国出版传媒商报记者 渠竞帆;国际出版AI应用发展新象[N];中国出版传媒商报;2019年
2 记者 宋婧;达摩院发布中文社区最大规模预训练语言模型[N];中国电子报;2021年
3 本报记者 李钊;自然语言处理技术可提升创新效率[N];科技日报;2020年
4 本报记者 刘肖勇;杨敏 深耕自然语言处理 架起人类与机器沟通的桥梁[N];广东科技报;2020年
5 本报记者 华凌;突破自然语言处理瓶颈需大数据与富知识双轮驱动[N];科技日报;2019年
6 王培 美国天普大学计算机与信息科学系;机器翻译会迫使翻译们全失业吗?[N];北京科技报;2016年
7 本报记者 刘峣;人工智能创造新闻新玩法[N];人民日报海外版;2016年
8 北京商报记者 姜红;人工智能:市场前夜的秀场[N];北京商报;2017年
9 归欣;无需为“二代狗”惊慌失措[N];河南日报;2017年
10 本报记者 张盖伦;小心,聊天机器人也会被“教坏”[N];科技日报;2017年
11 本报记者 马爱平;机器人能成为“闺蜜”吗?[N];科技日报;2017年
12 陈宗周;重建巴别塔[N];电脑报;2017年
13 记者 李思;企业纷纷抢先机[N];上海金融报;2017年
14 赛迪顾问人工智能行业分析师 向阳;2017年人工智能产业发展分析与预测[N];中国信息化周报;2017年
15 赛迪顾问人工智能行业分析师 向阳;人工智能未来三年将迎新机遇点[N];中国计算机报;2017年
16 程瑞辉 黑龙江大学体育教研部;冬奥会“秀场”:智能、环保与人文效应[N];中国社会科学报;2017年
17 本报记者 李中迪;希望与贵州早日达成合作[N];贵州日报;2017年
18 本报记者 潘玥斐;对人工智能开展前瞻性哲学思考[N];中国社会科学报;2017年
19 本报记者 藏瑾;中国人工智能人才不足美国6% 科技公司全球揽才[N];21世纪经济报道;2017年
20 本报记者 邓晓蕾;语言智能是人工智能皇冠上的明珠[N];中国计算机报;2017年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978