收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于深度学习的知乎标题的多标签文本分类

张闯  
【摘要】:知乎网站是目前国内互联网最受欢迎的知识型问答社区,7000多万用户通过知乎分享信息资源或者汲取自己所需的资源。知乎的基本功能是实现用户提出的问题与其他用户的相关回答之间的匹配和共享。在知乎网站上,提问的用户为每个问题设置标签,然后想回答问题的用户根据标签来找到用户的问题并进行回答。目前知乎网站的话题标签是用户自己根据所提问题自行设置并用来标注问题所属类别。然而,由于用户自行标注的标签可能不准确而造成知乎网站无法及时有效地向用户推荐适当的答案。此外,对于知乎网站的海量文本数据,这种方法会产生大量的人力成本。因此,设计一个高性能,高精度的多标签自动标注系统对于提高知乎网站的用户体验和降低运营成本具有重要意义。本文设计并实现了基于深度学习的多标签自动标注模型。本文的主要工作包括以下几个方面:(1)本文设计并实现了 Python网络爬虫,并从知乎网站爬取了大量的数据。对获取的数据进行了预处理,包括数据清洗,文本分词,使用Word2Vec工具训练词向量。(2)本文设计实现了基于深度学习的多标签文本分类模型,具体包括:基于CNN、LSTM、CNN-LSTM的分类模型。通过实验探讨了这些模型的参数设置。实验结果表明,这些模型的分类准确率分别为96.39%,96.45%,96.99%,其中,CNN-LSTM与CNN、LSTM相比分类误差分别降低了 16.62%和15.2%。


知网文化
【相似文献】
中国期刊全文数据库 前19条
1 汪明霓;BASIC文本系统[J];计算机应用研究;1988年01期
2 易树鸿;张为群;;一种基于粗集的文本数据特征信息的挖掘方法[J];计算机科学;2002年08期
3 潘大胜;;不确定噪声下海量文本数据的模糊挖掘算法研究[J];微电子学与计算机;2017年09期
4 王珊珊;冯利鑫;;基于新词识别的大数据聊天文本舆情热点挖掘[J];电子商务;2018年01期
5 陈晓峰;如何在flash中读入外部文本数据[J];电脑知识与技术;2004年13期
6 施瑞朗;;基于社交平台数据的文本分类算法研究[J];电子科技;2018年10期
7 张玉红;陈伟;胡学钢;;一种面向不完全标记的文本数据流自适应分类方法[J];计算机科学;2016年12期
8 袁鹏;江媛媛;;多元化文本数据的智能提取[J];测绘与空间地理信息;2015年09期
9 陈伟;勾东升;徐发亮;;基于文本数据分析的大数据审计方法研究[J];中国注册会计师;2018年11期
10 王海燕;胡学钢;李培培;;基于向量表示和标签传播的半监督短文本数据流分类算法[J];模式识别与人工智能;2018年07期
11 刘俊华;利用Excel生成的文本数据提高工作效率和质量[J];山西交通科技;2005年01期
12 杨爱芹;;大规模文本数据的分类系统的设计与实现[J];现代计算机(专业版);2012年25期
13 宗峰;;基于MapReduce技术的海量文本数据统计方法研究[J];山东英才学院学报;2017年04期
14 张椿琳;;汽车行业文本信息炼金术[J];经营者(汽车商业评论);2018年06期
15 朱林源;;公司披露文本分析研究进展[J];现代经济信息;2018年02期
16 李长镜;赵书良;池云仙;罗燕;;文本情感分类方法的分析[J];电子世界;2018年03期
17 谢攀;邓珍荣;朱益立;;结合文本信息量和聚类的文本裁剪算法[J];计算机工程与设计;2018年03期
18 何进安;;Excel中转换大量文本数据和准确计算年龄的方法[J];农村电工;2009年07期
19 薛峰;胡越;夏帅;许剑东;;基于论文标题和摘要的短文本分类研究[J];合肥工业大学学报(自然科学版);2018年10期
中国重要会议论文全文数据库 前9条
1 易天元;叶春生;;工业锅炉图纸输入的文本数据处理[A];1997中国控制与决策学术年会论文集[C];1997年
2 陈光强;杨树强;张晓辉;李润恒;贾焰;;面向海量文本数据的多任务并行调度加载技术研究与实现[A];第15届全国信息存储技术学术会议论文集[C];2008年
3 周纯洁;黎巎;徐翼龙;;文本情感分析研究[A];中国计算机用户协会网络应用分会2018年第二十二届网络新技术与应用年会论文集[C];2018年
4 刘伟;陈春林;;基于注意模型深度学习的文本情感倾向性研究[A];第19届中国系统仿真技术及其应用学术年会论文集(19th CCSSTA 2018)[C];2018年
5 丁兆云;贾焰;周斌;;基于文本数据的多维层次式舆情计算模型的研究与实现[A];第二十五届中国数据库学术会议论文集(一)[C];2008年
6 苏变萍;侯筱婷;;文本数据的非线性降维方法研究[A];2007年全国开放式分布与并行计算机学术会议论文集(下册)[C];2007年
7 李虎;邹鹏;贾焰;周斌;;一种基于Map Reduce的分布式文本数据过滤模型研究[A];第26次全国计算机安全学术交流会论文集[C];2011年
8 刘建伟;于守健;乐嘉锦;;基于分裂-凝聚的Web新闻主题聚类算法[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
9 韩毅;韩伟红;杨树强;贾焰;;面向OLAP的高效海量数据存储技术研究与实现[A];2006年全国开放式分布与并行计算机学术会议论文集(三)[C];2006年
中国博士学位论文全文数据库 前10条
1 徐康;基于主题模型的文本情感和话题建模的研究[D];东南大学;2017年
2 胡卉芪;空间文本数据的量质融合与推送[D];清华大学;2016年
3 李荣陆;文本分类及其相关技术研究[D];复旦大学;2005年
4 谭松波;高性能文本分类算法研究[D];中国科学院研究生院(计算技术研究所);2006年
5 张友华;面向智能服务的Web内容计算研究与应用[D];中国科学技术大学;2006年
6 熊云波;文本信息处理的若干关键技术研究[D];复旦大学;2006年
7 杨震;文本分类和聚类中若干问题的研究[D];北京邮电大学;2007年
8 尚文倩;文本分类及其相关技术研究[D];北京交通大学;2007年
9 龚才春;短文本语言计算的关键技术研究[D];中国科学院研究生院(计算技术研究所);2008年
10 尹世群;Web文本分类关键技术研究[D];西南大学;2008年
中国硕士学位论文全文数据库 前10条
1 付钊;基于文本语义分块的中医病情分类问题研究[D];浙江大学;2018年
2 赵禛;轨道交通设备故障的文本多标签分类模型研究[D];广东工业大学;2018年
3 曾宇;网络评论短文本情感倾向性分析研究[D];山东师范大学;2018年
4 郝利栋;基于深度学习的短文本情感分类研究[D];华东师范大学;2018年
5 姜博闻;基于向量空间模型的文本分类及R语言实现[D];山东师范大学;2018年
6 李伟;基于决策树的网页敏感词过滤系统设计[D];西北农林科技大学;2018年
7 李良;突发事件微博舆情的话题发现和热度预测研究[D];西安理工大学;2018年
8 高聪;文本分类中特征选择和特征加权算法的研究与应用[D];西安理工大学;2017年
9 艾山江·亚生;面向手语信息处理的维吾尔文本语料库构建技术的研究[D];新疆大学;2018年
10 周全;基于深度学习的评论文本情感分类系统设计与实现[D];新疆大学;2018年
中国重要报纸全文数据库 前1条
1 通讯员 王成弟 刘欢 本报记者 廖志林;肺部常见疾病AI诊断产品呼之欲出[N];健康报;2018年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978