收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于深度学习的文本质量分类研究

莫中勤  
【摘要】:维基百科是人类大型的知识库,是现代人获取信息的在线资源,但一度受到质量水平的质疑,日益增加的条目,日益频繁的编辑,人工评审将不符合实际。如果没有得到适当的监控和修改,可能会导致低质量文章(甚至错误信息)的产生。关于质量问题,每年有数百万的大学生、研究生毕业,论文的质量参差不齐,高校对于毕业生的论文也提出了越来越高的要求,应届生的论文在提交之前如何做到有效监控和修改,毕业论文这种长文本的自动质量分类,也是一个具有挑战的任务。在长文本质量分类领域,本文中利用深度学习方法实现文本质量自动分类,主要研究了英文维基百科条目、中文维基百科条目、硕士毕业论文,主要工作开展如下:1.针对交叉熵只关注分类正确的类别的问题,本文提出了改进的交叉熵函数,可以让模型更好地拟合数据分布。2.针对英文维基百科条目文本质量分类问题,本文提出了Att-LSTM自动分类方法,该方法是端到端的,没有特征工程的方法。在文本质量6分类对比试验中,准确率由69%提升到71%;同时将数据类别处理为3个大类,通过对比试验,得出注意力机制可以代替一些手工特征的结论。3.本文扩展了中文维基百科数据集,并提出了一个适用于中文维基百科文本质量自动分类的方法——MulCNN-LSTM。4.收集了大量硕士毕业生论文,按照已经公布的数据将其划分为优秀、正常、延期三个质量等级,针对毕业论文这种长文本,本文设计了基于章节的全篇章的文本质量分析方法ChapterLSTM,通过大量试验,验证了其模型的可靠性与有效性,该模型的F1值达90%,比目前最好的模型提升了15%。5.最后,基于篇章的全篇章的文本质量分析方法设计了一个毕业生论文质量评估系统,该系统采用目前主流的前后端分离的方式进行开发。


知网文化
【相似文献】
中国期刊全文数据库 前19条
1 李均明;趙桂芳;;清華簡文本復原——以《清華大學藏戰國竹簡》第一、二輯為例[J];出土文献;2012年00期
2 唐忠敏;;召唤、整合与摧毁:群体传播时代网络叙述的副文本[J];现代传播(中国传媒大学学报);2019年11期
3 程乐松;;古义、真义与大义:以诠释范式为中心看中国古代思想文本的意义生成[J];复旦学报(社会科学版);2020年01期
4 杨开漠;吴明芬;陈涛;;广义文本情感分析综述[J];计算机应用;2019年S2期
5 朱俊阳;;非连续性文本教学要聚合与实用[J];语文建设;2020年03期
6 华有杰;;论文本的物质性[J];山东社会科学;2020年01期
7 王倩;曾金;刘家伟;戚越;;基于深度学习的学术文本段落结构功能识别研究[J];情报科学;2020年03期
8 王立荣;;Word2vec-CNN-Bilstm短文本情感分类[J];福建电脑;2020年01期
9 柳宏;王逊;;文本的时空呈现——高校写作教学改革思考之二[J];写作;2020年01期
10 顾云;;画龙点睛,让拓展文本的价值最大化[J];小学教学参考;2020年04期
11 王志军;;语体视角下语篇副文本系统的配置及耦合互文路径差异[J];当代修辞学;2020年03期
12 张明;;重审“作者已死”:论作为“伴随文本”的作者与作品[J];西南大学学报(社会科学版);2020年03期
13 郭建飞;;影视作品及数字媒体文本-类文本共生叙事研究[J];西南民族大学学报(人文社科版);2020年06期
14 杨蕾;;引导学生把握文本的“纲目经纬”[J];江苏教育;2020年17期
15 姚加权;张锟澎;罗平;;金融学文本大数据挖掘方法与研究进展[J];经济学动态;2020年04期
16 王建新;王子亚;田萱;;基于深度学习的自然场景文本检测与识别综述[J];软件学报;2020年05期
17 梅明玉;;多文本融合下的深度翻译研究[J];中国科技翻译;2020年02期
18 王恬;贾玮;;伊瑟尔“召唤结构”理论下文学文本审美潜能再创造[J];湖北第二师范学院学报;2020年04期
19 朱迎春;;让语文课堂充满语文的味道[J];文学教育(上);2019年02期
中国重要会议论文全文数据库 前10条
1 岑艺明;;内外合璧,让非连续性文本阅读教学锦上添花——浅谈小学语文非连续性文本教学的现状及策略[A];教育理论研究(第六辑)[C];2019年
2 李长松;;引导学生走进文本的天地——阅读方法指导例谈[A];国家教师科研基金“十一五”成果集(中国名校卷)(五)[C];2009年
3 张智军;沈昉;朱伟;;文本组织方式对介绍性文章搜索绩效的影响研究[A];中国人类工效学学会第六次学术交流会论文摘要汇编[C];2003年
4 周昭涛;卜东波;程学旗;;文本的图表示初探[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
5 石志伟;吴功宜;;改善朴素贝叶斯在文本分类中的稳定性[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
6 热依玛依·买买提;维尼拉·木沙江;;基于文本的图片检索中图片相关文本提取技术的研究[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
7 许君;王朝坤;刘立超;王建民;刘璋;;云环境中的近似复制文本检测[A];第29届中国数据库学术会议论文集(B辑)(NDBC2012)[C];2012年
8 刘顺利;;在“元文本”与“文本”之间[A];东方丛刊(2004年第1辑 总第四十七辑)[C];2004年
9 易绵竹;南振兴;李绍哲;薛恩奎;;文本生成与理解的语言学模拟——伊戈尔·梅里丘克《意思(?)文本》模型评介[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
10 王树西;白硕;姜吉发;;基于自由文本的模式推理[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
中国博士学位论文全文数据库 前10条
1 刘晓佩;自然场景文本信息提取关键技术研究[D];西安电子科技大学;2014年
2 闫琰;基于深度学习的文本表示与分类方法研究[D];北京科技大学;2016年
3 王中卿;基于文本信息的社会关系分析与研究[D];苏州大学;2016年
4 章东平;视频文本的提取[D];浙江大学;2006年
5 肖翠云;行走在文本与文化之间[D];苏州大学;2006年
6 李岩;基于深度学习的短文本分析与计算方法研究[D];北京科技大学;2016年
7 张妍;自我指涉与表演:柯马丁解释《诗经》等文本的策略[D];浙江大学;2014年
8 李丽洁;视频中文本信息提取技术研究[D];哈尔滨工程大学;2012年
9 孙巧榆;复杂背景图像的文本信息提取研究[D];华东师范大学;2012年
10 尹芳;场景文本识别关键技术研究[D];哈尔滨理工大学;2012年
中国硕士学位论文全文数据库 前10条
1 莫中勤;基于深度学习的文本质量分类研究[D];电子科技大学;2020年
2 蔡志威;基于概念的短文本分类[D];华南理工大学;2016年
3 李紫君;伊瑟尔的文本观及其来源[D];苏州大学;2019年
4 邱芸;小学英语教材整合中的文本再构实践研究[D];上海师范大学;2016年
5 黄志锋;中职语文教学“反文本”倾向探究[D];宁波大学;2015年
6 王珺瑶;面向微博文本的分类技术应用研究[D];广西大学;2015年
7 卢虹贝;木心文学创作中的“文本再生”现象研究[D];南京大学;2014年
8 韩霜;古代辞赋类文本教学探索[D];山东师范大学;2014年
9 胡晓平;新课程背景下阅读教学中的文本教学资源研究[D];陕西师范大学;2013年
10 东雪;论沃尔夫冈·伊瑟尔的文本观[D];湘潭大学;2011年
中国重要报纸全文数据库 前10条
1 记者 程静;市政府召开申报国家历史文化名城文本专题汇报会[N];九江日报;2019年
2 本报记者 王晓真 实习记者 陈禹同;推动中国古典文本国际化[N];中国社会科学报;2020年
3 何建明;应当充分自信中国自己的文本书写[N];文艺报;2019年
4 周宪;数字时代,回归文本更需要[N];中国石化报;2019年
5 ;中美走到谈协议文本,双方更需理性[N];环球时报;2019年
6 何建明;应当对中国的文本书写充分自信[N];太原日报;2019年
7 任彦申;呼唤初心的美好文本[N];江西日报;2019年
8 山东省枣庄市山亭区桑村镇芹沃小学教师 满孝明;植思维之花,赏文本芬芳[N];语言文字报;2019年
9 吉林省吉林市永吉县第十中学教师 高东玲;有效整合文本,课堂尽显活力[N];语言文字报;2019年
10 记者 林嫔;完善申报历史文化名城文本[N];湄洲日报;2018年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978