基于深度学习的文本质量分类研究
【摘要】:维基百科是人类大型的知识库,是现代人获取信息的在线资源,但一度受到质量水平的质疑,日益增加的条目,日益频繁的编辑,人工评审将不符合实际。如果没有得到适当的监控和修改,可能会导致低质量文章(甚至错误信息)的产生。关于质量问题,每年有数百万的大学生、研究生毕业,论文的质量参差不齐,高校对于毕业生的论文也提出了越来越高的要求,应届生的论文在提交之前如何做到有效监控和修改,毕业论文这种长文本的自动质量分类,也是一个具有挑战的任务。在长文本质量分类领域,本文中利用深度学习方法实现文本质量自动分类,主要研究了英文维基百科条目、中文维基百科条目、硕士毕业论文,主要工作开展如下:1.针对交叉熵只关注分类正确的类别的问题,本文提出了改进的交叉熵函数,可以让模型更好地拟合数据分布。2.针对英文维基百科条目文本质量分类问题,本文提出了Att-LSTM自动分类方法,该方法是端到端的,没有特征工程的方法。在文本质量6分类对比试验中,准确率由69%提升到71%;同时将数据类别处理为3个大类,通过对比试验,得出注意力机制可以代替一些手工特征的结论。3.本文扩展了中文维基百科数据集,并提出了一个适用于中文维基百科文本质量自动分类的方法——MulCNN-LSTM。4.收集了大量硕士毕业生论文,按照已经公布的数据将其划分为优秀、正常、延期三个质量等级,针对毕业论文这种长文本,本文设计了基于章节的全篇章的文本质量分析方法ChapterLSTM,通过大量试验,验证了其模型的可靠性与有效性,该模型的F1值达90%,比目前最好的模型提升了15%。5.最后,基于篇章的全篇章的文本质量分析方法设计了一个毕业生论文质量评估系统,该系统采用目前主流的前后端分离的方式进行开发。