收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于LSTM和K-means聚类的水利文本分类模型研究

张艺聪  
【摘要】:随着互联网技术和人工智能的发展,纸质图书、文件、证明等文本渐渐被电子文本所代替,产生了大量网络文本信息,如何从电子文本信息中筛选出符合要求的信息具有非常重要的意义,而文本处理的目的则是对文本的管理过程进行优化和改进,方便用户获取自身所需要的信息。到实际应用的时候,可以概括为文本表示、文本分类、文本聚类等方面。文本表示是指将文本转换成表达特定含义的数组或者数字向量,使机器(例如计算机等)可以理解;文本分类是指已经事先确定期望划分的类别,然后根据文本的内容将它们划分到不同类别中;文本聚类是根据文档中文本的特征,将文档聚集为文档簇。本文提出了基于LSTM(Long Short-Term Memory)和K-means聚类的水利文本分类模型,对水利新闻文本处理问题进行研究。具体研究内容及结果如下:1.在进行中文分词时,考虑到中文文本的特殊性和本文所涉及的领域,本文选择基于Python语言的Jieba分词模型,同时对Jieba分词模型自带的词典做了简单的扩展,主要增加了与水利领域相关的专业词汇,其目的是为了得到更好的文本分词效果。2.在进行文本表示的时候,本文采用Word2vec中的Skip-Gram模型对中文分词后的文本数据进行向量化处理,输出结果是文本数据中每个词的词向量形式,然后对文本表示的结果进行了优化处理,最终将模型的输出结果纵向堆叠,以二维矩阵的格式来表示文本数据中每个词的特征,输入到K-means聚类模型中。3.尝试引入深度学习相关理论,构建了一个LSTM和K-means算法相结合的模型对水利新闻文本进行处理,避免了传统文本处理方法对词与词之间关系的忽略,和训练容易陷入局部最优的缺陷。最后利用准确率、召回率和F1值对文本处理结果进行了评估,结果证明LSTM模型和K-means算法相结合可取得较好的文本处理效果。


知网文化
【相似文献】
中国期刊全文数据库 前15条
1 沙尔旦尔·帕尔哈提;米吉提·阿不里米提;艾斯卡尔·艾木都拉;;基于稳健词素序列和LSTM的维吾尔语短文本分类[J];中文信息学报;2020年01期
2 罗正军;柯铭菘;周德群;;基于改进型LSTM的文本情感分析模型研究[J];计算机技术与发展;2020年12期
3 刘卓凡;郑庆庆;李俊;廖思翀;冯宜晖;;基于注意力机制和LSTM的文本情感分析[J];信息与电脑(理论版);2021年18期
4 毛焱颖;;基于注意力双层LSTM的长文本情感分类方法[J];重庆电子工程职业学院学报;2019年02期
5 吴迎岗;;基于有序神经元LSTM的短文本相似性检测[J];计算机应用与软件;2021年12期
6 钱揖丽;马雪雯;;基于句子级LSTM编码的文本标题生成[J];计算机应用与软件;2021年05期
7 刘同娟;贾翠翠;;基于LSTM的商品评论文本情感分类研究[J];信息与电脑(理论版);2020年07期
8 贾燕花;徐蔚鸿;;K-means聚类和支持向量机结合的文本分类研究[J];计算机工程与应用;2010年22期
9 赵美玲;刘胜全;刘艳;郭竹为;符贤哲;;基于改进K-means聚类与图模型相结合的多文本自动文摘研究[J];现代计算机(专业版);2017年17期
10 张良君;;基于Word2Vec词嵌入和双向LSTM模型对用户回答文本进行分类[J];电子技术与软件工程;2021年14期
11 张翠;周茂杰;;一种基于CNN与双向LSTM融合的文本情感分类方法[J];计算机时代;2019年12期
12 汤艳君;苏梅;许彩滇;屈丽;;利用Doc2Vec及改进K-means聚类实现文本取证分析[J];中国刑警学院学报;2020年04期
13 戴斌;李寿山;贡正仙;周国栋;;基于多类型文本的半监督性别分类方法研究[J];山西大学学报(自然科学版);2017年01期
14 张征杰;王自强;;文本分类及算法综述[J];电脑知识与技术;2012年04期
15 霍亮;杨柳;霍烽;;谈文本分类中的相关技术[J];合作经济与科技;2012年13期
中国重要会议论文全文数据库 前20条
1 石志伟;吴功宜;;改善朴素贝叶斯在文本分类中的稳定性[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
2 周昭涛;卜东波;程学旗;;文本的图表示初探[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
3 包剑;冀明;冯军;;基于模糊支持向量机的文本分类[A];中国运筹学会模糊信息与模糊工程分会第五届学术年会论文集[C];2010年
4 易绵竹;南振兴;李绍哲;薛恩奎;;文本生成与理解的语言学模拟——伊戈尔·梅里丘克《意思(?)文本》模型评介[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
5 岑艺明;;内外合璧,让非连续性文本阅读教学锦上添花——浅谈小学语文非连续性文本教学的现状及策略[A];教育理论研究(第六辑)[C];2019年
6 李长松;;引导学生走进文本的天地——阅读方法指导例谈[A];国家教师科研基金“十一五”成果集(中国名校卷)(五)[C];2009年
7 张智军;沈昉;朱伟;;文本组织方式对介绍性文章搜索绩效的影响研究[A];中国人类工效学学会第六次学术交流会论文摘要汇编[C];2003年
8 罗长升;段建国;许洪波;郭莉;;基于拉推策略的文本分类增量学习研究[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
9 热依玛依·买买提;维尼拉·木沙江;;基于文本的图片检索中图片相关文本提取技术的研究[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
10 许君;王朝坤;刘立超;王建民;刘璋;;云环境中的近似复制文本检测[A];第29届中国数据库学术会议论文集(B辑)(NDBC2012)[C];2012年
11 刘顺利;;在“元文本”与“文本”之间[A];东方丛刊(2004年第1辑 总第四十七辑)[C];2004年
12 王耀东;王侯杰;;基于决策树与K-means混合分类模型的大学生体质研究[A];第十二届全国体育科学大会论文摘要汇编——专题报告(体育统计分会)[C];2022年
13 蔺茜;陶卿曌;张清辉;;基于LSTM神经网络的电力变压器故障预测模型研究[A];2020中国系统仿真与虚拟现实技术高层论坛论文集[C];2020年
14 胡宪;冯毅萍;潘戈;;基于边缘侧自编码器压缩的分布式LSTM设备故障预测[A];第31届中国过程控制会议(CPCC 2020)摘要集[C];2020年
15 唐上;宋冬梅;向亮;单新建;王斌;;基于LSTM神经网络的电离层TEC预测[A];2019年中国地球科学联合学术年会论文集(十一)——专题28:大地震发生的物理机制与预测方法和技术、专题29:“张衡一号”卫星应用与国家地球物理场卫星探测计划、专题30:空间大地测量与地壳动力学[C];2019年
16 王树西;白硕;姜吉发;;基于自由文本的模式推理[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
17 任函;何婷婷;;大规模在线文本的自动分类研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
18 周忠敏;张荣军;;变了味的文本拓展[A];江苏省教育学会2006年年会论文集(文科专辑)[C];2006年
19 钟辉;黄洋;;基于版面特征的文档图像的文本定位方法[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年
20 韩露;余正涛;邓锦辉;章程;毛存礼;郭剑毅;;领域知识关系对领域文本分类的影响[A];第二十七届中国控制会议论文集[C];2008年
中国博士学位论文全文数据库 前20条
1 闫琰;基于深度学习的文本表示与分类方法研究[D];北京科技大学;2016年
2 宋胜利;文本语义表示及多层分类关键技术研究[D];西安电子科技大学;2012年
3 刘赫;文本分类中若干问题研究[D];吉林大学;2009年
4 刘晓佩;自然场景文本信息提取关键技术研究[D];西安电子科技大学;2014年
5 胡明涵;面向领域的文本分类与挖掘关键技术研究[D];东北大学 ;2009年
6 郭顺;词和文本的表示与文本分类的研究[D];大连理工大学;2020年
7 王中卿;基于文本信息的社会关系分析与研究[D];苏州大学;2016年
8 章东平;视频文本的提取[D];浙江大学;2006年
9 肖翠云;行走在文本与文化之间[D];苏州大学;2006年
10 李岩;基于深度学习的短文本分析与计算方法研究[D];北京科技大学;2016年
11 廖涛;面向事件的文本表示及其应用研究[D];上海大学;2014年
12 张妍;自我指涉与表演:柯马丁解释《诗经》等文本的策略[D];浙江大学;2014年
13 李丽洁;视频中文本信息提取技术研究[D];哈尔滨工程大学;2012年
14 孙巧榆;复杂背景图像的文本信息提取研究[D];华东师范大学;2012年
15 尹芳;场景文本识别关键技术研究[D];哈尔滨理工大学;2012年
16 孙晓华;基于聚类的文本机会发现关键问题研究[D];哈尔滨工程大学;2010年
17 许剑峰;数字视频中的文本分割的研究[D];华南理工大学;2005年
18 李朝晖;基于视频文本检测和视频对象分割方法研究[D];华南理工大学;2004年
19 熊云波;文本信息处理的若干关键技术研究[D];复旦大学;2006年
20 刘健;基于近似文本分析的意见挖掘[D];上海大学;2007年
中国硕士学位论文全文数据库 前20条
1 张艺聪;基于LSTM和K-means聚类的水利文本分类模型研究[D];华北水利水电大学;2021年
2 张丽;基于文本复杂网络与LSTM相结合的中文分类算法研究[D];南京航空航天大学;2020年
3 周雪松;基于K-means聚类与LSTM的词义消歧研究[D];哈尔滨理工大学;2020年
4 闫勇莉;基于改进的LSTM的文本情感分析研究[D];大连海事大学;2018年
5 翟正国;基于改进的LSTM和集成算法的文本分类研究[D];大连海事大学;2019年
6 蔚莹;基于LSTM的中文文本情感分类[D];内蒙古师范大学;2020年
7 范骋清;面向短消息文本的聚类技术研究与应用[D];西南财经大学;2011年
8 陈晨;文本分类中基于k-means的特征选择算法研究[D];西安电子科技大学;2014年
9 杨云成;基于深度学习的文本情感倾向性分类研究[D];江苏大学;2020年
10 杜岐岐;基于深度学习的电话文本分类模型与应用研究[D];首都经济贸易大学;2019年
11 张春杰;基于主题模型的文本分类及主题词网络构建研究[D];中国民航大学;2015年
12 项珑;基于特征提取和主题模型的文本分类研究[D];安徽大学;2013年
13 陈小顺;自然场景下文本检测方法研究与智能设备设计应用[D];江苏大学;2020年
14 范桂群;论坛用户行为分析及文本表示模型研究[D];北京邮电大学;2012年
15 张庐颖;基于粗糙集的K-means研究[D];北京交通大学;2011年
16 张丕英;基于问题配价的专利文本表示模型[D];内蒙古大学;2021年
17 王贺;基于文本分析与LSTM的金融时间序列预测研究[D];武汉理工大学;2019年
18 邵思宇;基于方面级的文本情感分类研究[D];重庆大学;2020年
19 沐晓帆;基于主题的文本分类模型研究与应用[D];电子科技大学;2014年
20 张剑;基于概念的文本表示模型的研究[D];清华大学;2006年
中国重要报纸全文数据库 前20条
1 南京师范大学外国语学院 姚婷婷;自然文本:生态符号学重要的方法论概念[N];中国社会科学报;2021年
2 记者 程静;市政府召开申报国家历史文化名城文本专题汇报会[N];九江日报;2019年
3 本报记者 王晓真 实习记者 陈禹同;推动中国古典文本国际化[N];中国社会科学报;2020年
4 记者 陈姝;拦截恶意文本只需“毫秒”[N];深圳商报;2020年
5 ;中美走到谈协议文本,双方更需理性[N];环球时报;2019年
6 记者 林嫔;完善申报历史文化名城文本[N];湄洲日报;2018年
7 本报记者 王婷婷;写好申遗文本 讲好梵净故事[N];铜仁日报;2018年
8 本报记者 袁欢;立一个自足于文本的“深度时间”[N];文学报;2018年
9 江苏省南京市长江路小学 宋韵;抵达文本深处[N];中国教师报;2019年
10 记者 王心见;联合国公布2015巴黎气候协定谈判文本[N];科技日报;2015年
11 晓春;里斯本协定日内瓦文本通过[N];中国工商报;2015年
12 南文;明清城墙联合申遗文本汇总编制第二次协调会召开[N];中国文物报;2012年
13 本报记者 过团木;文本短信:主流地位没有动摇[N];通信信息报;2004年
14 ;BI和文本分析的强强联手[N];网络世界;2007年
15 本报记者 孙妙凝;在流变视角下重新审视“文本之河”[N];中国社会科学报;2014年
16 本报记者 刘毅;图文本日益青睐经典之作[N];中华读书报;2000年
17 本报记者 王树民;《购售电合同(示范文本)》公布[N];中国电力报;2003年
18 记者 邱骏 张虎林;博物馆新馆布展文本方案通过专家论证[N];泰州日报;2010年
19 驻辽宁记者李一;辽宁推出《家装合同》示范文本规范家装行业[N];中国建材报;2009年
20 本报记者  李红兴;文本神话在网络[N];财经时报;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978