收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于朴素贝叶斯的文本分类算法研究

何伟  
【摘要】:互联网技术的飞速发展使得人们进入了大数据时代,互联网作为当今获取信息的主要渠道,与人类的关系也越来越密切。然后互联网中的绝大部分信息都是以文本形式存在,从而寻找一种能够有效处理文本数据进而对文本数据进行准确分类的方法成为当今具有重要研究价值的领域。朴素贝叶斯算法作为机器学习算法中的经典算法之一,以其模型简单、分类速度快、分类效率高等优点,成为了文本分类算法的重要研究内容。对于朴素贝叶斯文本分类系统而言,一方面由于传统朴素贝叶斯理论是在假设了所有特征相互独立的基础上成立的,即特征词与特征词之间是相互独立的,这一定程度上影响了分类器的性能,因此如果能够寻找一些方法来削弱或消除特征独立性假设就可以相应的提高分类器的性能。另一方面对于海量的数据,如果不进行特征提取,就会增加分类系统的负担,降低分类器的性能,所以本文分别从文本分类系统的三个方向进行处理,提出了基于IGDC特征加权的朴素贝叶斯文本分类算法(IGDCNB),基于IGDC深度加权的朴素贝叶斯文本分类算法(IGDC-DWNB),改进的自定义特征维度的快速相关性过滤(IFSC-FCBF)算法。本文的主要贡献:(1)研究并改进了朴素贝叶斯特征加权算法模型,提出了基于IGDC特征加权的朴素贝叶斯文本分类模型。该模型通过全新的方式计算特征在每个类别和每个文档中两个维度的信息增益,并通过线性归一化的方式结合了两个维度的信息,大大削弱了朴素贝叶斯的特征条件独立性假设。(2)研究了朴素贝叶斯深度加权模型,针对朴素贝叶斯模型自身的缺陷,改进了朴素贝叶斯模型条件概率的训练方式,将IGDC应用于朴素贝叶斯的深度加权中,提出了基于IGDC深度加权的朴素贝叶斯文本分类模型,进一步削弱了其特征条件独立性假设。(3)首次将快速相关性过滤算法(FCBF)应用于文本分类中,综述了FCBF算法的应用领域及其在文本分类中存在的缺陷,改进了特征相关性的计算方式,并优化了原始FCBF算法步骤,提出了改进的自定义特征维度的快速相关性过滤(IFSC-FCBF)的朴素贝叶斯文本分类算法,在保证特征维度相同时,能够更加快速的选择出更加优越的特征,并且消耗更少的时间。


知网文化
【相似文献】
中国期刊全文数据库 前18条
1 张林;石洪波;;基于主成分分析朴素贝叶斯和决策树比较[J];电脑知识与技术;2010年01期
2 钱颖能;胡运发;;用朴素贝叶斯分类法选股[J];计算机应用与软件;2007年06期
3 李永慈;余欣宁;王三强;;朴素贝叶斯判别的判别效用分析[J];生物数学学报;2010年02期
4 李柏生;林亚平;鄢喜爱;;基于朴素贝叶斯网络的入侵检测分析[J];网络安全技术与应用;2007年09期
5 王实;高文;;增强型朴素贝叶斯学习[J];计算机科学;2000年04期
6 张永娇;张华栋;刘禹欣;;基于朴素贝叶斯的学生发展预测研究[J];大连民族学院学报;2011年05期
7 周文刚;金鑫;;基于树扩展朴素贝叶斯的高效网络入侵检测系统[J];北京师范大学学报(自然科学版);2007年01期
8 冯军军;贺晓春;王海沛;;基于朴素贝叶斯网络的微博话题追踪技术研究[J];计算机与数字工程;2017年11期
9 陈弋兰;;基于模糊聚类的混合朴素贝叶斯分类模型[J];安徽建筑工业学院学报(自然科学版);2009年03期
10 郭斐斐;葛文庚;;基于距离度量的局部加权朴素贝叶斯算法改进[J];电脑开发与应用;2009年10期
11 裴亚辉;熊盛武;;朴素贝叶斯及其扩展模型[J];网络安全技术与应用;2007年08期
12 郑开雨;竹翠;;基于上下文语义的朴素贝叶斯文本分类算法[J];计算机与现代化;2018年06期
13 谢苗;刘琳岚;;基于朴素贝叶斯的鼠标轨迹识别方法[J];信息通信;2018年09期
14 陈叶旺;余金山;;一种改进的朴素贝叶斯文本分类方法[J];华侨大学学报(自然科学版);2011年04期
15 杨琼;唐振平;陈建华;蒋建军;韦海峰;;基于模糊朴素贝叶斯方法的客户消费行为预测研究[J];湖南科技学院学报;2013年12期
16 王守选;叶柏龙;李伟健;谭一云;;决策树、朴素贝叶斯和朴素贝叶斯树的比较[J];计算机系统应用;2012年12期
17 孟天乐;;朴素贝叶斯在文本分类上的应用[J];通讯世界;2019年01期
18 刘中胜;;基于朴素贝叶斯理论的高职院校软件项目实训综合评价研究[J];科技创新导报;2019年05期
中国重要会议论文全文数据库 前10条
1 李兰春;王双成;杜瑞杰;;认知结构评估的动态贝叶斯网络分类器方法[A];2011年中国智能自动化学术会议论文集(第一分册)[C];2011年
2 张阳;李战怀;卢维扬;;通过弱化朴素贝叶斯假设提高朴素贝叶斯文本分类器的性能[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
3 张云涛;龚玲;王永成;;基于语料库的朴素贝叶斯方法的词义消歧[A];2005年中国智能自动化会议论文集[C];2005年
4 苏绥;林鸿飞;叶正;;基于字符语言模型的垃圾邮件过滤[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
5 韩杰;倪志伟;巨东东;倪丽萍;;基于朴素贝叶斯和无监督学习的数据流分类算法[A];第十二届(2017)中国管理学年会论文集[C];2017年
6 田盛;侯廷军;;多构象并行虚拟筛选策略的构建和评估[A];中国化学会第29届学术年会摘要集——第19分会:化学信息学与化学计量学[C];2014年
7 许仕伟;周辛南;梁晔;王海燕;刘金岭;周小鹤;席文杰;张竞文;邱凯义;;基于知识图谱的农村营销移动作业微应用系统设计与实现[A];第三届智能电网会议论文集[C];2018年
8 张文波;蒋春华;姚天昉;;基于贝叶斯及多模式串模糊匹配算法的不良短消息甄别混合模型[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
9 李海军;王钲旋;王利民;苑森淼;;基于主成分分析提升朴素贝叶斯[A];中国仪器仪表学会第六届青年学术会议论文集[C];2004年
10 孙艺升;;基于深度学习的飞机飞行轨迹目标识别[A];第一届空中交通管理系统技术学术年会论文集[C];2018年
中国博士学位论文全文数据库 前6条
1 陶建斌;贝叶斯网络模型在遥感影像分类中的应用方法研究[D];武汉大学;2010年
2 官国宇;超高维两值数据的动态分类方法研究[D];东北师范大学;2014年
3 郑希源;基于多标记学习的图像标注关键技术研究[D];山东师范大学;2016年
4 张旭;面向局部特征和特征表达的图像分类算法研究[D];合肥工业大学;2016年
5 林民龙;基于神经网络集成的增量式学习[D];中国科学技术大学;2012年
6 王清;集成学习中若干关键问题的研究[D];复旦大学;2011年
中国硕士学位论文全文数据库 前10条
1 何伟;基于朴素贝叶斯的文本分类算法研究[D];南京邮电大学;2018年
2 李晓东;隐朴素贝叶斯在情感分类中的应用研究[D];南华大学;2019年
3 赵元春;风电爬坡事件的区间概率估计方法研究[D];山东大学;2019年
4 崔哲;基于朴素贝叶斯方法的文本分类研究[D];河北科技大学;2018年
5 刘爽;基于大数据的情绪分析方法研究[D];曲阜师范大学;2018年
6 张伦干;多项式朴素贝叶斯文本分类算法改进研究[D];中国地质大学;2018年
7 林宏赡;基于朴素贝叶斯、线性判别、二次判别分类算法的选股实证研究[D];山东大学;2018年
8 李春红;使用朴素贝叶斯分类法预测果蝇蛋白质相互作用[D];上海师范大学;2007年
9 覃事东;基于函数依赖改进隐含朴素贝叶斯的性能和鲁棒性[D];吉林大学;2014年
10 郝丽锋;朴素贝叶斯分类器的集成学习方法研究[D];河北大学;2009年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978