收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于朴素贝叶斯方法的新闻分类系统的实现

周远阳  
【摘要】:近几年来,随着信息的爆炸式增长,各种各样的新闻层出不穷。然而,如何将这些大量的新闻数据进行整理、分类收集、解决数据杂乱的问题,是本文主要研究的问题。人工对新闻进行分类,不仅耗费大量的人力和金钱,同时也需要大量的时间。因此有必要借助技术手段来解决新闻分类的问题,以提高工作效率。 本文对新闻分类中常用的相关技术和算法进行深入的研究和分析。在分类算法上,本文研究了当前比较主流的贝叶斯分类算法,针对该算法存在的缺陷问题将进行深入研究。其次在特征提取和增量学习研究方面,本文研究目前主要的特征提取方法,重点研究了本文采用的CHI提取方法和基于朴素贝叶斯的增量学习算法,并提出了新的增量学习中文本选择方法。最后,设计了基于朴素贝叶斯方法的新闻分类模型,实现了一个完整的新闻分类系统,主要包括文本的预处理、特征提取、增量学习模块、分类器构造和分类性能评估等几个过程,利用java语言实现了整个系统。为了更好的研究新闻分类系统,实验中采用南方日报的实际新闻数据完成测试。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 徐治国;;基于朴素贝叶斯的垃圾邮件分类系统的设计[J];盐城工学院学报(自然科学版);2008年02期
2 梁宏胜;徐建民;成岳鹏;;一种改进的朴素贝叶斯文本分类方法[J];河北大学学报(自然科学版);2007年03期
3 夏克俭;张涛;;基于贝叶斯算法的垃圾邮件过滤的研究[J];微计算机信息;2008年09期
4 崔彩霞;张朝霞;;文本分类方法对比研究[J];太原师范学院学报(自然科学版);2007年04期
5 李丹;张兆信;宗占国;;利用开源的数据挖掘平台WEKA进行文本分类仿真实验[J];煤炭技术;2011年05期
6 杨延娇;王治和;;基于树桩网络的贝叶斯文本分类算法[J];计算机工程;2009年16期
7 袁文生;王晓峰;;基于朴素贝叶斯的中文海事文本多分类器研究[J];计算机与现代化;2011年05期
8 靳小波;夏清国;;基于Lee模型的文本分类[J];计算机工程;2006年02期
9 赵培;牛纪桢;史金艳;;改进的SVM在语音识别文本分类中的应用[J];广西师范大学学报(自然科学版);2009年01期
10 孙铁利;赵隽;杨凤芹;吴迪;;一种基于相对特征的文本分类算法[J];东北师大学报(自然科学版);2010年01期
11 牛罡;罗爱宝;商琳;;半监督文本分类综述[J];计算机科学与探索;2011年04期
12 周国强;崔荣一;;基于朴素贝叶斯分类器的朝鲜语文本分类的研究[J];中文信息学报;2011年04期
13 王潇;胡鑫;;一种改进的贝叶斯文本分类模型[J];邢台职业技术学院学报;2006年01期
14 谢伟全;叶强;李一军;;基于用户知识的中文电子邮件分类[J];计算机应用研究;2007年03期
15 安艳辉;董五洲;游自英;;基于改进的朴素贝叶斯文本分类研究[J];河北省科学院学报;2007年01期
16 陈世立;高野军;;基于神经网络与贝叶斯的混合文本分类研究[J];情报杂志;2007年05期
17 李辉;张琦;卢湖川;;基于内容的垃圾短信过滤[J];计算机工程;2008年12期
18 苑俊英;陈海山;;一种改进的特征选取方法[J];科技信息;2009年04期
19 程春惠;何钦铭;;面向不均衡类别朴素贝叶斯犯罪案件文本分类[J];计算机工程与应用;2009年35期
20 王潇;;对贝叶斯文本分类模型的改进[J];现代计算机(专业版);2008年01期
中国重要会议论文全文数据库 前10条
1 石志伟;吴功宜;;改善朴素贝叶斯在文本分类中的稳定性[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
2 王占一;徐蔚然;刘东鑫;郭军;;一种基于两级分类器的垃圾短信过滤方法[A];第五届全国信息检索学术会议论文集[C];2009年
3 陈克利;宗成庆;王霞;;基于大规模真实文本的平衡语料分析与文本分类方法[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
4 杜长海;吉根林;;模糊聚类的最大树法在文本分类中的应用研究[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
5 王小华;陆蓓;张国煊;;文本自动分类的模糊方法[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
6 张鑫;程学旗;谭建龙;王映;;一种快速的多模式串匹配算法及其在实时汉语文本分类系统中的应用[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
7 刘秉权;李博;孙林;王宝勋;刘远超;;标签特征和正文特征融合的SVM博客文本分类算法研究[A];第六届全国信息检索学术会议论文集[C];2010年
8 李远;肖小河;金城;;基于药性理论的临床中药分类体系构建的设想[A];中华中医药学会中成药学术研讨会论文集[C];2007年
9 郭晓宁;王松涛;陈向东;魏钢;;高层钢框架梁柱节点连接类型的判定分析[A];第八届全国结构工程学术会议论文集(第Ⅲ卷)[C];1999年
10 王秀娟;郑康锋;杨星海;;线性鉴别分析在中文文本分类中的应用[A];2005通信理论与技术新进展——第十届全国青年通信学术会议论文集[C];2005年
中国博士学位论文全文数据库 前10条
1 章舜仲;文本分类中词共现关系的研究及其应用[D];南京理工大学;2010年
2 冯国忠;文本分类中的贝叶斯特征选择[D];东北师范大学;2011年
3 郑文斌;基于正则化线性统计模型的文本分类研究[D];浙江大学;2012年
4 廖一星;文本分类及其特征降维研究[D];浙江大学;2012年
5 郝立丽;汉语文本数据挖掘[D];吉林大学;2009年
6 孟佳娜;迁移学习在文本分类中的应用研究[D];大连理工大学;2011年
7 李智星;用于文本分类的简明语义分析技术研究[D];重庆大学;2011年
8 李自强;大规模文本分类的若干问题研究[D];电子科技大学;2013年
9 郝立柱;汉语文本自动分类[D];吉林大学;2008年
10 刘伍颖;面向垃圾信息过滤的主动多域学习文本分类方法研究[D];国防科学技术大学;2011年
中国硕士学位论文全文数据库 前10条
1 罗福星;增量学习朴素贝叶斯中文分类系统的研究[D];中南大学;2008年
2 周钦强;基于人工智能技术Naive Bayes文本自动分类系统研究[D];广东工业大学;2005年
3 汪传建;基于混合模型的文本分类的研究[D];东北大学;2005年
4 王雪飞;词间相关性对文本分类的影响[D];南京理工大学;2007年
5 李笛;基于内容的垃圾邮件过滤方法研究[D];合肥工业大学;2008年
6 赵隽;基于相对特征的文本分类算法研究[D];东北师范大学;2008年
7 周远阳;基于朴素贝叶斯方法的新闻分类系统的实现[D];暨南大学;2012年
8 王雷;基于改进贝叶斯算法的文本分类器的研究及其在NERMS中的应用[D];吉林大学;2006年
9 蒋伟贞;基于类别的特征选择算法的文本分类系统[D];西南交通大学;2004年
10 郭飞;文本挖掘方法探讨及应用[D];成都理工大学;2006年
中国重要报纸全文数据库 前10条
1 本报记者   王军;新华富时指数 引入创新行业分类系统[N];中国证券报;2006年
2 李宇;恒指服务有限公司更名[N];中国证券报;2007年
3 记者 熊燕;杂交玉米选育在滇实现突破[N];云南日报;2006年
4 周东;数威:创业之路有点难[N];中国高新技术产业导报;2005年
5 本报记者 白毅;生物药剂学分类系统促进新药研发[N];中国医药报;2002年
6 本报记者 李凯 蔡毓生;永远与时间赛跑的科研女杰[N];汕头日报;2005年
7 武广华;疾病诊断相关分类系统(DRGs)的发展及我国的相关研究[N];健康报;2006年
8 徐风;ecl@ss电子商务分类解决方案在中国推进[N];中国质量报;2006年
9 本报记者  朱艳冰 王晓东 徐华;印象初:一辈子做好一件事[N];河北日报;2006年
10 本报记者 胡轶坤;能否出现物料代码“世界语”[N];中国汽车报;2005年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978