收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于判别式学习和组合分类器的Web文本分类技术

张颜锋  
【摘要】: 如何从丰富的网络信息资源中发现有价值的利用信息,是目前一个非常迫切需要解决的问题,网页自动分类是解决这一问题的一项关键技术,对信息检索、信息过滤、主动化个性化的服务提供等等的发展来讲很有应用价值。 在众多的网页文本分类算法中,朴素贝叶斯方法因为具有简单、容易实现、工作效率高、非常适合在线处理等优点而被广泛应用,但是其分类正确率有待提高。本文以朴素贝叶斯算法为基础,研究如何提高网页文本分类的精度,本文的主要工作有: (1)本文研究了判别式贝叶斯网络学习算法,将一种以数据的经验分布和真实分布之间的K-L距离为目标优化函数的判别式的朴素贝叶斯参数学习算法引入中文文本分类,同时考虑了数据类别之间的关系,将判别式参数学习算法和层次分类相结合,提出一种基于K-L距离的判别式朴素贝叶斯层次文本分类方法。在本文的中文网页数据集上的实验结果证明,基于K-L距离的判别式朴素贝叶斯层次文本分类方法确实能够得到较好的分类效果。 (2)本文以多种形式表示网页,将网页按照自身结构进行划分,每个结构元素单独训练一个子文本分类器,通过多种组合原则对子分类器的结果进行组合以组合分类器的方法进行网页分类。实验证明,组合文本分类器的方法是切实可行的,无论是平面分类还是层次分类,组合后的分类器都比组合前分类效果好;在本文使用的四种组合原则中,按照独立性原则和最大原则进行组合的方法比多数原则和加权求和的方法表现更佳。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 郑炜;沈文;张英鹏;;基于改进朴素贝叶斯算法的垃圾邮件过滤器的研究[J];西北工业大学学报;2010年04期
2 李毅;顾健;顾铁军;;基于朴素贝叶斯方法的邮件样本预筛选[J];信息网络安全;2010年10期
3 张阳,张利军,闫剑锋,李战怀;基于关联特征的朴素贝叶斯文本分类器[J];西北工业大学学报;2004年04期
4 徐杰,施鹏飞;图像检索中基于标记与未标记样本的主动学习算法[J];上海交通大学学报;2004年12期
5 廖明涛;张德运;李金库;;基于朴素贝叶斯和层次聚类的两阶段垃圾邮件过滤方法[J];微电子学与计算机;2007年08期
6 金展;范晶;陈峰;徐从富;;基于朴素贝叶斯和支持向量机的自适应垃圾短信过滤系统[J];计算机应用;2008年03期
7 白耀辉;陈明;王举群;;利用朴素贝叶斯方法实现异常检测[J];计算机工程与应用;2005年34期
8 任喜峰;;基于朴素贝叶斯分类的考试成绩监测机制的研究[J];科技信息;2007年01期
9 夏克俭;张涛;;基于贝叶斯算法的垃圾邮件过滤的研究[J];微计算机信息;2008年09期
10 陈琳;邓万宇;;差分进化贝叶斯分类器[J];微处理机;2010年04期
11 王德文;赵文清;朱永利;;一个基于粗糙集理论的邮件分类模型[J];计算机工程与应用;2006年18期
12 王峻;;一种基于强属性限定的贝叶斯分类模型[J];计算机技术与发展;2007年02期
13 蒋望东;陆小艺;林士敏;;处理缺失数据的朴素贝叶斯分类增量算法[J];科学技术与工程;2008年14期
14 刘琳;何剑锋;王红玲;;GPU加速数据挖掘算法的研究[J];郑州大学学报(理学版);2010年02期
15 杨伟;方涛;许刚;;基于朴素贝叶斯的半监督学习遥感影像分类[J];计算机工程;2010年20期
16 陈治平;王雷;;基于自学习K近邻的垃圾邮件过滤算法[J];计算机应用;2005年S1期
17 翟素兰;郑诚;;用于入侵检测的基于粗糙集的贝叶斯分类器[J];计算机技术与发展;2006年01期
18 崔彩霞;张朝霞;;文本分类方法对比研究[J];太原师范学院学报(自然科学版);2007年04期
19 王峻;;朴素贝叶斯分类模型在指导学生选择专业选修课方向中的应用[J];电脑知识与技术;2008年07期
20 王涛;裘国永;何聚厚;;新的基于最小风险的贝叶斯邮件过滤模型[J];计算机应用研究;2008年04期
中国重要会议论文全文数据库 前10条
1 李海军;王钲旋;王利民;苑森淼;;基于主成分分析提升朴素贝叶斯[A];中国仪器仪表学会第六届青年学术会议论文集[C];2004年
2 张阳;李战怀;卢维扬;;通过弱化朴素贝叶斯假设提高朴素贝叶斯文本分类器的性能[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
3 李海军;王钲旋;王利民;苑森淼;;基于贝叶斯网络的回归树学习算法[A];中国仪器仪表学会第六届青年学术会议论文集[C];2004年
4 蒋盛益;谢照青;余雯;;基于代价敏感的朴素贝叶斯不平衡数据分类研究[A];2010年第16届全国信息存储技术大会(IST2010)论文集[C];2010年
5 张云涛;龚玲;王永成;;基于语料库的朴素贝叶斯方法的词义消歧[A];2005年中国智能自动化会议论文集[C];2005年
6 石志伟;吴功宜;;改善朴素贝叶斯在文本分类中的稳定性[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
7 李晓波;;集成分类对比:Bagging NB & Boosting NB[A];2010年全国开放式分布与并行计算机学术会议论文集[C];2010年
8 王占一;徐蔚然;刘东鑫;郭军;;一种基于两级分类器的垃圾短信过滤方法[A];第五届全国信息检索学术会议论文集[C];2009年
9 苏绥;林鸿飞;叶正;;基于字符语言模型的垃圾邮件过滤[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
10 张文波;蒋春华;姚天昉;;基于贝叶斯及多模式串模糊匹配算法的不良短消息甄别混合模型[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
中国博士学位论文全文数据库 前10条
1 陈治平;智能搜索引擎理论与应用研究[D];湖南大学;2003年
2 董立岩;贝叶斯网络应用基础研究[D];吉林大学;2007年
3 王美珍;垃圾邮件行为模式识别与过滤方法研究[D];华中科技大学;2009年
4 彭绍武;基于形状与语义建模的物体识别[D];华中科技大学;2009年
5 舒泓;电能质量扰动检测和分类问题的研究[D];北京交通大学;2009年
6 蒋良孝;朴素贝叶斯分类器及其改进算法研究[D];中国地质大学;2009年
7 李海军;计算机图形学若干基本算法的实现研究[D];吉林大学;2008年
8 李旭升;贝叶斯网络分类模型研究及其在信用评估中的应用[D];西南交通大学;2007年
9 安百国;关于模型稀疏性的研究[D];东北师范大学;2012年
10 关菁华;基于贝叶斯网数据挖掘若干问题研究[D];吉林大学;2009年
中国硕士学位论文全文数据库 前10条
1 胡为成;基于遗传算法的朴素贝叶斯分类研究[D];合肥工业大学;2006年
2 禤毅良;电子商务智能推荐系统研究[D];广东工业大学;2004年
3 曾红伟;摘录式单文档中文自动文摘系统的研究与实现[D];华东师范大学;2009年
4 李光;朴素贝叶斯分类器预测拟南芥蛋白质相互作用及蛋白质功能注释[D];东北林业大学;2008年
5 蒋伟贞;基于类别的特征选择算法的文本分类系统[D];西南交通大学;2004年
6 郭亚光;基于粗糙集合和朴素贝叶斯模型的分类问题研究[D];合肥工业大学;2005年
7 周钦强;基于人工智能技术Naive Bayes文本自动分类系统研究[D];广东工业大学;2005年
8 王峻;朴素贝叶斯分类模型的研究与应用[D];合肥工业大学;2006年
9 林炼;基于网络处理器的垃圾邮件过滤系统[D];厦门大学;2008年
10 李方;关于朴素贝叶斯分类算法的改进[D];重庆大学;2009年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978