收藏本站
《大连理工大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

不完整数据分类知识发现算法研究

祁瑞华  
【摘要】:分类知识发现是数据挖掘的基本任务,也是知识发现中最重要的目标之一。据统计,在机器学习和数据挖掘应用过程中不完整数据的理解需要花费大量的时间和精力,因此不完整数据处理是现实世界中分类知识挖掘必须认真对待的重要问题。本文以提高不完整数据的分类知识发现算法性能为切入点,探索充分利用不完整数据集中隐含信息和提高数据挖掘效率的途径。本文具体的研究工作如下: (1)出于提高算法分类正确率的目的,针对朴素信念分类算法忽略属性变量的投票权重,提出了基于相关系数的加权保守推理规则。 此规则尝试用权重量化不完整数据中属性变量与类别之间的相关程度,基于此思路改进了朴素信念分类算法,并在国际公开的数据集上与现有的主要分类算法进行了分类对比实验。实验结果表明在不需要对不完整数据进行填充处理,并由此避免因不合理填充方法引起数据倾斜的情况下,该算法能够充分学习不完整数据中蕴含的隐藏信息,学习性能优于朴素信念分类和朴素贝叶斯分类算法,在某些数据集上与支持向量机不相上下。尤其是在朴素贝叶斯分类准确率表现不佳的样本上,不完整数据条件下的加权朴素信念分类算法得到了较好的分类结果。 (2)针对目前半监督分类算法中未考虑缺失属性数据项隐含信息和算法复杂度高的情况,本文提出两阶段半监督加权朴素信念分类模型。 此模型将半监督分类过程分为两个阶段的加权朴素信念分类,与直推支持向量机和在国际公开标准数据集上的对比实验表明两阶段半监督加权朴素信念分类模型有效地减少了分类时间,而在其能够明确分类样本上的正确率与直推支持向量机相当。 (3)为了增强朴素信念分类算法的鲁棒性,提高其明确分类样本比例低的情况,本文提出基于放松区间优势的不完整数据分类模型。 此模型在放松区间优势定义的基础上改进了朴素信念分类,在国际公开标准数据集上的对比实验表明此模型在大多数的数据集上起到了改善朴素信念分类和加权朴素信念分类算法明确分类样本比例的作用,有利于做出确切的分类判断,同时保证了较高的分类正确率,总体分类性能优于朴素信念分类、加权朴素信念分类、朴素贝叶斯算法和最近邻法,但是否优于支持向量机要观察其在不同数据集上的表现。 最后,本文将加权朴素信念分类、两阶段加权朴素信念半监督分类算法和放松区间优势朴素信念分类算法分别应用于文体风格识别不完整数据集,取得了较理想的实验结果,验证了算法的有效性。
【学位授予单位】:大连理工大学
【学位级别】:博士
【学位授予年份】:2011
【分类号】:TP311.13

手机知网App
【相似文献】
中国期刊全文数据库 前10条
1 马捷;钟子发;史英春;;基于不完整数据的异常信号检测方法[J];计算机工程;2011年14期
2 祁瑞华;杨德礼;;基于放松区间优势的不完整数据分类[J];情报学报;2011年08期
3 王新志;孙乐昌;陆余良;张旻;;一种面向软件行为可信性的入侵检测方法[J];中国科学技术大学学报;2011年07期
4 邓松;王映龙;何火娇;罗东平;袁威;;粗糙集在销售决策系统中的应用[J];计算机技术与发展;2011年09期
5 张博;张超伟;;中药方剂数据挖掘中的数据预处理研究[J];电脑知识与技术;2011年17期
6 薛爱萍;任志国;;空间数据挖掘系统设计[J];中国市场;2011年32期
7 ;[J];;年期
8 ;[J];;年期
9 ;[J];;年期
10 ;[J];;年期
中国重要会议论文全文数据库 前10条
1 廖再飞;罗雄飞;吕新杰;李新;刘伟;王宏安;;一种面向不完整数据流上的k-支配skyline查询算法[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
2 吴春芬;刘春雷;李强;;不完整数据分布的x~2优化参数估计法研究[A];2004年全国机械可靠性学术交流会论文集[C];2004年
3 胡学钢;王志海;王漫;;数据库中异常事例的分析[A];数据库研究进展97——第十四届全国数据库学术会议论文集(上)[C];1997年
4 谢琳;李凡长;;一种新的动态模糊参数学习算法研究[A];2008年全国开放式分布与并行计算机学术会议论文集(上册)[C];2008年
5 戴晨光;董广军;张永生;;基于MIBARK属性约简算法的图象融合技术研究[A];第十二届全国图象图形学学术会议论文集[C];2005年
6 董广军;张永生;戴晨光;范永弘;;基于粗糙集的多源信息融合处理技术[A];第三届全国信息获取与处理学术会议论文集[C];2005年
7 唐刚;马坚伟;杨慧珠;;压缩采样及其在地震数据处理中的应用[A];中国地球物理·2009[C];2009年
8 廖再飞;吕新杰;罗雄飞;刘伟;王宏安;;一种基于动态自适应数据窗口的模糊k-均值聚类缺失数据估算算法[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
9 彭玉青;何华;顾军华;;基于粗集理论的归纳依赖关系的研究[A];第十七届全国数据库学术会议论文集(技术报告篇)[C];2000年
10 姜国华;王宏志;李建中;高宏;;基于聚类的非清洁数据库的聚集查询处理算法[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
中国重要报纸全文数据库 前4条
1 记者 何屹;美籍华裔科学家获英计算机最高奖[N];科技日报;2008年
2 通讯员 杨栎;汉寿建成我市首家税征信息中心[N];常德日报;2009年
3 王纪平;信息网络化建设的十个原则[N];中国建设报;2001年
4 本报记者 潘永花;数据不再受羁[N];网络世界;2003年
中国博士学位论文全文数据库 前10条
1 祁瑞华;不完整数据分类知识发现算法研究[D];大连理工大学;2011年
2 陈景年;选择性贝叶斯分类算法研究[D];北京交通大学;2008年
3 王红梅;保护隐私的贝叶斯网络学习研究[D];天津大学;2006年
4 华斌;贝叶斯网络在水电机组状态检修中的应用研究[D];华中科技大学;2004年
5 唐刚;基于压缩感知和稀疏表示的地震数据重建与去噪[D];清华大学;2010年
6 孙岩;贝叶斯网络结构学习算法研究与应用[D];大连理工大学;2010年
7 刘晓颖;复杂过程的智能故障诊断技术及其在大型工业窑炉中的应用研究[D];中南大学;2003年
8 王双成;面向智能数据处理的图形模式研究[D];吉林大学;2004年
9 陈伟;数据清理关键技术及其软件平台的研究与应用[D];南京航空航天大学;2005年
10 杨显飞;数据流集成分类器算法研究[D];哈尔滨工程大学;2011年
中国硕士学位论文全文数据库 前10条
1 董辉;不完整数据的贝叶斯网络参数学习新算法[D];广西师范大学;2003年
2 乔珠峰;基于不完整数据处理方法的贝叶斯分类器研究[D];北京交通大学;2007年
3 鲁均云;重复和不完整数据的清理方法研究及应用[D];江苏大学;2009年
4 叶振春;实兵对抗演习评估系统中数据清理方法研究[D];解放军信息工程大学;2011年
5 刘华;Web信息集成中数据清洗的研究[D];武汉理工大学;2007年
6 李俊杰;关于Fredholm积分方程的一类改进数值算法及其应用[D];厦门大学;2007年
7 李长军;基于贝叶斯网络的中医医案数据挖掘[D];厦门大学;2008年
8 张好军;Web数据集成中数据清洗的关键问题研究[D];山东大学;2009年
9 刘峰;垂直搜索中的数据清洗和排序算法研究[D];中国科学技术大学;2009年
10 姚晨榕;基于状态的民航发动机维修管理研究[D];南京航空航天大学;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026