收藏本站
《河北大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

基于不确定性样例选择算法的研究与改进

董令彩  
【摘要】: 很多数据集中含有冗余数据、噪声数据,以及不完备数据。这些数据不仅占据了很大的存储空间,而且对学习器完全无用甚至有害。因此,我们希望能够从一个数据集中选取少量有用的数据使之压缩成一个比较小的数据集,目的是在不降低学习器性能的前提下,减少存储空间。这就是样例选择所处理的问题。根据处理的对象不同,样例选择大致可以分成两大类:数据过滤算法和主动学习算法。数据过滤算法主要用于去除冗余数据和噪声数据,而主动学习算法主要用于处理不完备数据,即如何从无类标的数据中选择有价值的数据,这也是本课题处理的重点问题。 本论文研究了基于模糊决策树的最大不确定性样例选择策略,并对该策略进行了改进。基于不确定性最大的样例选择策略倾向于选取孤立点和异常点,而忽略分布密集区域的样例,因此文章引入了样例影响度作为样例选择的一个指标。通过选取影响度较大的样例,即位于样例分布密集区域的样例来尽量避免孤立点的选择。随后文章提出了新的样例选择标准:选择影响度和不确定性乘积最大的样例。通过对这种样例的选择与学习,既可以弥补学习器的薄弱知识,即对不确定性较大样例的分类知识,又可以避免学习特殊的模式,即由一些孤立点引导的分类模式。经理论证明,采用该选择标准选择的样例能最大限度地降低样例池的不确定性。最后,通过在人工数据集和UCI数据集上的实验结果显示,由改进后算法选择的样例比原算法选择的样例所训练的决策树的测试精度高。
【学位授予单位】:河北大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TP301.6

手机知网App
【引证文献】
中国硕士学位论文全文数据库 前2条
1 刘峰涛;基于样例池类标改变率的主动学习算法终止准则研究[D];河北大学;2011年
2 范彦方;SFL算法在实例选择中的应用[D];河北大学;2011年
【共引文献】
中国期刊全文数据库 前10条
1 赵悦;穆志纯;董洁;付冬梅;何伟;;基于QBC主动学习方法建立电信客户信用风险等级评估模型[J];北京科技大学学报;2007年04期
2 张莉;郭军;;基于边界样本的训练样本选择方法[J];北京邮电大学学报;2006年04期
3 任杰;柳毅;金鑫;别荣芳;;基于数据挖掘的蔬菜图片病害自动分类[J];北京师范大学学报(自然科学版);2006年06期
4 任大伟;胡正平;高文涛;;基于样本不同属性综合的鲁棒偏倚赖主动学习分类算法研究[J];燕山大学学报;2011年01期
5 田立峰;黄媛;刘俊勇;;电网静态安全的自适应性超实时预测[J];电力自动化设备;2010年04期
6 徐杰,施鹏飞;图像检索中基于最大信息获取量的主动学习算法(英文)[J];Journal of Southeast University(English Edition);2004年04期
7 刘郁,陈耘志,张兵;图像挖掘中利用类特征集成的自动学习算法研究[J];电脑知识与技术;2005年30期
8 孙荣宗;;一种快速KNN文本分类算法[J];电脑知识与技术;2010年01期
9 张石清;李乐民;赵知劲;;基于一种改进的监督流形学习算法的语音情感识别[J];电子与信息学报;2010年11期
10 杨金福;宋敏;李明爱;;一种新的基于距离加权的模板约简K近邻算法[J];电子与信息学报;2011年10期
中国重要会议论文全文数据库 前8条
1 樊晓平;廖志芳;陈宇宙;瞿志华;;大肠癌组织自体荧光光谱数据处理新方法研究[A];第二十六届中国控制会议论文集[C];2007年
2 陈鑫;车万翔;刘挺;;基于主动学习的中文依存句法分析[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 ;A Boundary based Classifier Combination Method[A];2009中国控制与决策会议论文集(3)[C];2009年
4 冯祎;李霞;;一种K最近邻分类的改进算法及应用[A];2011年全国通信安全学术会议论文集[C];2011年
5 ;COLLABORATIVE FILTERING RECOMMENDATION ALGORITHM BASED ON LOOK-AHEAD SELECTIVE SAMPLING[A];2006年中国机械工程学会年会暨中国工程院机械与运载工程学部首届年会论文集[C];2006年
6 王会珍;张希娟;朱靖波;张斌;;基于主动学习的自适应话题追踪[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
7 张希娟;朱靖波;;主动学习中后验概率尖锐现象的平滑处理[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
8 缪有栋;邱锡鹏;黄萱菁;;基于主动学习的中文问题类别标注研究[A];第六届全国信息检索学术会议论文集[C];2010年
中国博士学位论文全文数据库 前10条
1 于化龙;基于DNA微阵列数据的癌症分类技术研究[D];哈尔滨工程大学;2010年
2 刘卫红;垃圾邮件检测与过滤关键技术研究[D];华南理工大学;2010年
3 桑永胜;空间数据分析的神经计算方法[D];电子科技大学;2010年
4 邓斌;B2C在线评论中的客户知识管理研究[D];电子科技大学;2010年
5 荆涛;面向领域网页的语义标注若干问题研究[D];吉林大学;2011年
6 王肃;基于多Agent的突发事件信息智能监测系统研究[D];北京邮电大学;2011年
7 李定;在线学习(WBL)服务质量评价与改进研究[D];电子科技大学;2011年
8 刘君;融合计算智能的蛋白质结构预测研究[D];重庆大学;2011年
9 杨艳屏;主动学习算法及其在心血管疾病诊断中的应用研究[D];华中科技大学;2010年
10 彭涛;基于特征和实例的海量数据约简方法研究[D];华中科技大学;2011年
中国硕士学位论文全文数据库 前10条
1 吕万里;中文文本分类技术研究[D];山东科技大学;2010年
2 平金玉;基于组合核与主动学习的蛋白质交互关系抽取[D];大连理工大学;2010年
3 梁延峰;基于专家委员会的主动学习算法研究[D];中国海洋大学;2010年
4 张庆久;近邻法与多视角学习的理论与算法研究[D];华东师范大学;2011年
5 周轩;免疫混合算法及其在数据挖掘和优化中的应用研究[D];华东理工大学;2011年
6 丁朋;凸优化在大规模机器学习中的应用[D];华东理工大学;2011年
7 陈红;聚类技术及其应用研究[D];福建师范大学;2010年
8 李亮;基于语义稀疏表示的不良图像检测算法[D];西安电子科技大学;2011年
9 晋小玲;图转导理论的研究与应用[D];华北电力大学(北京);2011年
10 张晓;基于粗糙集的样本选择方法研究[D];华北电力大学(北京);2011年
【同被引文献】
中国期刊全文数据库 前6条
1 李雄英;桂现才;;基于相对熵的决策树生成方法[J];电脑知识与技术;2009年03期
2 张鸿宾,孙广煜;近邻法参考样本集的最优选择[J];电子学报;2000年11期
3 刘星毅;韦小铃;;基于欧式距离的最近邻改进算法[J];广西科学院学报;2010年04期
4 龙军;殷建平;祝恩;赵文涛;;主动学习研究综述[J];计算机研究与发展;2008年S1期
5 洪家荣,丁明峰,李星原,王丽薇;一种新的决策树归纳学习算法[J];计算机学报;1995年06期
6 徐义峰;陈春明;徐云青;;一种新的基于密度的k-最近邻文本分类器训练样本约减方法[J];计算机系统应用;2007年11期
中国硕士学位论文全文数据库 前1条
1 王硕;增量决策树中样例选择的影响与评价[D];河北大学;2010年
【相似文献】
中国期刊全文数据库 前10条
1 邹成效,孙天胜;论技术异化的必然性[J];科技进步与对策;2005年10期
2 王进华;正规和奇异H_∞控制器的统一表达式[J];控制理论与应用;2005年05期
3 丁拓,丁静之;不确定性规划问题的实例与解法[J];甘肃科技纵横;2005年06期
4 肖敏;史忠科;;水雷运动控制的H_∞鲁棒方法[J];兵工自动化;2006年03期
5 陈星;魏衡华;张玉斌;;二轮行走倒立摆系统建模与鲁棒方差控制[J];计算机仿真;2006年03期
6 辛云冰;张潜;费树岷;;带有输入滞后和状态滞后的一类不确定系统的鲁棒控制[J];南京师范大学学报(工程技术版);2006年02期
7 冯旭刚;;基于模糊滑模方法的不确定机器人神经网络控制[J];冶金动力;2006年05期
8 王建;杜道生;;栅格数据表示空间信息的不确定性初探[J];地理信息世界;2007年02期
9 辛云冰;;一类带有输入滞后和状态滞后的不确定系统的鲁棒控制[J];集美大学学报(自然科学版);2007年01期
10 冉正云;李华德;杨立永;;不确定性直接转矩控制系统[J];控制理论与应用;2007年03期
中国重要会议论文全文数据库 前10条
1 刘恩东;井元伟;张嗣瀛;;不确定非线性组合系统基于动态神经网络的鲁棒控制[A];2004中国控制与决策学术年会论文集[C];2004年
2 孙蓓云;周辉;陈向跃;毛从光;;用Bootstrap方法求取电磁脉冲损伤函数[A];第十届全国抗辐射电子学与电磁脉冲学术年会论文集[C];2009年
3 张美玉;刘玉忠;;具有执行器饱和的不确定时滞切换系统的反馈镇定[A];2009年中国智能自动化会议论文集(第一分册)[C];2009年
4 俞新尧;陈宗基;;鲁棒自适应控制系统[A];1996中国控制与决策学术年会论文集[C];1996年
5 黄德才;赵克勤;钱能;;描述和处理系统不确定量的一种新方法[A];1999中国控制与决策学术年会论文集[C];1999年
6 洪奕光;秦化淑;;力学系统的鲁棒控制[A];1994年中国控制会议论文集[C];1994年
7 费敏锐;郎文鹏;陈伯时;;工业炉窑用智能控制方法进展[A];1995年中国控制会议论文集(下)[C];1995年
8 刘闯;刘西拉;;结构体系可靠性计算精度的探讨[A];第四届全国结构工程学术会议论文集(下)[C];1995年
9 孟红霞;贾英民;;一类非线性延迟不确定系统的神经网络变结构控制[A];第二十二届中国控制会议论文集(上)[C];2003年
10 吕建伟;施文杰;;基于粗糙集的舰船研制方案效费分析研究[A];第三届不确定系统年会论文集[C];2005年
中国重要报纸全文数据库 前10条
1 国务院发展研究中心金融研究所所长 夏斌;密切关注不确定性 相机抉择从紧政策[N];金融时报;2007年
2 霍侃;七项政策应对宏观经济不确定性[N];商务时报;2008年
3 吕航;英国货币政策给英镑带来不确定性[N];金融时报;2005年
4 金吾伦;复杂性思维的特征[N];学习时报;2005年
5 崔吕萍;宝硕大股东祭出清欠预案[N];北京商报;2006年
6 国家信息中心经济预测部 牛犁;次贷危机增加国际油市不确定性[N];中国经济导报;2007年
7 本报记者  侯捷宁;东方电子方案尚存不确定性[N];证券日报;2006年
8 张翔;中线还看股指期货脸色[N];中国证券报;2007年
9 陈琦;柔性供应链 以柔制变[N];中国计算机报;2007年
10 秦洪;股市在3900点拥兵不前[N];江苏经济报;2007年
中国博士学位论文全文数据库 前10条
1 邵光华;数学样例学习的理论与实证研究[D];华东师范大学;2003年
2 田俊峰;不确定性条件下供应链管理优化模型及算法研究[D];西南交通大学;2005年
3 张营;我国通货膨胀率波动、不确定性与宏观经济运行研究[D];吉林大学;2009年
4 叶忠;教育与就业关系的不确定性[D];华中师范大学;2004年
5 陈玥;基于灰色系统理论和云模型的反精确洪水灾害分析[D];华中科技大学;2010年
6 蒋国萍;软件项目风险管理的贝叶斯网络模型研究[D];国防科学技术大学;2005年
7 陈作贤;最小相位不确定非线性系统的鲁棒自适应输出调节[D];中国科学技术大学;2008年
8 余建桥;基于云理论与数据场的空间孤立点挖掘研究[D];西南农业大学;2005年
9 唐攀科;成像光谱相似矿物识别及其矿物填图的不确定性研究[D];中国地质大学(北京);2006年
10 柯海森;不确定非线性系统的控制研究[D];浙江大学;2006年
中国硕士学位论文全文数据库 前10条
1 董令彩;基于不确定性样例选择算法的研究与改进[D];河北大学;2010年
2 许德志;碳氢共价键结构式正误样例组合的学习效果[D];辽宁师范大学;2010年
3 和娟;大学生对类别样例的可能性产生的实验研究[D];陕西师范大学;2012年
4 孙小菱;错误样例与自我解释对大学生数学学习迁移的影响[D];浙江师范大学;2012年
5 陈云儿;以合作方式学习样例的研究[D];华东师范大学;2004年
6 陈忠华;从样例学习中获得问题解决技能:自我解释效应[D];华东师范大学;2002年
7 兰伟彬;先前知识和样例变异性对不同类型样例学习的影响[D];宁波大学;2010年
8 金晶;学习—比较法和分阶段指导法对初中生代数样例学习的影响[D];浙江师范大学;2011年
9 武春波;样例呈现方式对数学归纳法学习的影响[D];首都师范大学;2009年
10 吴晶林;不确定条件下的供应链网设计问题研究[D];西安电子科技大学;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026