收藏本站
《浙江大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

在划分数据空间的视角下基于决策边界的分类器研究

严志永  
【摘要】:分类器是机器学习的一项重要技术。分类器研究中存在映射和划分两种视角。在映射视角下分类模型可被看作从数据空间到标签集的映射,分类器的训练过程可被看作在假设空间中搜索最优假设的过程。在划分视角下分类模型可被看作将数据空间划分成若干决策区域的一组决策边界,分类器的训练过程可被看作划分数据空间获得决策边界的过程。映射视角是主流,在映射视角下研究分类器的工作很多。目前还没有在划分视角下对分类器进行系统研究的工作。本文在划分视角下以决策边界为工具对分类器进行研究,进行构建在划分数据空间视角下以决策边界研究分类器的理论框架和基于此理论框架改进分类器两方面的研究。 本文的研究工作主要有: 1)提出了决策边界、决策区域和概率梯度区域的定义。提出了获取决策边界的形式化方法和采样法。提出了决策边界点集(Decision Boundary Point Set,简称DBPS)算法、决策边界2D网格点集(Decision Boundary Point Set using Grid for 2-D data,简称DBPSG-2D)算法和决策边界神经元集(Decision Boundary Neuron Set,简称DBNS)算法来获取决策边界附近的采样点。提出了基于自组织映射的决策边界可视化(Self-Organizing Mapping based Decision Boundary Visualization,简称SOMDBV)算法和基于自组织映射的概率梯度区域可视化(Self-Organizing Mapping based Probability Gradient Regions Visualization,简称SOMPGRV)算法来分别对决策边界和概率梯度区域进行可视化。 2)提出了在划分数据空间视角下基于决策边界的分类器三要素九因素理论框架。在此理论框架下,划分目标、决策边界形式和划分方法是分类器的三要素。划分目标需要考虑训练准确率、错分样本特征和决策边界的微位置三个因素;决策边界形式需要考虑划分能力、提供的领域知识和可理解性三个因素;划分方法需要考虑利用的信息、划分方式和分类模型复杂度三个因素。 3)提出了基于K近邻(K nearest Neighbors,简称KN)类型的错分样本特征。KN类型根据样本与其K近邻之间的类别关系,将样本分为S类、DS类和D类三类。C4.5算法、Naive Bayes分类器和支持向量机(Support Vector Machine,简称SVM)三个分类器与K近邻(K Nearest Neighbors,简称KNN)算法在KN类型上的错分样本特征有着显著不同。提出了组合KNN算法和C4.5算法/Naive Bayes分类器/SVM的K近邻组合(Knearest Neighbors Combining,简称KNC)算法。KNC算法使用KNN算法来对S类和DS类样本进行预测,使用其他三个分类器对D类样本进行预测。 4)研究了离散化算法对分类器决策边界的影响。提出了离散化算法能够提高Naive Bayes分类器泛化能力的原因在于离散化算法能够提高Naive Bayes分类器的Vapnik-Chervonenkis (VC)维。将离散化算法应用于SVM和KNN算法,并研究了离散化算法对SVM和KNN算法的VC维的影响。 5)提出了在Naive Bayes分类器的决策区域内训练分类器的二次划分(Second Division,简称SD)算法,并对现有的局部分类器训练算法进行研究。SD算法是一种组合全局学习和局部学习的算法,因此能够提高Naive Bayes分类器的泛化能力。将现有的局部分类器训练算法分为测试选择、划分覆盖和训练选择三类。并提出了训练局部分类器能够提高分类器泛化能力的原因在于其能够提高分类器的VC维和能够利用训练数据集中更多信息。
【学位授予单位】:浙江大学
【学位级别】:博士
【学位授予年份】:2011
【分类号】:TP181

手机知网App
【参考文献】
中国期刊全文数据库 前5条
1 李蓉 ,叶世伟 ,史忠植;SVM-KNN分类器——一种提高SVM分类精度的新方法[J];电子学报;2002年05期
2 王强;沈永平;陈英武;;支持向量机规则提取[J];国防科技大学学报;2006年02期
3 张学工;关于统计学习理论与支持向量机[J];自动化学报;2000年01期
4 闫明松;周志华;;代价敏感分类算法的实验比较[J];模式识别与人工智能;2005年05期
5 王晓红;王晓茹;李群湛;;二分类数据的分类结果可视化算法[J];西南交通大学学报;2006年03期
【共引文献】
中国期刊全文数据库 前10条
1 张世海,刘晓燕,欧进萍;高层结构智能选型知识发现及方法比较[J];四川建筑科学研究;2005年05期
2 王全凤;郑浩;;基于径向基函数神经网络的高层建筑结构选型[J];四川建筑科学研究;2010年05期
3 潘洁珠;半结构化数据及其数据模型[J];安徽教育学院学报;2003年06期
4 蔡坤琪;;基于相关鉴别分析和随机森林的人脸识别方法[J];安徽电子信息职业技术学院学报;2012年01期
5 赵鹏,倪志伟,贾瑞玉;基于数据挖掘技术的范例库维护[J];安徽大学学报(自然科学版);2003年02期
6 张根耀,李竹林,赵宗涛;遮挡情况下运动目标的跟踪[J];安徽大学学报(自然科学版);2003年03期
7 王东霞;张楠;路晓丽;;基于育种算法的SVM参数优化[J];安徽大学学报(自然科学版);2009年04期
8 王永梅;胡学钢;;决策树中ID3算法的研究[J];安徽大学学报(自然科学版);2011年03期
9 梁佩佩,杨丽萍;基于模糊关系数据库的聚类算法研究[J];安徽职业技术学院学报;2004年01期
10 陶秀凤,唐诗忠,周鸣争;基于支持向量机的软测量模型及应用[J];安徽工程科技学院学报(自然科学版);2004年02期
中国重要会议论文全文数据库 前10条
1 叶红云;倪志伟;陈恩红;;一种混合型集成学习演化决策树算法[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 章曙光;;基于CBR的电力负荷预测系统的研究与实现[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
3 ;An effective procedure exploiting unlabeled data to build monitoring system[A];中国科学院地质与地球物理研究所第11届(2011年度)学术年会论文集(下)[C];2012年
4 宋海鹰;桂卫华;阳春华;;基于核偏最小二乘的简约最小二乘支持向量机及其应用研究[A];第二十六届中国控制会议论文集[C];2007年
5 ;A Novel Kernel PCA Support Vector Machine Algorithm with Feature Transition Function[A];第二十六届中国控制会议论文集[C];2007年
6 刘志斌;金连文;;候选字静态生成技术及其在两级LDA汉字识别中的应用[A];第二十六届中国控制会议论文集[C];2007年
7 张彬;金连文;;基于AdaBoost的手写体汉字相似字符识别[A];第二十六届中国控制会议论文集[C];2007年
8 顾小军;杨世锡;钱苏翔;;基于支持向量机的旋转机械多类故障识别研究[A];第二十六届中国控制会议论文集[C];2007年
9 吕蓬;柳亦兵;马强;魏于凡;;支持向量机在齿轮智能故障诊断中的应用研究[A];第二十六届中国控制会议论文集[C];2007年
10 梁禹;王义刚;王娜;;基于支持向量机的电力电子电路故障诊断[A];第二十六届中国控制会议论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 王杰;基于人工智能的乒乓球比赛技战术诊断与评估研究[D];上海体育学院;2010年
2 赵莹;半监督支持向量机学习算法研究[D];哈尔滨工程大学;2010年
3 于化龙;基于DNA微阵列数据的癌症分类技术研究[D];哈尔滨工程大学;2010年
4 母丽华;煤矿安全预警系统的方法研究[D];哈尔滨工程大学;2010年
5 张涛;GPS/SINS超紧密组合导航系统的关键技术研究[D];哈尔滨工程大学;2010年
6 梁洪;基于内容的医学图像检索及语义建模关键技术研究[D];哈尔滨工程大学;2010年
7 任桢;图像分类任务的关键技术研究[D];哈尔滨工程大学;2010年
8 殷志伟;基于统计学习理论的分类方法研究[D];哈尔滨工程大学;2009年
9 朱广平;混响干扰中的信号检测技术研究[D];哈尔滨工程大学;2009年
10 孔凡芝;引线键合视觉检测关键技术研究[D];哈尔滨工程大学;2009年
中国硕士学位论文全文数据库 前10条
1 展慧;基于多源信息融合技术的板栗分级检测方法研究[D];华中农业大学;2010年
2 杜二玲;拟概率空间上等均值噪声下统计学习理论的理论基础[D];河北大学;2007年
3 朱杰;一种基于聚类的支持向量机反问题求解算法[D];河北大学;2007年
4 廖甜甜;白细胞图像语义识别分类的研究[D];南昌航空大学;2010年
5 黄正荣;基于振动波的高速公路车辆行驶状态辨识理论研究[D];南昌航空大学;2010年
6 刘棉;人机划拳系统的实现[D];山东科技大学;2010年
7 刘桂珍;颅骨三维重建与信息提取[D];山东科技大学;2010年
8 李金华;基于SVM的多类文本分类研究[D];山东科技大学;2010年
9 马冉冉;集成学习算法研究[D];山东科技大学;2010年
10 吴香庭;基于遗传算法的K-means聚类方法的研究[D];山东科技大学;2010年
【二级参考文献】
中国期刊全文数据库 前1条
1 卢增祥,李衍达;交互支持向量机学习算法及其应用[J];清华大学学报(自然科学版);1999年07期
【相似文献】
中国期刊全文数据库 前10条
1 罗宁,穆志纯;基于贝叶斯网的分类器及其在CRM中的应用[J];计算机应用;2004年03期
2 徐昉,邱道尹,沈宪章;粮仓害虫的特征提取与分类的研究[J];郑州工业大学学报;2000年04期
3 徐科,徐金梧,班晓娟;冷轧带钢表面质量自动监测系统的模式识别方法研究[J];钢铁;2002年06期
4 王勇;李战怀;张阳;;未知真实类标记条件下数据流中的变化发现方法[J];西北工业大学学报;2006年02期
5 张若琳;万力;张发旺;石迎春;;土地利用遥感分类方法研究进展[J];南水北调与水利科技;2006年02期
6 毕晓冬;;基于流分类技术的MPLS协议数据转发研究[J];山东师范大学学报(自然科学版);2006年02期
7 高志森;张铮;李俊;;入侵检测中贝叶斯分类器改进的研究[J];计算机技术与发展;2006年11期
8 王晓东;丁冬花;;实时车辆检测和跟踪系统设计[J];微计算机信息;2006年32期
9 董立岩;刘光远;苑森淼;李永丽;孙铭会;;混合式朴素贝叶斯分类模型[J];吉林大学学报(信息科学版);2007年01期
10 刘慧婷;倪志伟;李建洋;刘政怡;;基于交叉覆盖算法的时间序列模式匹配[J];计算机应用;2007年02期
中国重要会议论文全文数据库 前10条
1 穆明生;;基于特征集的多种分类器模型的在线笔迹认证[A];第十届全国信号处理学术年会(CCSP-2001)论文集[C];2001年
2 朱思俞;石锋;;不定人连续汉语音的四声识别[A];第二届全国人机语音通讯学术会议论文集[C];1992年
3 邵小健;段华;贺国平;;一种改进的最少核分类器[A];中国运筹学会第七届学术交流会论文集(上卷)[C];2004年
4 徐蔚然;于武贵;郭军;;基于统计方法的混排文字切分与分类[A];第八届全国汉字识别学术会议论文集[C];2002年
5 雷蕾;吴乃君;刘鹏;刘兰娟;;灵敏度分析:分类器中的缺失数据[A];第11届海峡两岸信息管理发展策略研讨会论文集[C];2005年
6 陈颖颖;张雁军;贾鑫;;通信信号调制识别方法[A];第一届中国高校通信类院系学术研讨会论文集[C];2007年
7 李刚;郭崇慧;林鸿飞;杨志豪;唐焕文;;基于词典法和机器学习法相结合的蛋白质名识别[A];大连理工大学生物医学工程学术论文集(第2卷)[C];2005年
8 肖惠玲;曾翎;黄海莹;张琳;王昱清;杨勤;陈华富;;支持向量机探测脑功能活动[A];中国生物医学工程进展——2007中国生物医学工程联合学术年会论文集(下册)[C];2007年
9 沈钱波;何加铭;;连笔手写识别搜索算法研究[A];浙江省电子学会2008年学术年会论文集[C];2008年
10 薛忠;李艳;谢维信;;一种改进的模糊联想分类器[A];信息科学与微电子技术:中国科协第三届青年学术年会论文集[C];1998年
中国重要报纸全文数据库 前10条
1 黄明;精子分类器决定生男生女[N];广东科技报;2000年
2 CPW 张戈;Aperto PacketMAX系列可同时服务2000个用户[N];电脑商报;2005年
3 记者 姜晓凌 见习记者 王毅俊;原来,科技也能如此美丽[N];上海科技报;2007年
4 中国科学院东北地理与农业生态研究所 李建平;保护地球之肾 遥感体检湿地健康[N];中国水利报;2008年
5 中科院院士 戴汝为;开辟人机结合的新天地[N];计算机世界;2004年
6 本版编辑 中国科学院计算技术研究所数字媒体研究中心 山世光 陈熙霖 高文 徐昕 刘洪宇;你的脸,你的身份证明[N];中国计算机报;2006年
7 刘光强;LSI新一代多业务企业网关[N];中国计算机报;2007年
8 清华大学玉泉医院神外 刘伟国;意识如何进行客观评价[N];健康报;2008年
9 武德锋 李国辉 林洪文 姚作梁;图像世界任我行[N];计算机世界;2002年
10 清华大学 朱健翔;人脸表情估计与表情合成[N];计算机世界;2006年
中国博士学位论文全文数据库 前10条
1 严志永;在划分数据空间的视角下基于决策边界的分类器研究[D];浙江大学;2011年
2 王喆;面向模式表示与模式源的分类器设计方法研究[D];南京航空航天大学;2008年
3 谢元澄;分类器集成研究[D];南京理工大学;2009年
4 杨显飞;数据流集成分类器算法研究[D];哈尔滨工程大学;2011年
5 冯爱民;结构驱动的单类分类器设计及拓展研究[D];南京航空航天大学;2011年
6 宁博;面向行人检测的动态视觉词提取与集成分类方法研究[D];中国科学技术大学;2012年
7 汪中;面向变化场景的行人分类检测方法研究[D];中国科学技术大学;2011年
8 薛晖;分类器设计中的正则化技术研究[D];南京航空航天大学;2008年
9 王彦;基于PDE的模式识别方法[D];吉林大学;2006年
10 欧阳震诤;不平稳数据流的分类技术研究[D];国防科学技术大学;2009年
中国硕士学位论文全文数据库 前10条
1 武婷婷;分类器性能评价研究[D];北京交通大学;2010年
2 王亚松;关于组合分类器修剪方法的研究[D];郑州大学;2011年
3 潘世瑞;基于分类器集成技术的数据流分类研究[D];西北农林科技大学;2011年
4 石国强;基于规则的组合分类器的研究[D];郑州大学;2010年
5 于柏森;发动机机械故障诊断系统分类器设计[D];长春工业大学;2010年
6 王秀霞;分类器的选择性集成及其差异性研究[D];兰州理工大学;2011年
7 邱立;支持向量机和神经网络在手写数字识别算法中的应用研究[D];华南理工大学;2010年
8 蔡晰;半监督联合训练分类方法研究及其应用[D];福建师范大学;2010年
9 史亚;雷达辐射源个体识别中的分类器设计与子空间学习[D];西安电子科技大学;2011年
10 苏攀;不平衡分类器博弈模型及其在中国象棋中的应用[D];河北大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026