收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

最近邻方法在填充和分类中应用的新技术

朱曼龙  
【摘要】: 在当今互联网时代,海量信息处理已成为我国经济建设进程中的一个重大需求。最近邻方法是海量信息处理中最重要的理论与技术之一,运用已知的最邻近点估计或逼近问题的解,为海量信息计算与服务提供了简单、易理解、有效的理论和技术。本论文研究最近邻方法在缺失值填充与分类中应用的新技术和算法。 首先,从缺失值填充和数据分类的应用角度对k最近邻算法进行研究,详细地阐述了k最近邻算法的基本原理,分析它的优缺点和一些常用的改进方法。在此基础上,本论文以获取更高的填充(分类)准确率为主要目标,针对k最近邻算法的某些缺点提出新的改进策略,并从理论和实验两方面验证策略的有效性。 一方面,本论文研究最近邻填充的新理论与算法。针对k最近邻填充算法(kNNI)在缺失数据的k个最近邻的选择上可能存在偏好,提出一种新的缺失填充算法:象限近邻填充算法QENNI(是一种壳近邻填充算法),它仅仅使用缺失数据象限方向的最近邻来填充该缺失值,避免了kNNI中选取的k个最近邻点有偏好这一情况。进一步,本论文采用三种可能的加权方法对壳近邻填充算法(SNI)[1,2]进行分析,通过实验总结出壳近邻填充中近邻数据重复选择有利于提高填充效果,而基于频率与距离加权方式的壳近邻填充算法fdwSNI具有最好的填充效果这一结论。关于缺失值填充,填充算法固然重要,但好的评价方式无疑能为算法的选择提供有效的指导。通过具体的实例分析,本论文指出常用的填充效果指标RMSE容易偏向严重的填充误差,并提出一种新的goodness评价方式。即使存在个别严重的填充误差,goodness仍然能得出理想的结论。 另一方面,本论文建立一个壳近邻分类算法SNC,克服了kNN最近邻选择上可能存在偏好这一问题,该算法对距离度量不敏感,在大数据集上具有更好的分类效果。另外,在实际的数据挖掘应用中,面对的数据通常是质量差的或者不完全的,开发噪声鲁棒性较好的挖掘算法是一个具有实际应用价值的挑战性工作。噪声消除常常是困难且昻贵的,并且减少历史数据来换取信息的完备,会导致可分析的数据容量大量减少,造成资源的浪费,并丢弃了大量隐藏在这些数据中的信息。kNN是基于距离的局部最优的算法,忽略了部分或整体上的数据分布可能对分类结果的影响,会导致分类器对训练集中噪声数据的敏感性增大。本论文提出综合考虑k近邻、簇和训练集中的数据分布特性,建立一个新的分类算法,称为NCT,由于充分利用了局部、部分和全局三方面的数据资源,该算法具有良好的噪声鲁棒性。实验结果表明,NCT算法不仅具有更好的分类效果,而且在噪声环境中具有良好的鲁棒性。在不含噪声的环境中,NCT算法稍微好于kNN;而在含噪声的环境中,NCT算法的分类准确率明显高于kNN算法,且噪声率越大,这种优势越显著。最后,对NCT算法引进的聚类信息和全局信息做其他形式的组合变型,通过实验证明在含噪声的环境中,无论用哪种组合方式加入新信息都有利于提高kNN算法的分类效果,而线性插值组合方式的NCT算法提高分类准确率的幅度最大。 简言之,本论文的主要创新点可以概述如下: 提出一种象限近邻填充算法QENNI,克服kNNI算法缺失数据的最近邻选择可能存在偏好; 提出一种新的goodness缺失值填充评价方式,当个别数据存在严重填充误差时,goodness评价方式优于RMSE; 构造一种新型的壳近邻分类算法SNC,克服了kNN算法最近邻选择上可能存在偏好这一问题,该算法对距离度量不敏感,在大数据集上具有更好分类效果;提出一种综合考虑k近邻、簇和训练集中的数据分布特性的NCT分类算法,有效增强对噪声的鲁棒性。 为证明其有效性,本论文提出的算法均在真实数据集上进行大量的实验。实验结果表明,本论文提出的QENNI、SNC和NCT算法均优于k最近邻算法,特别NCT算法在噪声环境中分类效果的优势显著。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 陈优广;顾国庆;王玲;;一种基于缝隙码的区域填充算法[J];中国图象图形学报;2007年11期
2 涂美义;;基于GDI对象的等值线填充算法研究[J];地理空间信息;2008年02期
3 张明旺;柳荣其;;基于横向循环配置的线状符号填充算法[J];电脑知识与技术;2008年29期
4 谭强;一个非递归的连通区域快速填充算法[J];小型微型计算机系统;1993年03期
5 苏光大;链码结构的边界填充[J];计算机研究与发展;1987年09期
6 任明武,杨静宇,孙涵;一种新的基于链码描述的轮廓填充方法[J];中国图象图形学报;2001年04期
7 杨彩,史俊友,顾海明;基于遗传模拟退火算法的矩形件排样[J];青岛科技大学学报(自然科学版);2004年05期
8 胡瑢华;张华;鄢国平;;熔焊成型中截面填充算法及软件实现[J];微计算机信息;2007年07期
9 伊登峰;;多边形优化排样中小零件的填充算法[J];机械工程师;2007年12期
10 姚和来;周惠定;;介绍一种离散式面区填充算法[J];制造业自动化;1986年03期
11 杜玉越;一个多边形填充的快速算法[J];小型微型计算机系统;1998年01期
12 杜玉越;一种凸多边形的修剪与填充算法[J];计算机应用与软件;2000年09期
13 巨志勇;陈优广;;一种新的基于链码的填充算法[J];计算机工程;2007年17期
14 杜玉越;圆形窗口的凸多边形填充算法[J];中国图象图形学报;1998年07期
15 杨长强;彭延军;郑永果;;一种封闭B样条曲线的扫描线填充算法[J];系统仿真学报;2006年S1期
16 孙护军;;不规则形状最佳填充算法及其实现[J];电脑知识与技术;2009年18期
17 邹黎黎;唐棣;;六角网格系统下的多边形填充算法[J];计算机工程;2009年15期
18 杜玉越;基于圆形窗口的简单多边形填充算法[J];计算机辅助设计与图形学学报;1998年03期
19 李仁明;;基于阀值的智能考室填充算法的设计及实现[J];邵阳学院学报(自然科学版);2007年01期
20 贾银亮;张焕春;经亚枝;刘晶;;机载全姿态指示仪的图形变换[J];应用科学学报;2009年03期
中国重要会议论文全文数据库 前10条
1 李可泳;汪增福;侯丹林;;基于轮廓的表面深度填充算法及其计算机仿真[A];'99系统仿真技术及其应用学术交流会论文集[C];1999年
2 张达科;袁鹏;吴忻生;胡跃明;;小面积多边形对凹多边形的快速投影填充算法[A];2001年中国智能自动化会议论文集(下册)[C];2001年
3 王志松;;决策树中数据遗失值填充方法的研究[A];2001年中国智能自动化会议论文集(下册)[C];2001年
4 洪涛;章飏;章少华;;头部外貌动态旋转仿真显示及多连通区域的seed填充算法设计[A];中国图象图形学会第十届全国图像图形学术会议(CIG’2001)和第一届全国虚拟现实技术研讨会(CVR’2001)论文集[C];2001年
5 李众;焦波;蔡秋芳;李国辉;;用于目标检测的二值图目标内部空洞快速填充算法[A];第七届和谐人机环境联合学术会议(HHME2011)论文集【poster】[C];2011年
6 杜陈艳;肖敏;张榆锋;苏娜峰;王荔芳;陈明;石岩岩;白宝丹;;相空间最近邻非线性自适应预测法在EMD边缘效应中的应用[A];第二十七届中国控制会议论文集[C];2008年
7 郭景峰;王妍妍;彭思维;李海涛;;基于粗糙集理论的遗失值填充算法的研究[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
8 张金生;乔玉坤;王哲;;几种插值方法在地磁匹配导航基准图构建中的应用研究[A];国家安全地球物理丛书(五)——地球物理与海洋安全[C];2009年
9 耿超;陈亮;洪华;;改进的LSP参数格型矢量量化方法研究[A];中国电子学会第十五届信息论学术年会暨第一届全国网络编码学术年会论文集(上册)[C];2008年
10 邱晓蕾;张聪超;;基于SVD和部分聚集分类的文本挖掘算法[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
中国博士学位论文全文数据库 前10条
1 胡建军;中药药理知识发现系统中关键技术的研究[D];四川大学;2006年
2 邹玮;荧光分子断层图像的重建技术研究[D];苏州大学;2010年
3 姜军;集装箱表面损伤的光学检测算法研究[D];哈尔滨工业大学;2009年
4 陆扬;水中目标辐射噪声非线性特征提取研究[D];哈尔滨工程大学;2006年
5 陈优广;边界跟踪、区域填充及链码的应用研究[D];华东师范大学;2006年
6 赵明喜;基于感知特征的网格处理算法的研究[D];上海交通大学;2006年
7 贾艳明;面向化学机械抛光的成品率驱动的布线算法研究[D];清华大学;2009年
8 刘润涛;基于序的空间数据索引及查询算法研究[D];哈尔滨理工大学;2009年
9 燕爱玲;河川径流时间序列的分形特征研究[D];西安理工大学;2007年
10 巨志勇;基于动态系统计算的数字图像处理[D];同济大学;2007年
中国硕士学位论文全文数据库 前10条
1 朱曼龙;最近邻方法在填充和分类中应用的新技术[D];广西师范大学;2010年
2 韩冬柏;基于R-树的最近邻查询研究[D];哈尔滨理工大学;2011年
3 齐峰;道路网络中连续反最近邻查询技术的研究[D];燕山大学;2010年
4 李雷鸣;基于DSP和FPGA的全姿态指示器填充算法研究及硬件实现技术[D];南京航空航天大学;2004年
5 杨英达;物联网不完全数据填充算法研究[D];大连理工大学;2013年
6 黄樑昌;kNN填充算法的分析和改进研究[D];广西师范大学;2010年
7 修建新;基于VAR~*树的反向最近邻查询技术的研究[D];哈尔滨理工大学;2010年
8 李进;时空数据库中基于网络索引的反最近邻查询处理技术研究[D];西南大学;2012年
9 周凌琛;基于隐私保护的时空数据反向最近邻查询处理研究[D];华东师范大学;2012年
10 仲媛;最近邻分类的若干改进算法研究[D];南京理工大学;2012年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978