收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

kNN填充算法的分析和改进研究

黄樑昌  
【摘要】: 数据挖掘是一个热门的新兴领域,在经历了近10几年的高速发展之后,现已开发出了很多成熟的算法用于有效的处理海量数据,并且这些算法和技术在数据挖掘领域都有良好的表现。但是由于应用催生的数据挖掘技术绝大部分处理的都是现实生活中的问题,而对于算法需要使用的数据而言,现实生活中产生和搜集的数据通常都是充满各种各样的噪声、不一致和缺失等情况。因此数据预处理技术在数据挖掘过程中占有越来越重要地位。 通常面临的各种现实数据的问题中,数据缺失是最常见的。在已经开发出的大部分经典算法中,处理带有缺失的数据是非常困难的。因为数据缺失产生的原因比较复杂,不同的应用中数据生成的过程迥异,所以算法开发和设计的时候通常假设数据是按照理想状态收集的。但是使用含有缺失的数据进行挖掘,会对挖掘过程和结果都产生严重的影响,甚至导致得出错误的模型和结论。因此数据挖掘算法和实际可用的数据之间存在一条巨大的鸿沟。 针对数据缺失的预防、避免和处理等问题,国内外已经有很多学者进行了相关的研究,这些相关的研究吸收了统计、机器学习、概率等学科的成果,他们在缺失值填充领域开发出来的很多算法被实验和工业应用证明是非常成功的。在通常意义下,即使填充效果一般的填充算法,对挖掘算法的执行和挖掘效果的提高的作用都是明显的。 本文主要是对应用最为广泛、可扩展性和适应性最好的算法之一——KNN算法的分析和改进。KNN算法是NN算法的推广形式。NN算法(最近邻算法)最早由Cover和Hart在1967年提出,最早用于分类的研究。其基本思想是使用距离待分类的事例最近的类标签来分类未知事例。由于该算法易于理解和编程,并且适用范围广泛,在提出之后被广泛用于分类、聚类、信息检索和查询、缺失值填充等领域,其中KNN算法就是NN算法在缺失值填充方面的改进版本。 KNN算法使用缺失点附近的数据点对缺失值进行估计并进行填充。传统的KNN算法有很多的不足,例如计算量比较大等。已经有很多针对KNN的改进算法,这些算法通常专注于距离度量、距离计算、填充值的计算和计算结果存贮索引等方面的改进。 在目前所参阅过的文献中,所有的补值算法均是使用某一特定算法或者使用某几种算法依次对整个数据集进行填充,而本文提出的缺失点分类思想指出,即使对于同一个数据集来说,不同的缺失点其适合的补值方法也是不同的,算法特别是基于密度和近邻等的局部算法,应该考虑对待填充的点进行分类,分别使用合适的方法进行填充,而不是简单的使用一种算法一视同仁的处理所有的数据。本文主要的工作是在分类填充的框架下,提出K-1NN算法和进一步的基于几何中心的CNN算法,并结合部分填充策略,提出两类不适合进行填充的缺失点,并将这两类点分离出来,在此基础上提出两个部分填充算法:PKNN和PCNN,通过实验证实分类填充思想和部分填充策略能够有效的提高KNN算法的填充准确率。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 陈优广;顾国庆;王玲;;一种基于缝隙码的区域填充算法[J];中国图象图形学报;2007年11期
2 涂美义;;基于GDI对象的等值线填充算法研究[J];地理空间信息;2008年02期
3 张明旺;柳荣其;;基于横向循环配置的线状符号填充算法[J];电脑知识与技术;2008年29期
4 谭强;一个非递归的连通区域快速填充算法[J];小型微型计算机系统;1993年03期
5 苏光大;链码结构的边界填充[J];计算机研究与发展;1987年09期
6 任明武,杨静宇,孙涵;一种新的基于链码描述的轮廓填充方法[J];中国图象图形学报;2001年04期
7 杨彩,史俊友,顾海明;基于遗传模拟退火算法的矩形件排样[J];青岛科技大学学报(自然科学版);2004年05期
8 胡瑢华;张华;鄢国平;;熔焊成型中截面填充算法及软件实现[J];微计算机信息;2007年07期
9 伊登峰;;多边形优化排样中小零件的填充算法[J];机械工程师;2007年12期
10 姚和来;周惠定;;介绍一种离散式面区填充算法[J];制造业自动化;1986年03期
11 杜玉越;一个多边形填充的快速算法[J];小型微型计算机系统;1998年01期
12 杜玉越;一种凸多边形的修剪与填充算法[J];计算机应用与软件;2000年09期
13 巨志勇;陈优广;;一种新的基于链码的填充算法[J];计算机工程;2007年17期
14 杜玉越;圆形窗口的凸多边形填充算法[J];中国图象图形学报;1998年07期
15 杨长强;彭延军;郑永果;;一种封闭B样条曲线的扫描线填充算法[J];系统仿真学报;2006年S1期
16 孙护军;;不规则形状最佳填充算法及其实现[J];电脑知识与技术;2009年18期
17 邹黎黎;唐棣;;六角网格系统下的多边形填充算法[J];计算机工程;2009年15期
18 杜玉越;基于圆形窗口的简单多边形填充算法[J];计算机辅助设计与图形学学报;1998年03期
19 李仁明;;基于阀值的智能考室填充算法的设计及实现[J];邵阳学院学报(自然科学版);2007年01期
20 贾银亮;张焕春;经亚枝;刘晶;;机载全姿态指示仪的图形变换[J];应用科学学报;2009年03期
中国重要会议论文全文数据库 前10条
1 李可泳;汪增福;侯丹林;;基于轮廓的表面深度填充算法及其计算机仿真[A];'99系统仿真技术及其应用学术交流会论文集[C];1999年
2 张达科;袁鹏;吴忻生;胡跃明;;小面积多边形对凹多边形的快速投影填充算法[A];2001年中国智能自动化会议论文集(下册)[C];2001年
3 王志松;;决策树中数据遗失值填充方法的研究[A];2001年中国智能自动化会议论文集(下册)[C];2001年
4 洪涛;章飏;章少华;;头部外貌动态旋转仿真显示及多连通区域的seed填充算法设计[A];中国图象图形学会第十届全国图像图形学术会议(CIG’2001)和第一届全国虚拟现实技术研讨会(CVR’2001)论文集[C];2001年
5 李众;焦波;蔡秋芳;李国辉;;用于目标检测的二值图目标内部空洞快速填充算法[A];第七届和谐人机环境联合学术会议(HHME2011)论文集【poster】[C];2011年
6 郭景峰;王妍妍;彭思维;李海涛;;基于粗糙集理论的遗失值填充算法的研究[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
7 王志斌;万玉发;罗兵;沃伟峰;;一种等值线填充并行算法[A];第28届中国气象学会年会——S1第四届气象综合探测技术研讨会[C];2011年
8 刘冬韡;戴建华;;基于等值线分类的区域填充算法[A];第五届长三角气象科技论坛论文集[C];2008年
9 孙燕;刘宁;;图像处理中提取外包络线的一种新方法[A];PCC2009—第20届中国过程控制会议论文集[C];2009年
10 张军;张宏伟;朱昕昭;叶剑华;;基于数学形态学的有眼台风定位方法[A];中国灾害防御协会风险分析专业委员会第二届年会论文集(一)[C];2006年
中国博士学位论文全文数据库 前10条
1 赵明喜;基于感知特征的网格处理算法的研究[D];上海交通大学;2006年
2 陈优广;边界跟踪、区域填充及链码的应用研究[D];华东师范大学;2006年
3 贾艳明;面向化学机械抛光的成品率驱动的布线算法研究[D];清华大学;2009年
4 巨志勇;基于动态系统计算的数字图像处理[D];同济大学;2007年
5 牟宁波;基于格困难问题的公钥加密算法的设计与安全性证明[D];西安电子科技大学;2009年
6 赵伟;自由形状特征的重用与抑制[D];浙江大学;2008年
7 骆嘉伟;基因数据相似性分析方法研究[D];湖南大学;2008年
8 方建平;SoC低成本测试技术与实现方法研究[D];西安电子科技大学;2006年
9 许小艳;多视点视频中的视图合成[D];重庆大学;2011年
10 向阳;互联网域间路由前缀劫持监测与防御研究[D];清华大学;2013年
中国硕士学位论文全文数据库 前10条
1 李雷鸣;基于DSP和FPGA的全姿态指示器填充算法研究及硬件实现技术[D];南京航空航天大学;2004年
2 杨英达;物联网不完全数据填充算法研究[D];大连理工大学;2013年
3 黄樑昌;kNN填充算法的分析和改进研究[D];广西师范大学;2010年
4 赵敬和;基于矩形网格法的不规则区域的等值线生成与填充算法的研究[D];中国地质大学(北京);2013年
5 侯胡的;基于NGA的任意多边形优化排样技术的研究[D];河海大学;2004年
6 陈卓;基于VTK的可视化相关研究及其在医学TPS中的应用[D];合肥工业大学;2004年
7 黄穗;基于链编码的棋谱识别算法研究[D];华东师范大学;2007年
8 刘锴明;代价敏感的缺失值填充若干问题研究[D];广西师范大学;2010年
9 唐艳红;海洋环境信息等值线自动绘制方法研究[D];哈尔滨工程大学;2007年
10 邹黎黎;基于六角网格的图形图像算法研究[D];辽宁师范大学;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978