收藏本站
《四川大学》 2007年
收藏 | 手机打开
二维码
手机客户端打开本文

基于GMDH的缺失数据插补方法研究

张智勇  
【摘要】: 随着信息技术的发展与人们收集数据能力的不断提高,数据库、数据仓库以及internet技术的应用普及,人们积累的数据越来越多,数据挖掘技术应运而生并不断发展。现有的数据挖掘算法大部分是建立在理想的数据集上的,而在实际中,由于各种原因,我们收集的数据往往是不完全的,或多或少存在数据缺失。在这种情况下对缺失数据的通常处理方法就是先估计缺失数据,然后在完全数据集的基础上进行数据挖掘。现在应用最多的缺失数据插补方法有回归插补方法,神经网络插补方法,K最邻近插补方法等。但是,这些方法在处理噪声数据时存在一些不足,比如,在噪声数据下回归插补缺失数据与神经网络插补缺失数据容易产生过拟合;在K值较小的情况下,K最邻近算法插补缺失数据容易受到噪声数据的干扰。 GMDH方法具有有效处理噪声数据的特点。本文以缺失数据的理论为基础,引入了面向噪声数据的GMDH方法,建立了基于GMDH的缺失数据插补方法体系,用于噪声数据下的缺失数据插补。 在用GMDH来插补缺失数据的过程中,根据数据缺失模式的不同,假设了不同的数据缺失机制,从而采用了不同的方法与GMDH结合来插补缺失数据。在单变量数据缺失模式,随机缺失机制下,用EM算法与GMDH结合,建立变量之间的GMDH模型,根据模型来估计缺失数据。在多变量数据缺失模式,忽略数据缺失机制的情况下,用K最邻近算法与GMDH结合,建立相似样本之间的GMDH模型,通过模型估计缺失数据。本文的主要工作如下: 1.首先在数据缺失模式为单变量数据缺失,数据缺失机制为随机数据缺失情况下: (1)提出了用EM算法与GMDH算法结合来插补缺失数据的新方法,并给出了该方法的基本假设,设计了该方法的基本步骤,编制了该方法的相应程序。 (2)通过理论分析、数值实验和对中国经济数据的实证研究,对基于GMDH的缺失数据插补与回归插补进行了比较研究,揭示了用该方法来插补在噪声数据下的单变量数据缺失的有效性,显示了该方法较回归方法的优越性。 2.其次在数据缺失模式为多变量数据缺失,数据缺失机制为可忽略数据缺失情况下: (1)提出了用K最邻近算法与GMDH算法结合来插补缺失数据的新方法,并给出了该方法的基本假设,设计了该方法的基本步骤,编制该方法的相应程序。 (2)通过理论分析,中国各省国内生产总值的实证研究对基于GMDH的缺失数据插补与K最邻近算法插补进行了比较研究,揭示了用该方法来插补噪声数据下的多变量数据缺失的有效性,显示了该方法较K最邻近算法的优越性。 因此,在这些工作的基础上,本文的创新点主要体现在下面几个方面: 1.在对缺失数据的插补过程中,本文研究了噪声数据下的缺失数据插补: (1)在对单变量缺失模式,随机缺失机制下情形下,将GMDH算法与EM算法结合,通过迭代来插补缺失数据减小了噪声数据对缺失数据插补的影响;并在实际例子中通过对缺失数据的范围增加限制性条件,加快了迭代速度,克服了缺失数据比较多,而已观察数据比较少时不能建立模型的问题。 (2)在对多变量缺失模式,忽略数据缺失机制情形下,将GMDH算法与最邻近算法相结合,消除了噪声数据对缺失数据插补的影响,减小了K值选取在插补过程中的重要性;并通过GMDH算法的内外准则提高了对缺失数据估计的准确性。 2.在对缺失数据的插补过程中,本文还将数据缺失模式和机制与缺失数据的插补方法联系起来,从而为不同缺失数据下选用不同的方法来插补缺失数据提供了理论依据。
【学位授予单位】:四川大学
【学位级别】:硕士
【学位授予年份】:2007
【分类号】:TP183

手机知网App
【引证文献】
中国期刊全文数据库 前1条
1 王继良;陈朋;周四望;;基于不规则网格的传感数据Kriging插值算法[J];计算机工程;2012年08期
中国硕士学位论文全文数据库 前1条
1 李娜;生产过程数据仓库ETL模块的研究与开发[D];华北电力大学(北京);2010年
【参考文献】
中国期刊全文数据库 前8条
1 程兴新;EM算法的收敛性[J];北京大学学报(自然科学版);1987年03期
2 张宾,贺昌政;GMDH算法的终止法则研究[J];吉林大学学报(信息科学版);2005年03期
3 武建虎,贺佳,贺宪民,程红岩;多变量缺失数据的不同处理方法及分析结果比较[J];第二军医大学学报;2004年09期
4 王兆军;EM算法收敛的必要条件[J];南开大学学报(自然科学版);1994年02期
5 王双成,苑森淼;具有丢失数据的贝叶斯网络结构学习研究[J];软件学报;2004年07期
6 金勇进;缺失数据的加权调整(系列之Ⅳ)[J];数理统计与管理;2001年05期
7 李序颖;基于空间自回归模型的缺失值插补方法[J];数理统计与管理;2005年03期
8 何凯涛,陈明,张治国,Jacques Yvon;用人工神经网络进行空间不完备数据的插补[J];地质通报;2005年05期
中国硕士学位论文全文数据库 前2条
1 李然;粒计算的高效知识约简算法与缺失数据处理[D];兰州大学;2006年
2 李晓菲;数据预处理算法的研究与应用[D];西南交通大学;2006年
【共引文献】
中国期刊全文数据库 前10条
1 刘兴远,方顺兴,姚忠国;建筑结构试验数据处理的几种方法[J];四川建筑科学研究;1993年02期
2 张燕平;提取特征规则的重复覆盖算法(RCA)[J];安徽大学学报(自然科学版);2002年02期
3 王策,翟葵,胡艳军;基于EM迭代算法的CDMA多用户检测[J];安徽大学学报(自然科学版);2005年01期
4 高湘萍;吴小培;沈谦;;基于脑电的意识活动特征提取与识别[J];安徽大学学报(自然科学版);2006年02期
5 吴凤凰;;模式识别在植物叶片识别中的应用[J];安徽农业科学;2007年01期
6 王翠莲;刘晓;;复合泊松分布参数估计的EM算法[J];安徽师范大学学报(自然科学版);2011年02期
7 王继昌;庞祥武;;联机签名Bayes分类器设计算法[J];鞍山师范学院学报;2005年06期
8 胡煜;;偏最小二乘方法和二次判别分析方法应用于基因芯片数据分析[J];鞍山师范学院学报;2007年04期
9 岳昊;邵春福;赵熠;;基于BP神经网络的行人和自行车交通识别方法[J];北京交通大学学报;2008年03期
10 王树堂;基于径向基函数网络的故障诊断[J];兵工自动化;1997年03期
中国重要会议论文全文数据库 前10条
1 张峰;薛青;;基于贝叶斯网络的战场目标识别方法研究[A];图像图形技术与应用进展——第三届图像图形技术与应用学术会议论文集[C];2008年
2 王永骥;王琬;;基于支持向量机的运动神经控制建模[A];第二十四届中国控制会议论文集(下册)[C];2005年
3 宋宇莹;;行星状星云的三维重建[A];'2008系统仿真技术及其应用学术会议论文集[C];2008年
4 黄敏;田益祥;;VAR模型的GMDH估计方法及实证研究[A];中国企业运筹学[C];2006年
5 鲁茂;;中国证券市场与宏观经济间的波动关系[A];中国企业运筹学[2012(1)][C];2012年
6 钱志远;郁正庆;;最近邻VQ码本法方言识别研究[A];第二届全国人机语音通讯学术会议论文集[C];1992年
7 华翔;王俊社;秦洪海;;基于代理的网络故障关联体系[A];2007通信理论与技术新发展——第十二届全国青年通信学术会议论文集(下册)[C];2007年
8 廖学清;吕强;;试析数据缺失下学习贝叶斯网中初始网络的选择[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年
9 李爱新;孙铁;郭炎峰;;基于人工神经网络的脑电信号模式分类[A];自动化技术与冶金流程节能减排——全国冶金自动化信息网2008年会论文集[C];2008年
10 纪萌;张子明;施远征;刘礼;;基于ARM9处理器的运动员训练数据视频采集系统的设计[A];中国仪器仪表学会第九届青年学术会议论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 祁瑞华;不完整数据分类知识发现算法研究[D];大连理工大学;2011年
2 唐江桥;中国畜产品价格预测预警研究[D];福建农林大学;2011年
3 赵楠;基于机器学习的供应链绩效智能分析方法研究[D];天津大学;2010年
4 彭颖;基于退化隐式半马尔科夫模型的设备健康预测及系统性维护策略研究[D];上海交通大学;2011年
5 李富强;大坝安全监测数据分析方法研究[D];浙江大学;2012年
6 李庆中;苹果自动分级中计算机视觉信息快速获取与处理技术的研究[D];中国农业大学;2000年
7 陈遵德;地震储层信息智能处理方法研究[D];成都理工学院;2001年
8 马恒太;基于Agent分布式入侵检测系统模型的建模及实践[D];中国科学院软件研究所;2001年
9 沈明霞;自主行走农业机器人视觉导航信息处理技术研究[D];南京农业大学;2001年
10 李剑;局部放电灰度图象识别特征提取与分形压缩方法的研究[D];重庆大学;2001年
中国硕士学位论文全文数据库 前10条
1 王仁瑾;热计量模式下居住建筑耗热量分摊模型研究[D];大连理工大学;2010年
2 胡文军;盲复原算法在自适应光电图像处理中的应用研究[D];解放军信息工程大学;2009年
3 高晓利;基于贪婪搜索的贝叶斯网络结构学习算法[D];西安电子科技大学;2011年
4 尚军亮;时间序列预测方法及在隧道控制中的应用研究[D];西安电子科技大学;2010年
5 邰爽;基于贝叶斯网络的继电保护故障诊断[D];西安电子科技大学;2010年
6 宋英慧;活性炭测氡数据缺失的处理与应用[D];太原理工大学;2011年
7 龙涛;贝叶斯网络在网络攻击追踪中的应用[D];沈阳工业大学;2011年
8 金成美;缺失数据填补方法研究[D];辽宁工业大学;2011年
9 张福利;状态空间模型在季节性时间序列中的应用[D];大连海事大学;2011年
10 苌健;基于灵敏性分析的贝叶斯网络扰动学习方法研究[D];合肥工业大学;2011年
【同被引文献】
中国期刊全文数据库 前10条
1 孔庆芸;Java语言与数据库的接口——JDBC的技术原理与实现[J];电脑与信息技术;2000年02期
2 林迅;;整合数据库访问接口[J];电脑知识与技术(学术交流);2007年10期
3 黄孝彬,刘吉臻,牛玉广;主元分析方法在火电厂锅炉过程故障检测中的应用[J];动力工程;2004年04期
4 蹇浪;付忠广;刘刚;申鹏飞;郑玲;;电站机组数据仓库的建设及其关键技术[J];动力工程;2008年04期
5 臧磊;API接口浅析[J];电信网技术;2004年03期
6 国志宏,王堃,王强,王宏安;火电厂SIS系统中实时数据库的研究和应用[J];电力信息化;2004年05期
7 徐宏波,徐保国,徐迈;Windows中基于API的接口技术[J];上海电力学院学报;2001年04期
8 熊忠阳,张玉芳,吴中福;数据仓库数据加载技术[J];重庆大学学报(自然科学版);2002年02期
9 刘建本;;证券公司数据仓库构建研究[J];福建电脑;2009年09期
10 蒋健,林中达;基于火电厂SIS系统的实时数据库应用研究[J];国际电力;2005年04期
中国博士学位论文全文数据库 前2条
1 黄孝彬;火电厂控制系统故障检测与诊断的研究[D];华北电力大学(河北);2004年
2 李利平;火电机组节能在线分析与智能运行优化方法研究[D];华北电力大学(河北);2007年
中国硕士学位论文全文数据库 前10条
1 周芝芬;基于数据仓库的数据清洗方法研究[D];东华大学;2004年
2 和春慧;数据仓库中数据预处理的研究与算法实现[D];吉林大学;2004年
3 连仁包;通用ETL技术的研究与实现[D];福州大学;2005年
4 孙娜;电力系统设备数据仓库的设计开发[D];华北电力大学(河北);2005年
5 茅群霞;缺失值处理统计方法的模拟比较研究及应用[D];四川大学;2005年
6 丁晓伟;面向电力调度的生产数据仓库系统研究及应用[D];浙江大学;2006年
7 韩鹏;ETL工具的设计实现与应用[D];吉林大学;2006年
8 廉博;数据仓库中ETL技术的研究与实现[D];沈阳工业大学;2006年
9 陈锦宇;SQL Server 2000数据仓库系统及实用技术研究[D];北京邮电大学;2006年
10 薛俊鹏;SAP BW数据仓库技术在企业经营分析中的应用[D];青岛大学;2007年
【二级参考文献】
中国期刊全文数据库 前10条
1 李道国,苗夺谦,张红云;粒度计算的理论、模型与方法[J];复旦学报(自然科学版);2004年05期
2 王明进,程乾生;基于径向基函数的非线性预测模型[J];管理科学学报;1999年04期
3 刘大有,王飞,卢奕南,薛万欣,王松昕;基于遗传算法的Bayesian网结构学习研究[J];计算机研究与发展;2001年08期
4 刘清,刘群;粒及粒计算在逻辑推理中的应用[J];计算机研究与发展;2004年04期
5 苗夺谦,胡桂荣;知识约简的一种启发式算法[J];计算机研究与发展;1999年06期
6 陈明,吴锡生,马福生;泛克立格法在吉林省某地1:5万化探中的应用及与其它有关方法的对比研究[J];吉林地质;1994年04期
7 张旻,吴涛,王伦文,程家兴;商空间粒度计算理论在数据库和数据仓库中应用[J];计算机工程与应用;2003年17期
8 刘业政,杨善林;基于粗集理论的Null值估算方法研究[J];计算机工程;2001年10期
9 乔梅,韩文秀;基于Rough集和数据库技术的属性约简算法[J];计算机工程;2005年06期
10 王国胤,于洪,杨大春;基于条件信息熵的决策表约简[J];计算机学报;2002年07期
【相似文献】
中国期刊全文数据库 前10条
1 张少中,杨南海,王秀坤;贝叶斯网络参数的在线学习算法及应用[J];小型微型计算机系统;2004年10期
2 吴建国;彭源;;一种基于EM算法的图像分割改进技术[J];电脑知识与技术;2009年13期
3 彭培福;李树有;姬永刚;李鹏;;改进的EM算法在说话人识别中的应用[J];辽宁工业大学学报(自然科学版);2009年03期
4 柳贵东;山拜·达拉拜;;基于EM算法的非高斯噪声参数估计[J];通信技术;2011年01期
5 任雁;李艳萍;;基于EM算法的MIMO-OFDM系统半盲信道估计研究[J];长治学院学报;2011年02期
6 徐仁佐,吴新玲;NHPP模型参数调整与EM算法[J];计算机学报;1992年05期
7 杨沛武;刘飞;;基于动态概率主元分析的统计过程监测[J];计算机与应用化学;2008年04期
8 许丽佳;王厚军;龙兵;;基于贝叶斯网络的复杂系统故障预测[J];系统工程与电子技术;2008年04期
9 林鸿;;改进的EM算法——A-ECM算法[J];福建电脑;2009年10期
10 王彩红;咸金龙;;非高斯噪声下基于EM迭代算法的多用户检测分析[J];舰船电子工程;2011年03期
中国重要会议论文全文数据库 前10条
1 马尽文;何学锋;;高斯混合模型的数据尺度可压缩参数学习算法[A];第十四届全国信号处理学术年会(CCSP-2009)论文集[C];2009年
2 丁向东;张勤;;基于EM和规则算法的半同胞家系单倍型推断方法[A];中国动物遗传育种研究进展——第十五次全国动物遗传育种学术讨论会论文集[C];2009年
3 赵扬;马尽文;;退火EM算法在非监督图像分割中的应用[A];第十二届全国信号处理学术年会(CCSP-2005)论文集[C];2005年
4 骆俊;马尽文;;高斯混合模型的遗传分基融合算法[A];第十二届全国信号处理学术年会(CCSP-2005)论文集[C];2005年
5 王彪;王成儒;王芬芬;;一种改进的运动目标检测算法[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
6 路晶;马少平;;基于多例学习的web图像聚类[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
7 韩玉兵;殷玮玮;吴乐南;;基于Wavelet-HMM的图像超分辨率重建[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
8 李旭超;朱善安;;WCS-HMT模型在图像分割中的应用[A];2006中国控制与决策学术年会论文集[C];2006年
9 丁堃;许侃;;基于文本聚类方法的我国科技管理研究领域的计量研究[A];第三届科技政策与管理学术研讨会暨第二届科教发展战略论坛论文汇编[C];2007年
10 向礼;苏宝库;;一种改进高斯混合粒子滤波器在状态估计中的应用[A];2007'仪表,自动化及先进集成技术大会论文集(一)[C];2007年
中国博士学位论文全文数据库 前10条
1 郑术蓉;线性不等式约束下的EM算法[D];吉林大学;2004年
2 贾俊杰;空间数据挖掘中若干关键技术研究[D];长安大学;2009年
3 张文专;非线性再生散度随机效应模型的统计分析[D];云南大学;2004年
4 赖欣;对随机效应混合治愈模型的一些推广[D];中国科学技术大学;2009年
5 陈佐;时间序列相空间重构数据挖掘方法及其在证券市场的应用[D];湖南大学;2007年
6 罗季;有限混合分布模型与线性模型的估计和检验问题[D];华东师范大学;2008年
7 孙红杰;基于主动测量的网络性能分析[D];哈尔滨工业大学;2007年
8 田勇;多分辨率隐马尔可夫模型图像去噪研究[D];兰州大学;2009年
9 肖静;基于表型以及微阵列数据的基因(型)分类技术研究[D];扬州大学;2007年
10 胡治球;种子性状QTL作图新方法[D];扬州大学;2007年
中国硕士学位论文全文数据库 前10条
1 张智勇;基于GMDH的缺失数据插补方法研究[D];四川大学;2007年
2 丁春忠;学生成绩评价中的因子分析[D];苏州大学;2004年
3 韩雄振;基于统计学的预测结构域间相互作用方法的研究[D];吉林大学;2006年
4 赵红;对含有缺失基因型数据的家系进行单倍型推断的EM方法[D];东北师范大学;2006年
5 涂庆;中小样本的拟合优度检验[D];华中师范大学;2007年
6 刘妍;混合连接函数模型及其在风险度量中的应用[D];中国人民大学;2008年
7 韩琨;针对远交林木群体构建连锁不平衡图谱[D];浙江林学院;2008年
8 林鸿;EM算法的改进及其在基因序列分析中的应用[D];福州大学;2006年
9 孙兰;有限混合模型及其应用的研究进展[D];东北师范大学;2006年
10 茹正亮;基于状态空间模型的金融时间序列预测方法[D];河海大学;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026