收藏本站
《厦门大学》 2007年 博士论文
收藏 | 手机打开
二维码
手机客户端打开本文

数据归约的统计方法研究及应用

刘云霞  
【摘要】: 数据归约是数据挖掘过程的关键环节,因此对数据归约技术的研究具有重要的意义。当前已有的数据归约方法多偏重于有监督学习,而无监督情形下归约方法的研究还相对不够丰富。鉴于这种情况,本论文的重点内容是尝试对无监督数据归约的统计方法及其应用进行研究。 在本论文第一章中,首先阐述了选题的研究背景和研究意义。之后,在概述相关背景知识和总结国内外数据归约研究方法现状的基础上,明确了本论文的研究内容及创新之处。 数据归约两项重要的基础工作--缺失值填补和异常值探测是第二章探讨的内容。在本章,根据对统计学中常用的各种缺失值填补和异常值探测方法的分析,总结出了一些适合数据挖掘使用的方法。此外,通过将几种异常值探测方法应用在某地区移动通讯用户缴费数据库上,对手机用户的消费行为进行了实证分析。 数据归约包括元组的归约和属性的归约。本文在第三章探讨了元组归约的两种主要方法--连续属性离散化和概念分层。在对当前的离散化方法和概念分层中面向属性归纳方法综述的基础上,提出了两种从独立性角度考虑的连续属性离散化方法,分别是基于可辨识矩阵的离散化方法和基于似然比假设检验的离散化方法。并通过在Iris样本集上对这两种方法进行模拟,验证了它们的有效性。 属性重要性排序以及属性的提取和属性子集的选择是属性归约的两类方法。本文在第四章探讨了属性重要性的排序问题。数据挖掘中目前常见的排序问题是有监督属性的排序,本章首先对它们作了介绍和比较。然后在无监督属性重要性的排序方面,提出了单向有序列联资料的属性排序方法-改进秩和法和基于因子分析的无监督属性排序方法,这两种方法分别在一份调查问卷的列联资料和全国居民人均消费支出样本集的模拟中,取得了较为满意的结果。 第五章探讨的是属性的提取和属性子集的选择问题。首先对目前在数据挖掘中用于属性线性提取的几种统计学和其他学科的方法作了介绍和评价。然后是本章的重点内容-属性子集的选择,在对属性子集选择的基本知识及目前已有的研究成果详细阐述和分析之后,提出了逐步向前的无监督属性选择方法,并通过实例验证了该方法的有效性。 第六章对全文的主要工作进行了总结,并指出了有待进一步改进和完善的地方。 本文的创新之处主要有以下四个方面: (1)提出了分别基于可辨识矩阵和基于似然比假设检验的两种连续属性离散化方法。 (2)提出了单向有序列联资料属性排序的方法--改进秩和法。 (3)提出了基于因子分析的无监督属性重要性的排序方法。 (4)提出了逐步向前的无监督属性选择方法。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 彭厚富,胡能发;一致收敛比较原则及诸极限概念之归约[J];荆州师范学院学报;2001年02期
2 顾永立,顾训穰,谢步罡;一个定理证明检查器[J];上海大学学报(自然科学版);2000年01期
3 李东魁,宋奕英,迟汉忠;3-状态特殊设备网络可靠度的计算[J];阴山学刊;1998年S1期
4 时凌,陶勇;有序流水作业时间表问题是NP-困难的[J];湖北民族学院学报(自然科学版);2000年04期
5 李旭燕;;可换性:在主观概率与客观概率之间[J];求索;2008年10期
6 李东魁;宋奕英;迟汉忠;;3-状态特殊设备网络可靠度的计算[J];阴山学刊(自然科学版);1998年01期
7 张眙;并行技术在神威集合数值天气预报系统中的应用[J];应用气象学报;2002年02期
8 沈骊天,魏云芳;后现代哲学的挑战与系统哲学的回应[J];系统辩证学学报;2004年03期
9 蔡创;;浅谈数学与理性思维[J];科学大众(科学教育);2011年03期
10 蒋丹东,何援军,杨东,陈璐;基于点簇归约的几何约束求解器研究[J];高技术通讯;2002年06期
11 孙凌宇;冷明;;分划递推法在Hanoi塔问题上的应用[J];广西科学院学报;2006年04期
12 眭跃飞;;W-度与T-度的结构差别Ⅰ[J];数学季刊;1988年02期
13 吴筱天;林育豪;Rudolf Fleischer;;团分划问题的固定参数算法研究[J];计算机工程;2011年11期
14 韩小文;潘爱华;;第五代计算机及其认知逻辑方法[J];前沿科学;2007年01期
15 蔡茂华;;常值表示定理及其应用[J];河南师范大学学报(自然科学版);1986年02期
16 杨东屏;;关于创造对,产生对[J];数学进展;1965年04期
17 徐美瑞;;关于NP=?P问题[J];哈尔滨理工大学学报;1985年S1期
18 周玉清;刘伯莹;;LR(K)文法的改进的BMP分析算法[J];数学季刊;1987年02期
19 陆林生;董超群;李志辉;;多相空间数值模拟并行化研究[J];计算机科学;2003年03期
20 堵丁柱;;计算复杂性对运筹学发展的影响[J];运筹学学报;1989年01期
中国重要会议论文全文数据库 前9条
1 岳昊;;三划分问题可多项式归约为唯一可达向量Petri网可达性问题[A];2008年全国开放式分布与并行计算机学术会议论文集(下册)[C];2008年
2 孙凌宇;冷明;;分划递推法在Hanoi塔问题上的应用[A];广西计算机学会2006年年会论文集[C];2006年
3 洪晓光;王海洋;王新军;;并行数据库复杂关系查询优化的一种方法[A];数据库研究与进展95——第十三届全国数据库学术会议论文集[C];1995年
4 马骥;朱慕华;肖桐;朱靖波;;面向移进-归约句法分析器的单模型系统融合算法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
5 吴宇进;刘家茂;李炜;顾宁;;支持输入反馈和健壮性增强的网格工作流自动生成方法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
6 黄鋆;吴永辉;;XML数据库模式中的数据依赖、结构冗余和不规则[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
7 陶成庆;纪岳;冯玉才;;关系模式规范化的一个新算法[A];第九届全国数据库学术会议论文集(上)[C];1990年
8 吴汉卿;;新雨霖铃 祭送朱汉章教授[A];中国针灸学会微创针刀专业委员会第二届学术研讨会学术论文集[C];2010年
9 张浩;肖桐;朱靖波;;基于反向转录语法的机器翻译混合解码策略[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
中国博士学位论文全文数据库 前8条
1 孙全宝;基于k-ary n-tree的硬件聚合通信技术研究[D];国防科学技术大学;2008年
2 刘培强;两元矩阵聚类算法研究[D];山东大学;2013年
3 徐鹏;可证明安全的基于身份加密方案及其应用[D];华中科技大学;2010年
4 刘志强;面向多核的系统级MPI通信优化关键技术研究[D];国防科学技术大学;2011年
5 林荣德;移动界程演算及模型检测应用的关键问题研究[D];华南理工大学;2010年
6 康立;身份相关的可证明安全公钥密码方案研究[D];西南交通大学;2009年
7 刘明洁;格密码体制困难问题研究[D];清华大学;2012年
8 宁超;安全多方计算底层基本运算研究[D];山东大学;2011年
中国硕士学位论文全文数据库 前10条
1 张闯;X-DSP64位定点运算单元与向量归约网络的设计与实现[D];国防科学技术大学;2013年
2 李培培;线性公式可满足性判定问题的复杂性[D];贵州大学;2008年
3 高静;面向环境演算系统的模型检测算法的研究[D];南京航空航天大学;2009年
4 马亚南;基于偏序归约的安全协议状态空间约简技术研究[D];解放军信息工程大学;2011年
5 刘闪电;大规模SVM训练算法的研究[D];南京航空航天大学;2010年
6 来心可;支配集问题的确定参数可解算法研究[D];复旦大学;2011年
7 陈晓亮;基于计算模型的系统建模与验证[D];西华大学;2010年
8 曹永超;基于公钥密码体制的OT协议[D];山东大学;2010年
9 张义飞;基于改进的PI演算的本体演化形式化描述方法[D];吉林大学;2010年
10 支永安;回归分析在安徽电信差异化服务中的应用[D];合肥工业大学;2010年
中国重要报纸全文数据库 前5条
1 柯志阳;求真与逐美[N];中华读书报;2000年
2 叶秀山;走出自己与保存自己[N];社会科学报;2002年
3 特约撰稿 涂龙德;“后萨达姆”是什么时代?[N];经理日报;2002年
4 刘建元 康兆华;ACM图灵奖(1966—1999)——计算机发展史的缩影[N];中华读书报;2000年
5 孙定;云计算、大数据与Hadoop[N];计算机世界;2011年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978