收藏本站
《西南石油大学》 2014年
收藏 | 手机打开
二维码
手机客户端打开本文

数据挖掘中的统计方法及其应用研究

崔广风  
【摘要】:由于在数据挖掘的各种方法和技术中,最基础和最重要的方法是统计方法,而且统计理论也催生了许多新的数据挖掘方法,所以研究数据挖掘中的统计方法及其应用不仅可以给数据挖掘的实际工作者提供使用建议和指导,而且可利用统计方法分析数据挖掘中的数据特征,为研究者和实践者推进科技发展和创造社会财富奠定理论基础。 本文在研究现有主要数据挖掘方法和软件及其应用基础上,着重分析研究了数据挖掘中涉及的统计方法、模型及它们在数据挖掘中的应用;剖析了数据挖掘中的机器学习和统计学习机理;在研究了覆盖分类学习方法和基于概率的覆盖算法对海量数据处理能力的局限性后,提出了基于贝叶斯理论的改进覆盖算法,即以贝叶斯公式获得的后验概率替代通过投票方式确定覆盖边界中的样本类别,该算法提高了分类的可信度和稳定性。主要有以下四个方面: 1.比较分析研究了现有主要数据挖掘方法和软件及其应用,可为使用者使用这些方法和软件提供选用帮助和建议; 2.按照数据挖掘的过程和任务,逐一分析研究了其中使用的统计方法、模型等统计学中的理论,可为挖掘具有统计特征的数据信息的知识提供参考; 3.重点从产生数据挖掘的新方法的学习机理分析入手,研究了一些基于机器学习和统计学习的数据挖掘方法的机理,为构造挖掘具有统计特征的数据知识新方法提供方向建议; 4.针对支持向量机方法在处理大型数据库中使用数据分类的困难,分析研究了覆盖分类学习方法和基于概率的覆盖算法对一些样本不能正确分类的问题后,提出使用贝叶斯的理论融合覆盖分类学习方法和基于概率的覆盖算法解决测试样本中边界样本的分类问题的新学习机。该学习机包括二层结构:基于覆盖学习的分类模型的结构和基于贝叶斯理论的覆盖分类学习模型结构--覆盖分类学习机,实现了对海量数据进行高效地分类。 本文的创新和特色体现在第4个方面。
【关键词】:数据挖掘 统计方法 机器学习 覆盖分类 贝叶斯神经网络
【学位授予单位】:西南石油大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP311.13
【目录】:
  • 摘要3-4
  • Abstract4-8
  • 第1章 绪论8-15
  • 1.1 研究意义和目的8-9
  • 1.1.1 研究意义8
  • 1.1.2 研究目的8-9
  • 1.2 数据挖掘在国内和国外的当今研究现状9-10
  • 1.2.1 数据挖掘理论研究现状9-10
  • 1.2.2 数据挖掘方法研究现状10
  • 1.3 统计挖掘方法研究的现状10-13
  • 1.3.1 数据挖掘方法与统计挖掘关系的研究10-11
  • 1.3.2 统计方法挖掘知识研究现状及趋势11-12
  • 1.3.3 数据挖掘方法和统计学习的比较分析12-13
  • 1.4 研究方法和研究内容13
  • 1.4.1 研究方法13
  • 1.4.2 研究内容13
  • 1.5 研究成果和创新点13-14
  • 1.5.1 主要研究成果13-14
  • 1.5.2 特色与创新点14
  • 1.6 结构安排14-15
  • 第2章 数据挖掘方法及其应用分析15-24
  • 2.1 主要数据挖掘方法15-18
  • 2.1.1 关联分析方法15
  • 2.1.2 分类方法15-17
  • 2.1.3 聚类分析方法17-18
  • 2.1.4 预测方法18
  • 2.2 数据挖掘方法的应用研究18-21
  • 2.2.1 数据挖掘在商品零售业的应用研究18-19
  • 2.2.2 数据挖掘在保险业、金融业、通信业的应用研究19
  • 2.2.3 生物制药、基因方面的应用研究19-20
  • 2.2.4 数据挖掘方法的应用分析20-21
  • 2.3 数据挖掘软件的发展与应用21-22
  • 2.3.1 数据挖掘软件的发展21-22
  • 2.3.2 数据挖掘软件选用分析22
  • 本章小结22-24
  • 第3章 数据挖掘过程和任务中的统计学理论分析24-35
  • 3.1 数据挖掘过程中的统计方法分析24-27
  • 3.1.1 陈述问题和阐明假设中的统计方法25
  • 3.1.2 数据收集中的统计方法25-26
  • 3.1.3 数据预处理中的统计方法26
  • 3.1.4 模型评估中的统计方法26
  • 3.1.5 解释模型和得出结论中的统计方法26-27
  • 3.2 数据挖掘任务中的统计方法分析27-31
  • 3.2.1 数据准备中的统计方法27-28
  • 3.2.2 数据归约中的统计方法28-29
  • 3.2.3 数据学习中的统计方法29-31
  • 3.3 统计方法的应用分析31-34
  • 3.3.1 统计方法分析31-32
  • 3.3.2 贝叶斯分类方法分析32-34
  • 本章小结34-35
  • 第4章 数据挖掘方法中的学习机理分析35-52
  • 4.1 学习理论35-38
  • 4.1.1 机器学习35-37
  • 4.1.2 统计学习37-38
  • 4.2 机器学习方法的机理分析38-48
  • 4.2.1 关联性学习的机理分析39-41
  • 4.2.2 聚类学习的机理分析41-43
  • 4.2.3 决策树分类学习的机理分析43-45
  • 4.2.4 神经网络分类学习的机理分析45-48
  • 4.3 统计学习方法的机理分析48-51
  • 4.3.1 支持向量分类机的机理分析48-50
  • 4.3.2 支持向量机局限性分析50-51
  • 本章小结51-52
  • 第5章 覆盖分类学习方法及其改进52-64
  • 5.1 覆盖分类学习方法52-54
  • 5.1.1 覆盖学习算法的思想52
  • 5.1.2 覆盖学习算法步骤52-54
  • 5.1.3 覆盖算法分析54
  • 5.2 基于概率的覆盖算法54-58
  • 5.2.1 基于概率的覆盖算法的基本思想54
  • 5.2.2 基于概率的覆盖算法步骤54-58
  • 5.2.3 基于概率的覆盖算法分析58
  • 5.3 基于贝叶斯理论的覆盖算法58-63
  • 5.3.1 基于贝叶斯理论的覆盖算法的基本思想58
  • 5.3.2 基于贝叶斯理论的覆盖算法步骤58-61
  • 5.3.3 基于贝叶斯理论覆盖算法的分析61
  • 5.3.4 算例分析61-63
  • 本章小结63-64
  • 第6章 结论与进一步的工作64-66
  • 6.1 结论和认识64
  • 6.2 进一步的工作64-66
  • 附录66-85
  • 攻读硕士学位期间发表的论文及科研成果85-86
  • 参考文献86-89
  • 致谢89

【参考文献】
中国期刊全文数据库 前10条
1 杨萍,宋振超;FP-growth算法的一种改进[J];安徽工程科技学院学报;2002年03期
2 陈科;张保明;王宇灵;谢明霞;;基于统计分析的数据挖掘中数据处理综述[J];测绘科学;2008年S3期
3 毕硕本;耿焕同;闾国年;;国内空间数据挖掘研究进展与技术体系探讨[J];地理信息世界;2008年01期
4 王树良;;空间数据挖掘进展[J];地理信息世界;2009年02期
5 李炜明;朱宏平;;框架结构系统辨识的统计方法研究[J];工程力学;2010年S2期
6 郭庆广;;旅游收入的实用统计方法研究[J];浙江大学学报(理学版);2010年03期
7 王熊;张翔;;成像测井图像纹理特征提取的统计方法研究[J];石油天然气学报;2012年04期
8 赵瑶;常发亮;;直方图统计方法的对比研究[J];计算技术与自动化;2007年04期
9 王泳;胡包钢;;应用统计方法综合评估核函数分类能力的研究[J];计算机学报;2008年06期
10 赵广社,张希仁;数据挖掘中的统计方法概述[J];计算机测量与控制;2003年12期
【共引文献】
中国期刊全文数据库 前10条
1 汪小寒;项响琴;陈洁;;燃料管理与智能分析网络系统设计与实现[J];安徽教育学院学报;2006年03期
2 阚涛,娄天玲;基于交叉覆盖算法的模糊神经网络在车用发电机故障诊断系统中的应用研究[J];安徽电子信息职业技术学院学报;2005年01期
3 张燕平;提取特征规则的重复覆盖算法(RCA)[J];安徽大学学报(自然科学版);2002年02期
4 段震,鲁杰,张铃;基于交叉覆盖神经网络的车牌识别研究[J];安徽大学学报(自然科学版);2004年05期
5 贾瑞玉;李永顺;;基于覆盖算法的分类器的设计与应用[J];安徽大学学报(自然科学版);2011年02期
6 区卫民;谭泗桥;袁哲明;柏连阳;熊洁仪;;SVR-KNN法用于除草剂QSAR研究[J];安徽农业科学;2008年35期
7 韩勇鹏;;SVM方法及其在乳制品分类问题上的应用[J];安徽农业科学;2009年08期
8 郭立萍;唐家奎;米素娟;张成雯;赵理君;;基于支持向量机遥感图像融合分类方法研究进展[J];安徽农业科学;2010年17期
9 张永生;魏新军;侯振雨;彭娟;;支持向量回归分光光度法同时测定苋菜红和果绿[J];安徽农业科学;2010年33期
10 陈霞;陈桂芬;;基于可视化的时空数据挖掘研究与应用[J];安徽农业科学;2012年17期
中国重要会议论文全文数据库 前10条
1 段震;赵姝;;基于商空间理论的车牌定位[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 赵姝;张燕平;张铃;徐峰;;最小覆盖算法[A];第二十六届中国控制会议论文集[C];2007年
3 吴涛;陈黎伟;毛军军;张铃;;一种模糊构造性神经网络及其应用[A];第二十六届中国控制会议论文集[C];2007年
4 周绮凤;林成德;罗林开;彭洪;;一种基于黎曼度量的训练样本类不平衡SVM分类方法研究[A];第二十六届中国控制会议论文集[C];2007年
5 闫永慧;;空间数据挖掘中数据预处理技术探讨[A];数字测绘与GIS技术应用研讨交流会论文集[C];2008年
6 张向波;梅国建;徐宗昌;;基于SVM的装备战备完好性预测模型[A];第十届中国科协年会论文集(一)[C];2008年
7 张永生;魏新军;颜振敏;南海娟;;多元线性回归分光光度法同时测定饮料中三种色素[A];第十届中国科协年会论文集(三)[C];2008年
8 肖惠玲;曾翎;黄海莹;张琳;王昱清;杨勤;陈华富;;支持向量机探测脑功能活动[A];中国生物医学工程进展——2007中国生物医学工程联合学术年会论文集(下册)[C];2007年
9 王永春;;一种复合的支持向量机模型在电力系统短期负荷中的应用[A];第十届全国电工数学学术年会论文集[C];2005年
10 吴烜;沙明;李智毅;;支持向量机算法诊断测厚仪CS值电压自动漂移故障分析[A];全国冶金自动化信息网2011年年会论文集[C];2011年
中国博士学位论文全文数据库 前10条
1 赵莹;半监督支持向量机学习算法研究[D];哈尔滨工程大学;2010年
2 母丽华;煤矿安全预警系统的方法研究[D];哈尔滨工程大学;2010年
3 吕宁;基于数据驱动的故障诊断模型及算法研究[D];哈尔滨理工大学;2009年
4 李鹤喜;基于视觉反馈的焊接机器人自主示教关键技术研究[D];华南理工大学;2010年
5 郑光辉;江苏部分地区土壤属性高光谱定量估算研究[D];南京大学;2011年
6 刘焕龙;饲料的吸湿解吸平衡规律和颗粒饲料冷却的模型拟合[D];江南大学;2010年
7 晁冰;基于支持向量机的软件可靠性模型分类及失效分析[D];武汉大学;2010年
8 李锦卫;基于计算机视觉的水稻、油菜叶色—氮营养诊断机理与建模[D];湖南农业大学;2010年
9 卢惠民;自主移动机器人全向视觉系统研究[D];国防科学技术大学;2010年
10 刘春波;统计建模方法的理论研究及应用[D];江南大学;2011年
中国硕士学位论文全文数据库 前10条
1 田文娟;基于支持向量机的人民币序列号识别方法的研究[D];山东科技大学;2010年
2 岳海亮;信息论在粗糙集连续属性离散化中的应用[D];辽宁师范大学;2010年
3 王利明;一种基于PMIPv6的智能辅助高效切换方案[D];郑州大学;2010年
4 李光远;基于在线聚类和最小二乘支持向量机的模糊建模方法研究[D];郑州大学;2010年
5 王巧立;微生物发酵过程的建模与优化控制研究[D];郑州大学;2010年
6 张军珲;基于统计的常用汉语副词用法自动识别研究[D];郑州大学;2010年
7 刘玲玲;PID参数整定技术的研究及应用[D];郑州大学;2010年
8 王硕;基于小波变换的动态纹理分类[D];哈尔滨工程大学;2010年
9 李林;基于可靠性的TBM刀盘轻量化设计[D];大连理工大学;2010年
10 李慧;基于粗糙集理论的连续属性离散化算法研究[D];辽宁师范大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 杨萍,宋振超;FP-growth算法的一种改进[J];安徽工程科技学院学报;2002年03期
2 刘宇奇,陆一平,查建中,贾凌燕;矩形块划分的二维空间数据挖掘算法及其应用[J];北京交通大学学报;2005年04期
3 高韬,谢昆青,马修军,陈冠华;SDML:基于空间数据库的空间数据挖掘语言[J];北京大学学报(自然科学版);2004年03期
4 王惠明;史萍;;图像纹理特征的提取方法[J];中国传媒大学学报(自然科学版);2006年01期
5 张勉;基于隐马尔可夫模型的用户兴趣漂移模式发现方法[J];北京建筑工程学院学报;2005年03期
6 洪艳,蒋彭龙,毛明海,郭勇鹏;船用陀螺随机漂移建模方法的研究[J];船电技术;2002年05期
7 陈绍杰;逄云峰;;Boosting和Bagging算法的高分辨率遥感影像分类探讨[J];测绘科学;2010年05期
8 王满;薛林福;潘保芝;;FMI图像纹理统计方法识别火成岩岩性[J];测井技术;2009年02期
9 范宜仁,黄隆基,代诗华;交会图技术在火山岩岩性与裂缝识别中的应用[J];测井技术;1999年01期
10 王松;黄青松;叶晓波;;SSAS聚类分析算法在顾客分组分析中的应用[J];楚雄师范学院学报;2011年09期
中国博士学位论文全文数据库 前5条
1 张莉;支撑矢量机与核方法研究[D];西安电子科技大学;2002年
2 张持健;商空间下模糊系统与模糊控制的问题求解[D];安徽大学;2005年
3 周瑛;神经网络作为分类器的算法研究及在信息检索中的应用[D];安徽大学;2006年
4 郭岩;网络日志中用户兴趣的挖掘及利用[D];中国科学院研究生院(计算技术研究所);2004年
5 李炜明;土木工程结构系统辨识的统计方法研究[D];华中科技大学;2009年
中国硕士学位论文全文数据库 前1条
1 刘维娜;Web日志挖掘相关技术研究[D];哈尔滨工程大学;2006年
【相似文献】
中国期刊全文数据库 前10条
1 刘桂霞,崔永铎,高平和;关于数据挖掘的研究[J];工业技术经济;2000年03期
2 李业丽,常桂然,徐茜;神经网络在数据挖掘中的应用研究[J];计算机工程与应用;2000年08期
3 陈国萍,李巍,刘仲英;数据挖掘中概念树的标准、生成和实现[J];计算机工程;2000年12期
4 朱天翔,李力;相关案件的数据挖掘[J];计算机应用研究;2000年03期
5 赵丹群;数据挖掘:原理、方法及其应用[J];现代图书情报技术;2000年06期
6 余英泽,廖里,吴渝;一种新型数据分析技术——数据挖掘[J];计算机与现代化;2000年01期
7 邵华 ,万家华 ,金翔义;数据挖掘在证券行业中的应用[J];软件工程师;2000年11期
8 王宏;数据挖掘在网络营销中的应用[J];计算机应用与软件;2000年06期
9 何东峰;数据挖掘要适当[J];互联网周刊;2000年Z1期
10 康松林,费洪晓;数据挖掘的软分类方法[J];长沙铁道学院学报;2001年03期
中国重要会议论文全文数据库 前10条
1 谢中;邱玉辉;;面向商务网站有效性的数据挖掘方法[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年
2 李久丹;陈剑;覃涛;;数据挖掘技术理论研究[A];广西计算机学会2010年学术年会论文集[C];2010年
3 张秋彤;;数据挖掘与高校图书馆个性化信息服务[A];第九届中国不确定系统年会、第五届中国智能计算大会、第十三届中国青年信息与管理学者大会论文集[C];2011年
4 薛鲁华;张楠;;聚类分析在Web数据挖掘中的应用[A];北京市第十三次统计科学讨论会论文选编[C];2006年
5 毛定祥;;数据挖掘与实证经济学[A];2003中国现场统计研究会第十一届学术年会论文集(上)[C];2003年
6 段培俊;周东岱;;数据挖掘研究综述[A];2003年中国智能自动化会议论文集(下册)[C];2003年
7 雷宇;;论行业信息资源的数据挖掘[A];中国烟草行业信息化研讨会论文集[C];2004年
8 吴以凡;吴铁军;欧阳树生;;面向生产过程质量控制的动态数据挖掘方法[A];05'中国自动化产业高峰会议暨中国企业自动化和信息化建设论坛论文集[C];2005年
9 孙明;康红梅;莫一;;数据挖掘在科技奖励管理系统专家库中的应用[A];2005年十二省区市机械工程学会学术年会论文集(湖北专集)[C];2005年
10 邵红全;杨菊梅;潘建雄;;数据挖掘的策略与实现技术[A];中国系统工程学会决策科学专业委员会第六届学术年会论文集[C];2005年
中国重要报纸全文数据库 前10条
1 本报记者褚宁;数据挖掘如“挖金”[N];解放日报;2002年
2 周蓉蓉;数据挖掘需要点想像力[N];计算机世界;2004年
3 □中国电信股份有限公司北京研究院 张舒博 □北京邮电大学计算机科学与技术学院 牛琨;走出数据挖掘的误区[N];人民邮电;2006年
4 《网络世界》记者 王莹;数据挖掘保险业的新蓝海[N];网络世界;2012年
5 刘俊丽;基于地理化的网络数据挖掘与分析提升投资有效性[N];人民邮电;2014年
6 本报记者 连晓东;数据挖掘:金融信息化新热点[N];中国电子报;2002年
7 本报记者 凤小华 朱仁康;“数字挖掘软件”引领中国信息化新浪潮[N];中国电子报;2003年
8 本报记者 史延廷;“成功企业数据挖掘暨数量化管理论坛”在京举办[N];中国旅游报;2002年
9 朱小宁;数据挖掘:信息化战争的基础工程[N];解放军报;2005年
10 本报记者 王小平;从“大集中”走向数据挖掘[N];金融时报;2002年
中国博士学位论文全文数据库 前10条
1 杨虎;序列数据挖掘的模型和算法研究[D];重庆大学;2003年
2 巩建光;面向电信领域的数据挖掘关键技术研究[D];哈尔滨工程大学;2012年
3 李建强;基于数据挖掘的电站运行优化理论研究与应用[D];华北电力大学(河北);2006年
4 余小高;电子商务环境中分布式数据挖掘的研究[D];武汉理工大学;2007年
5 李国旗;本体辅助的先验知识融入生物信息数据挖掘的方法研究[D];上海交通大学;2007年
6 翟坤;基于数据挖掘的成本管理方法研究[D];大连理工大学;2012年
7 徐河杭;面向PLM的数据挖掘技术和应用研究[D];浙江大学;2010年
8 刘洪波;汉语认知脑数据挖掘相关算法及应用研究[D];大连理工大学;2006年
9 朱廷劭;数据挖掘及其在汉语文语转换中应用的研究[D];中国科学院研究生院(计算技术研究所);1999年
10 牛成林;增量数据挖掘及其在电站运行优化中的理论研究及应用[D];华北电力大学(北京);2010年
中国硕士学位论文全文数据库 前10条
1 杨毅超;基于Web数据挖掘的作物商务平台分析与研究[D];湖南农业大学;2008年
2 徐进华;基于灰色系统理论的数据挖掘及其模型研究[D];北京交通大学;2009年
3 俞驰;基于网络数据挖掘的客户获取系统研究[D];西安电子科技大学;2009年
4 冯军;数据挖掘在自动外呼系统中的应用[D];北京邮电大学;2009年
5 于宝华;基于数据挖掘的高考数据分析[D];天津大学;2009年
6 王仁彦;数据挖掘与网站运营管理[D];华东师范大学;2010年
7 彭智军;数据挖掘的若干新方法及其在我国证券市场中应用[D];重庆大学;2005年
8 涂继亮;基于数据挖掘的智能客户关系管理系统研究[D];哈尔滨理工大学;2005年
9 贾治国;数据挖掘在高考填报志愿上的应用[D];内蒙古大学;2005年
10 马飞;基于数据挖掘的航运市场预测系统设计及研究[D];大连海事大学;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026