收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

科学计算时变数据集的数据挖掘算法研究

吴国清  
【摘要】: 在数十万亿次以上规模的高性能计算机上,高性能科学计算的数值模拟可能输出大规模时变数据集。这些数据集由数据子集序列构成,数据总量可能达到十亿字节(GB)至万亿字节(TB),每个数据子集表示物理问题在某个时刻的数值离散解。面对如此大规模的时变数据集,如何快速地开展物理分析,去伪存真,将数据转化为知识,进而发现新的物理现象、揭示新的物理规律、探索新的物理机制,是科学计算研究的重要一环。 在传统可视化分析的基础上,为了提高物理分析的效率,可以采用数据挖掘算法。这些算法基于已知的物理知识来标识重要的物理时刻和局部兴趣区域,发现物理量间的相关性,可以成为物理分析的关键支撑技术。但是,现有的商业数据挖掘算法均难以适应,因为它们通常针对各种属性的关联规则,不能适应于数值型数据。因此,有必要开展系统深入的科学计算时变数据集的数据挖掘算法研究。 对科学计算时变数据集而言,数据挖掘至少可以实现三个方面的功能。第一,比较任意两个相邻时刻的数据子集的相似度;第二,标定可能蕴含丰富知识的局部计算区域和时间步;第三,判断任意两个物理量之间的相关程度。这三个方面的研究对物理分析有重要意义,它可以在大规模科学计算时变数据集中,迅速挑出蕴含重要物理特征的时刻或者子区域,发现物理量之间的线性或非线性相关性,可以提高数据分析的速度与效率,降低分析的难度。 信息熵理论是一门利用数理统计方法研究信息度量的科学。它不依赖于数据的维数、空间位置、单位等信息,能对数据的内在特征进行定量表征,可以用于描述科学计算时变数据集中所蕴含的信息,而这些正是找出蕴含潜在有用信息的时刻或子区域所需要的。因此,信息熵理论可以作为数据挖掘的基础。 本课题基于信息熵理论,针对科学计算时变数据集物理分析对数据挖掘提出的三个方面的需求,紧密围绕时变数据集序列约减、变化检测和物理量非线性相关性的检测算法三个方面开展研究,取得了如下创新的研究成果: (1)针对科学计算时变数据集,分析了信息度量应用于数据挖掘的可行性,并提出了科学计算时变数据集的非均匀直方图构建算法。该算法通过迭代得到科学数据集的概率分布,具有较好的自适应性。 (2)提出了时变数据集序列的子集约减数据挖掘算法。该算法采用关联信息测度度量算法来度量数据子集间的相关性,仅存储相关程度低的数据子集。这些子集已经蕴含了时变数据集序列的重要物理特征。于是,可以大幅降低数据集的存储空间,提高物理分析的效率。具体应用于激光与等离子体相互作用模拟,获得了满意的数据挖掘结果。 (3)基于交互信息距离,提出了时变数据集序列的变化检测数据挖掘算法。该算法可以在数据集序列中挖掘突变的时间步或者子区域,减少数据分析或可视化的工作量。具体应用于高斯序列与激光与等离子体相互作用模拟,效果良好。 (4)基于信息冗余度,提出了时间序列中物理参量非线性相关性的检测算法。该算法引入振幅调节傅立叶变换算法生成替代数据,利用信息冗余度作为检验统计量进行统计检验,研究了检测单物理参量或多物理参量非线性相关性的数据挖掘算法。通过几种常见的时间序列测试,验证了该数据挖掘算法的有效性。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 黄韬;刘胜辉;谭艳娜;;基于k-means聚类算法的研究[J];计算机技术与发展;2011年07期
2 谢文阁;王海虹;;一种改进的基于距离的孤立点挖掘算法的研究[J];渤海大学学报(自然科学版);2011年02期
3 吕晓艳;刘春煌;朱建生;;基于关键度度量的决策树算法改进及其在铁路运输中的应用[J];铁道学报;2011年09期
4 吕鸣剑;;数据挖掘在知识工程中的应用研究[J];电脑知识与技术;2011年23期
5 汪明;张征;;SQL Server 2008 R2贝叶斯算法研究[J];河北软件职业技术学院学报;2011年03期
6 李小雷;王雷;;基于各向异性质心Voronoi图的网络异常检测技术[J];计算机应用;2011年09期
7 刘明华;张晋昕;;时间序列的异常点诊断方法[J];中国卫生统计;2011年04期
8 刘骞;陈明;;基于改进的Map/Reduce及模式空间划分的数据挖掘[J];微电子学与计算机;2011年08期
9 吴学雁;黄道平;;基于形态特征的数据流聚类方法研究[J];计算机工程;2011年13期
10 许海波;刘端阳;胡同森;;基于改良蚁群算法的神经网络分类规则提取[J];计算机系统应用;2011年07期
11 张净;孙志挥;宋余庆;倪巍伟;晏燕华;;基于信息论的高维海量数据离群点挖掘[J];计算机科学;2011年07期
12 孙丽梅;李晶皎;孙焕良;;基于动态k近邻的SlopeOne协同过滤推荐算法[J];计算机科学与探索;2011年09期
13 申彦;宋顺林;朱玉全;;一种基于半监督的大规模数据集聚类算法[J];南京大学学报(自然科学版);2011年04期
14 侯筱蓉;赵德春;;基于专利地图的治疗型超声竞争情报挖掘[J];中国科技资源导刊;2010年04期
15 张韬;胡旻;;互联网Web数据挖掘模型设计与技术实现[J];卫星与网络;2010年10期
16 王艳;;数据隐私保护技术综述[J];知识经济;2011年14期
17 杜垒;王飞;;数据挖掘在学生管理中的应用[J];科技信息;2011年18期
18 张博;张超伟;;中药方剂数据挖掘中的数据预处理研究[J];电脑知识与技术;2011年17期
19 贾彦国;柴旭光;王爱杰;;双准最佳屏蔽二进阵列偶的理论研究[J];计算机工程与应用;2011年22期
20 洪亮亮;罗可;;动态的粗糙增量聚类方法[J];计算机工程与应用;2011年24期
中国重要会议论文全文数据库 前10条
1 徐涛;;时间序列优化分割模型和提取算法[A];2006中国控制与决策学术年会论文集[C];2006年
2 张荣明;王勇;;基于ANN和最小二乘法的时序挖掘方法[A];2005中国控制与决策学术年会论文集(下)[C];2005年
3 曲文龙;吴春尧;杨炳儒;张海军;;基于小波和支持向量机的多尺度时间序列预测[A];2005中国控制与决策学术年会论文集(下)[C];2005年
4 郭学军;陈晓云;;粗集方法在数据挖掘中的应用[A];第十六届全国数据库学术会议论文集[C];1999年
5 徐慧;;基于Web的文献数据挖掘[A];第十七届全国数据库学术会议论文集(技术报告篇)[C];2000年
6 孙迎;;医院信息的数据挖掘与方法研究[A];中华医学会第十次全国医学信息学术会议论文汇编[C];2004年
7 薛晓东;李海玲;;数据挖掘的客户关系管理应用[A];科技、工程与经济社会协调发展——河南省第四届青年学术年会论文集(下册)[C];2004年
8 郭建文;黄燕;印鉴;杨小波;梁兆辉;;建立中风病“阴阳类证”辨证规范的数据挖掘研究[A];中华医学会第十三次全国神经病学学术会议论文汇编[C];2010年
9 薛鲁华;张楠;;聚类分析在Web数据挖掘中的应用[A];北京市第十三次统计科学讨论会论文选编[C];2006年
10 樊建聪;梁永全;唐雷雨;曾庆田;;一种新的令牌群模型及其在数据挖掘中的应用[A];2007'仪表,自动化及先进集成技术大会论文集(二)[C];2007年
中国博士学位论文全文数据库 前10条
1 吴国清;科学计算时变数据集的数据挖掘算法研究[D];中国工程物理研究院;2009年
2 董晓莉;时间序列数据挖掘相似性度量和周期模式挖掘研究[D];天津大学;2007年
3 张保稳;时间序列数据挖掘研究[D];西北工业大学;2002年
4 郭斯羽;动态数据中的数据挖掘研究[D];浙江大学;2002年
5 李国旗;本体辅助的先验知识融入生物信息数据挖掘的方法研究[D];上海交通大学;2007年
6 金阳;基于概念格模型的序列模式挖掘算法研究[D];吉林大学;2007年
7 林晓勇;频繁模式挖掘和动态维护的理论与方法研究[D];北京化工大学;2008年
8 郑广勇;哺乳动物转录因子及其靶基因的挖掘分析[D];复旦大学;2009年
9 黄解军;贝叶斯网络结构学习及其在数据挖掘中的应用研究[D];武汉大学;2005年
10 肖辉;时间序列的相似性查询与异常检测[D];复旦大学;2005年
中国硕士学位论文全文数据库 前10条
1 张雷;多层次分布式智能决策支持系统及应用研究[D];西北工业大学;2006年
2 谷赫;时间序列的数据挖掘在证券预测分析中的应用研究[D];吉林大学;2005年
3 张特来;基于时间序列的数据挖掘方法在电力负荷预测中的应用研究[D];辽宁工程技术大学;2006年
4 颜镝;时间序列数据挖掘的研究以及在交通流预测上的应用[D];北京工业大学;2005年
5 廖超;基于粗糙集理论的时间序列数据分析[D];中南大学;2005年
6 郭小芳;时间序列数据挖掘中的若干问题研究[D];西北大学;2008年
7 李新萍;基于比特序列变化模式聚类的时间序列相似搜索[D];华中科技大学;2007年
8 田政雄;基于小波变换的时间序列挖掘研究[D];天津大学;2008年
9 杜曙光;电信网络告警相关性分析方法研究[D];华侨大学;2005年
10 刘荣其;基于聚类和时序分析的林分生长模型[D];福建农林大学;2009年
中国重要报纸全文数据库 前10条
1 海风;数据集中 为保险业防范风险提供有力保障[N];金融时报;2005年
2 ;选择合适的数据挖掘算法[N];计算机世界;2007年
3 本报记者 郭白岩;大众点评网向数据挖掘要收益[N];中国经营报;2011年
4 本报记者 黎宇文;博时基金王德英: 数据挖掘促进基金精细化管理[N];中国证券报;2011年
5 早报记者 胡孝敏;跨国企业掘金中国“数据挖掘”市场[N];东方早报;2005年
6 本报记者褚宁;数据挖掘如“挖金”[N];解放日报;2002年
7 吴辅世;打破数据挖掘的5个神话[N];中国计算机报;2003年
8 游雪晴 实习生 徐建华;科学计算:第三只眼睛洞察世界[N];科技日报;2005年
9 赵纪元;数据挖掘在CRM中的应用[N];人民邮电;2001年
10 赛迪顾问 颜海燕;保险业IT应用:从数据集中走向应用集中与整合[N];中国保险报;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978