收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

复杂数据的粒化机理与数据建模

钱宇华  
【摘要】:迅猛发展的计算机技术、网络技术和传感器技术使得诸如天文、军事、生物、医疗、管理等学科的数据采集和数据传输更为便利和快捷,从而使得数据日趋复杂,规模不断增长,形成了大量类型复杂、形式异构的高维海量信息。从数据的描述看,数值型、名义型、区间型、缺省型、集值型等多种类型数据并存构成了复杂数据的主要特征。对复杂数据的建模、分析与利用已成为当今诸多应用领域知识发现面临的主要任务,而数据的复杂性是知识发现面临的主要困难之一。复杂数据已成为现代社会中数据资源和知识发现的主体。 复杂数据的数据建模是其分析与利用的基础。近年来,借鉴认知科学的研究成果来创新数据建模理论与方法越来越受到人们的重视。基于认知科学的数据建模主要从两个方面进行研究,一类着重于感知机理的理解与模拟,另一类着重于认知机理的理解与模拟。作为人类认知的重要特征之一,粒化认知对复杂数据建模具有重要的借鉴作用。借鉴人类的粒化认知机理,有望诞生新的数据建模理论与方法。开展基于粒化机理的复杂数据建模研究,关键是要解决如下三个核心科学问题: ·如何有效地进行复杂数据信息粒化? ·如何分析粒化的不确定性? ·如何借鉴粒化机理进行数据建模? 有鉴于此,本文面向包含数值型、名义型、区间型、缺省型、集值型在内的复杂数据,借鉴人类的粒化认知机理,紧紧围绕三个核心科学问题,从信息粒化、粒化不确定性、建模策略与模型选择四个层次展开系统研究,获得的主要研究成果和创新概括如下: 一、完善了复杂数据的信息粒化方法与算法体系,深刻揭示了复杂数据的粒化机理,为基于粒化机理的复杂数据建模提供了基础。 提出了如何有效地进行带测量误差的数据聚类问题,给出了一种适合于带测量误差数据的聚类算法。实验分析表明:考虑测量误差的聚类算法可能比仅考虑测量值的聚类算法所获得的聚类结果更加贴近于数据的真实分类;误差数距离提供了度量带测量误差对象的差异性的有效方法。 发展了一类基于选举类别代表策略的κ-representatives算法,在半监督环境下该算法在名义型、集值型以及缺省型数据的聚类分析中,其聚类精度、纯度、召回率与迭代次数四个聚类性能评价指标都显示了明显的优势。特别地,由于这个聚类策略回避了数据的空间结构分析,该算法不仅可用于单一数据类型的聚类分析,而且也可用于包含数值型、区间型、名义型、集值型和缺省型等多种类型并存的复杂数据的聚类分析。 二、建立了粒空间的运算方法,从代数角度和几何角度刻画了粒空间的结构特征;揭示了信息粒度度量的本质,为粒化不确定性研究提供了约束性理论与指导性方法。 在粒空间结构研究方面,给出了不同类型粒空间统一的知识表示方法;提出了交、并、补、差四个粒空间算子,给出了精确/模糊粒空间之间的合成、分解与转换运算方法,证明了所有粒空间与这些算子构成了完备有补格,从代数角度揭示了粒空间的层次结构特性;提出了知识距离与模糊知识距离的概念,在其意义下精确/模糊粒空间是一个距离测度空间,从几何角度揭示了粒空间上的几何结构特征。 在信息粒度研究方面,系统建立了精确粒空间与模糊粒空间的信息粒度度量方法;给出了精确/模糊信息粒度的公理化方法,统一了不同类型粒空间背景下信息粒度的相关度量,深刻揭示了精确/模糊信息粒度度量的本质,为粒化不确定性研究提供了约束性理论与指导性方法。 三、借鉴人类的粒化认知能力,发展了基于多粒度认知的、基于动态粒度认知的以及基于序化粒度认知的三大类复杂数据建模理论与方法,极大地推动了基于粒化认知的数据建模发展。 借鉴人类的多粒度认知能力,给出了基于“求同存异”的、基于“求同排异”的以及带概念描述的三类多粒度数据建模方法,极大地丰富了基于粗糙集的建模理论与方法,可以广泛应用于诸如分布式信息系统、多智能Agent等多粒度环境下的数据分析。 借鉴人类的动态粒度认知能力,建立了动态粒度下的概念逼近和决策逼近方法,提出了通用粗糙特征选择加速器,为高效地进行特征选择提供了有效方法。理论分析和实验结论表明:1)将加速器嵌入到每个特征选择方法中后,改进的算法能够保持原有算法的特征选择结果;2)与原有算法相比,带加速器的特征选择算法的耗时大大减少;3)数据规模越大,该加速器的优势越明显。提出了一种特征空间降维和样本空间降维相融合的结构降维策略,并设计了一种高效规则获取算法,分析表明该算法无论从计算时间还是决策性能都具有一定优势,为面向高维海量数据的知识发现提供了高效方法。 借鉴人类的序化粒度认知能力,给出了区间型、合取集值型与析取集值型三类数据的描述语义,建立了基于序化粒度的排序决策与分级决策模型,提出了基于保序原理的特征选择方法,有效解决了序信息系统与序决策信息系统中的特征选择问题。研究结果进一步完善了复杂数据的排序决策、分级决策建模的理论与方法,也为有序分类、有序聚类等相关建模问题提供了可资借鉴的手段。 四、建立了基于整体决策性能评价的模型选择方法,为知识发现的模型选择提供了理论依据与技术支持。 对于完备决策信息系统,给出了整体确定度、整体协调度和整体支持度三个完备决策规则集决策性能评价指标;对于非完备决策信息系统,提出了用极大相容块刻画非完备决策规则的方法,给出了整体确定度、整体协调度和整体支持度;面向分级决策问题,给出了序意义下的整体确定度、整体协调度和覆盖度三个优势规则集决策性能评价指标。理论分析和实验结论表明,提出的评价方法都明显优于基于近似精度和近似质量的评价方法,可为特定问题的模型选择提供理论依据与技术支持。 通过以上系统研究,从揭示人类的粒化认知机理出发,论文在信息粒化、粒化不确定性、建模策略与模型选择四个数据建模阶段都获得了重要的研究成果,初步形成了一个基于粒化机理的数据建模理论与方法体系,对面向复杂数据的数据建模有着重要的理论意义,同时对提高海量信息处理的效率具有实际的应用价值。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 郭攀;秦攀科;;浅析地震数据存储与交换模型的研究[J];科技信息(学术研究);2008年29期
2 王琦峰;黄永斌;;基于数据仓库的企业辅助决策分析系统研究与实现[J];浙江万里学院学报;2008年02期
3 徐立云,李霄峰,张斌,邵惠鹤,任德祥;数据的模糊建模研究及其在加热炉中的应用[J];数据采集与处理;2001年04期
4 李勇,刘晓东;数据建模技术在电信业务支撑系统中的应用研究[J];计算机应用;2005年09期
5 朱卫锋,费奇,陈学广;维数据仓库建模技术及其在数据建模中的应用[J];计算机工程与应用;2002年19期
6 孙春林;陈国焉;付维方;;基于数据库逆向工程技术的国航泛系统数据建模[J];中国民航大学学报;2007年S1期
7 何彦,王琦峰,刘飞,鄢萍;企业综合信息查询分析系统的数据建模技术及应用[J];兵工自动化;2001年04期
8 冯睿;;数据建模超类和子类[J];中文信息;2003年06期
9 李克,罗浩,杨铁皂,徐斌,张保恒;MATLAB在喷气MAP图数据组织中的应用[J];河南科技大学学报(自然科学版);2005年05期
10 潘荣武;;GML3.0及其在空间数据建模中的研究[J];中国水运(学术版);2006年06期
11 吴忠慧;;一种多维数据建模方法研究[J];襄樊职业技术学院学报;2009年01期
12 薛明,李红燕;一种基于模板的管理Web页面用户交互表单的方法(英文)[J];北京大学学报(自然科学版);2004年03期
13 陈文杰,王晶;基于支持向量机的聚酯粘度在线软测量[J];控制工程;2005年05期
14 佘名,高叶明;基于GIS的配电网生产管理系统的设计与实现[J];中国科技信息;2005年18期
15 赵钊林;;基于IEC标准的电力数据仓库数据建模研究[J];福建工程学院学报;2006年04期
16 华勇;;卷烟工业企业的数据仓库构建方法[J];烟草科技;2007年06期
17 孙中东;;银行MIS建设中的逻辑数据建模[J];中国金融电脑;2008年02期
18 刘海涛;元昌安;刘海龙;李桂来;;数据挖掘建模研究[J];电脑编程技巧与维护;2009年06期
19 王建;张志敏;;数据建模技术在信息系统中的应用[J];软件导刊;2010年08期
20 赵雷骏;;企业级数据资源整合分析[J];中国新通信;2008年13期
中国重要会议论文全文数据库 前10条
1 屈咏梅;殷伯明;;LH小学学业进步GM(1,1)四数据建模与未来预测[A];第19届灰色系统全国会议论文集[C];2010年
2 赵书城;高大庆;赵雅洁;;主题数字图书馆中基于Ontology的元数据建模研究[A];第二十届全国数据库学术会议论文集(研究报告篇)[C];2003年
3 曹居易;石玲;宫学庆;周傲英;;基于OWL的软件工程数据建模[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
4 王健宁;董峰;石教英;;可视化平台上的数据建模和数据封装[A];中国图象图形科学技术新进展——第九届全国图象图形科技大会论文集[C];1998年
5 赵雷;杨季文;;一种基于非结构化视图的企业数据建模方法[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
6 宁国忠;颜学峰;钱锋;;基于粒子群算法的神经网络学习方案设计及其在4-CBA建模中的应用[A];上海市化学化工学会2006年度学术年会论文摘要集[C];2006年
7 邵信光;杨慧中;石晨曦;;ε不敏感支持向量回归在化工数据建模中的应用[A];江苏省自动化学会七届四次理事会暨2004学术年会青年学者论坛论文集[C];2004年
8 徐慧;艾翔;肖德宝;;基于NETCONF协议的新一代网络管理[A];中国通信学会通信软件技术委员会2009年学术会议论文集[C];2009年
9 张亮;熊泳;张杭;;SCADA软件中的数据建模[A];第五届全国智能化电器及应用研讨会会议论文集[C];2001年
10 钟豪;杨慧中;;小波网络在软测量混合模型中的应用[A];全国自动化新技术学术交流会会议论文集(一)[C];2005年
中国博士学位论文全文数据库 前10条
1 钱宇华;复杂数据的粒化机理与数据建模[D];山西大学;2011年
2 刘向阳;多流形数据建模及其应用[D];上海交通大学;2011年
3 高建;水下SAS数据建模及干涉测量关键技术研究[D];武汉大学;2012年
4 黄杰;海洋环境综合数据时空建模与可视化研究[D];浙江大学;2008年
5 王浩;地下工程监测中的数据分析和信息管理、预测预报系统[D];中国科学院研究生院(武汉岩土力学研究所);2007年
6 周杨;深空测绘时空数据建模与可视化技术研究[D];解放军信息工程大学;2009年
7 孙进;非完备几何特征测量数据建模及其在颜面缺损修复中的应用研究[D];上海交通大学;2012年
8 郭迅华;中国企业信息化成长阶段分析与技术采纳特点研究[D];清华大学;2005年
9 丁丽娅;信息系统的非线性动力学控制研究[D];天津大学;2010年
10 赵元凤;中国农产品市场信息系统研究[D];中国农业科学院;2003年
中国硕士学位论文全文数据库 前10条
1 李长安;基于多层体系结构的国际物流系统的实现[D];上海海事大学;2003年
2 柏林;企业数据合理化方法的研究实践[D];东华大学;2006年
3 唐为光;中国农业银行客户信息系统(CIF)的工程设计[D];电子科技大学;2008年
4 姬忠良;基于支持向量机的VCM生产过程控制方法研究[D];大连理工大学;2006年
5 陈荔;土地信息基础设施基本架构设计[D];长安大学;2008年
6 马金金;三维露天采坑数据建模方法研究与实现[D];中南大学;2011年
7 张歆爽;一种物联网资源共享平台的数据建模与实现[D];北京邮电大学;2012年
8 罗宏;城市基础生活能源管理智能化研究与设计[D];电子科技大学;2004年
9 孙霞;基于XML的数字化校园信息发布与交换技术研究[D];武汉理工大学;2005年
10 罗旻;数据仓库技术在钢铁行业生产物流中的应用研究[D];复旦大学;2008年
中国重要报纸全文数据库 前10条
1 ;OLAP立方体开始瓦解[N];网络世界;2008年
2 本报记者 田立环;信息系统监理 为电子政务建设护航[N];中国国门时报;2005年
3 孙强 孟秀转;信息系统监理向何处去?[N];计算机世界;2003年
4 记者 郭平;信息系统灾难恢复将有规范可依[N];计算机世界;2007年
5 王蔚 胡芳;上海建设突发公共卫生应急信息系统[N];科技日报;2006年
6 孙书博;信息系统扮演外资药店重要角色[N];中国经营报;2006年
7 记者 杨乐;蔬菜质量安全又上新台阶[N];南宁日报;2007年
8 王春华;金网五矿整合华锑信息系统[N];中国改革报;2008年
9 高剑;良好的目的需要良好的手段匹配[N];东莞日报;2008年
10 记者 于岫 通讯员 范文跃;滁州市质监局举办“执法督察信息系统”培训[N];中国国门时报;2005年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978