收藏本站
《东华大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

基于隐私保护的数据挖掘若干关键技术研究

王健  
【摘要】:数据挖掘是指从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘技术的广泛应用使得人们能够从大量数据中获取隐含的知识。然而,由于被挖掘的数据中通常还包含着许多敏感性的信息,使得数据挖掘在带来信息时代知识学习的巨大价值的同时,也对人们的隐私和数据安全构成了威胁。目前在商业、军事及公共医疗卫生等应用领域,经常面临着如何在保护各自隐私安全的前提下进行充分的同行业合作以及数据共享的问题。因此,如何将数据挖掘和隐私保护有机地结合起来,已经是人们面临的一个重要课题。 基于隐私保护的数据挖掘(Privacy Preserving Data Mining,简称PPDM)是指采用数据扰乱、数据重构、密码学等技术手段,能够在保证足够精度和准确度的前提下,使数据挖掘者在不触及实际隐私数据的同时,仍能进行有效的挖掘工作。其目的就是通过对原始数据或者挖掘算法进行某种改进,在不向外界泄漏隐私信息的同时,发现原始数据的某些统计规律或隐含的知识和规则。目前围绕分类挖掘、聚类挖掘和关联规则挖掘等主要的数据挖掘方法,学术界已经提出了许多相应的PPDM算法。但是在神经网络学习和贝叶斯网络增量学习方面,与之相关的PPDM算法研究较少,且效率不高。另外,分布式数据挖掘中的隐私保护问题较集中式环境更为复杂,使得传统集中式PPDM技术无法直接应用于分布式环境中。所以本文针对这些问题展开了深入研究。概括地来说,本文的主要研究工作可分为以下几个方面: 1)反向传播神经网络学习算法已经被广泛地应用在医疗诊断,生物信息学,入侵检测,国土安全等领域。这些应用领域有一个共同点,就是都需要从大量的复杂的数据中抽取模式和预测趋势。在以上这些应用领域中,如何来保护敏感数据和个人的隐私信息不被泄露是一个重要的问题。目前已有的反向传播神经网络学习算法,绝大多数都没有考虑学习过程中如何保护数据的隐私信息。本文为反向传播神经网络提出两个基于隐私保护的协议,分别适用于数据被水平分割和数据被垂直分割的情况。在建造神经网络的过程中,需要为训练样本集计算网络权向量。为了保证神经网络学习模型的隐私信息不被泄露,本文提出将权向量分配给所有参与方,使得每个参与方都具有权向量的一部分私有值。在对各层的神经元进行计算时,使用安全点积协议,安全多方乘积协议和安全多方加协议,从而保证神经网络权向量的中间值和最终值都是安全的。最后被建造好的学习模型被所有参与方安全地共享,并且每个参与方可以使用该模型为各自的目标数据预测出相应的输出结果。实验结果表明本文所提出的两个协议的执行时间与加密密钥长度和参与方数目之间的关系。另外,实验结果还表明这两个协议与各自的非隐私保护版本协议在测试误差率上的区别。 2)贝叶斯网络学习是机器学习和数据挖掘的另一个研究方向。在对贝叶斯网络学习算法的研究中,一方面需要考虑数据的隐私信息不被泄露;另一方面,在现实世界应用中,数据可能是逐步到达贝叶斯网络的,因此传统的贝叶斯网络学习算法就不能被有效的应用。为了解决该问题,可以使用增量学习的策略。增量学习策略可以在安全性、执行时间和内存分配方面改善算法的性能,但是目前已有的基于隐私保护的贝叶斯网络学习算法都没有结合增量学习的策略。所以本文提出一种基于隐私保护的贝叶斯网络增量学习算法。该算法所使用的增量学习策略是基于充分统计量的。其思路大致为:首先提出一个计算充分统计量的公式,在此基础上对传统的K2算法进行改进,并添加了充分统计量的概念,进而提出一个增量型的K2算法,最后提出基于隐私保护的贝叶斯网络增量学习算法。使用该算法可以从那些被水平分割并且是逐步到达的数据中,计算出网络结构和参数。该算法只需要保存每个结点和它可能的双亲集合的充分统计量,就可以计算出每个结点和它的双亲的得分函数值,从而建造出贝叶斯网络结构。实验结果表明本文所提出的基于隐私保护的贝叶斯网络增量学习算法的执行效率高于非增量学习算法。另外,实验结果还表明增量学习算法的执行时间与候选双亲链表中所含成员数目之间的关系。 3)在分布式环境下,对大量的分布式数据进行数据挖掘时,如何保护数据的隐私信息是一个重要问题。本文从系统框架设计和算法设计两个方面来解决这个问题。在系统框架设计方面,本文提出了一种新的适用于频繁模式挖掘的框架,其中每个子网络只含有一个ConnectNode,并由其负责和其它网络进行数据传输,从而提高网络之间数据传输效率。在整个分布式框架内,只有可信结点可以访问数据库。在算法设计方面,本文提出了一种分布式环境下基于隐私保护的频繁模式挖掘算法,该算法没有采用以往的切割传输数据库的方法,而是设计出一种传输频繁模式树的方法。该方法通过对待传输的数据先进行压缩再传输的方式来提高网络传输效率。在该算法中计算结点不需要访问数据库,也不需要各个结点交换数据内容,从而避免数据隐私信息被泄露。只有可信结点才被允许访问数据库内容,所以即使某个计算结点的数据被窃取,该数据也并不是完整的交易内容,从而可以将数据泄露的威胁降到最低。实验结果表明本文所提出的算法的执行效率明显高于其它并行分布式的频繁模式挖掘算法。 综上所述,本文针对神经网络和贝叶斯网络这两种主要的机器学习算法,分别提出了相应的基于隐私保护的算法,从而保证数据中的隐私信息在机器学习的过程中不被泄露。另外,本文解决了分布式环境下隐私保护与数据挖掘之间的矛盾,将这两种技术有机地结合在一起,提出了一种新的分布式环境下基于隐私保护的频繁模式挖掘算法,从而既可以保证原始数据中的隐私信息在频繁模式挖掘过程中不被泄露,又可以保证挖掘出有用的规则和模式。
【学位授予单位】:东华大学
【学位级别】:博士
【学位授予年份】:2011
【分类号】:TP311.13

手机知网App
【参考文献】
中国期刊全文数据库 前2条
1 曾尔恕,黄宇昕;美国网络隐私权的法律保护[J];中国人民公安大学学报;2003年06期
2 胡月,熊忠阳;一种新的BP算法并行策略[J];计算机工程;2005年08期
【共引文献】
中国期刊全文数据库 前10条
1 王凤民;;性骚扰相关法律问题分析[J];安徽农业大学学报(社会科学版);2006年02期
2 王凤民;知情权相关法律问题的思考[J];北华大学学报(社会科学版);2005年03期
3 杨有龙,吴艳;基于进化算法的贝叶斯网络度量[J];兵工学报;2004年05期
4 李开灿,耿直;条件独立性的三种形式及其相互关系[J];北京大学学报(自然科学版);2002年05期
5 董立岩;刘光远;苑森淼;李永丽;孙铭会;;混合式朴素贝叶斯分类模型[J];吉林大学学报(信息科学版);2007年01期
6 石雁;;政府网络监管与个人隐私保护[J];成都信息工程学院学报;2006年01期
7 连志英;论档案公布权[J];档案与建设;2002年03期
8 黄敏;徐飞;王兴伟;;一种动态联盟企业风险概率识别方法[J];东北大学学报(自然科学版);2005年12期
9 周颜军,王双成,王辉;基于贝叶斯网络的分类器研究[J];东北师大学报(自然科学版);2003年02期
10 张邦佐;王辉;张剑飞;左万利;;以核心变量为基础的离散贝叶斯网络结构学习[J];东北师大学报(自然科学版);2005年04期
中国重要会议论文全文数据库 前9条
1 刘振;代进进;王毅;;贝叶斯网络推理与算法[A];2006北京地区高校研究生学术交流会——通信与信息技术会议论文集(下)[C];2006年
2 Yangu Zhang1,Ming Yao2, Bin Shen2 1 (School of Computer Science & Engineering, Wenzhou University, Wenzhou, Zhejiang 325027) 2 (School of Computer,Zhejiang University,Hangzhou,Zhejiang 310028);A Recursive Method of Learning Bayesian Network for Rule Extraction Based on Information Theory[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
3 滕明鑫;熊忠阳;张玉芳;;BP改进算法综述[A];2008'中国信息技术与应用学术论坛论文集(一)[C];2008年
4 沈海峰;梁曼君;;基于贝叶斯网络的数据挖掘技术[A];全国第十四届计算机科学及其在仪器仪表中的应用学术交流会论文集[C];2001年
5 刘悦;许洪波;程学旗;;互联网挖掘和搜索的研究进展[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
6 程璇;舒永珍;;医疗行为中隐私权与知情权的冲突及解决途径[A];2007年浙江省医学伦理学与卫生法学学术年会论文汇编[C];2007年
7 Jiejun Huang Youchuan Wan School of Remote Sensing and Information Engineering,Wuhan University,Wuhan 430079,P.R.China;Using Bayesian Networks for Automobile Diagnosis[A];Proceedings of 6th International Symposium on Test and Measurement(Volume 7)[C];2005年
8 彭皓;李泉林;;RFID隐私与安全中的关键技术研究[A];2006国际RFID技术高峰论坛会论文集[C];2006年
9 LI Xiaolin 1, LI Shouyi 2 , HE Xiangdong 3 , YUAN Senmiao1 (1. College of Computer Science and Technology, Jilin University, Changchun 130012, China) (2. Department of Earth Science, Jilin University, Changchun 130026, China) (3. Institute of Mathematics, Jilin University Changchun 130012, China);Learning Bayesian Networks from Data:An Efficient Approach Based on Extended Evolutionary Programming[A];智能计算及其应用国际会议论文集[C];2005年
中国博士学位论文全文数据库 前10条
1 李刚;知识发现的图模型方法[D];中国科学院软件研究所;2001年
2 王宽全;基于信度网模型的电信网阻塞预测及控制的研究[D];重庆大学;2001年
3 苏怀智;大坝安全监控感智融合理论和方法及应用研究[D];河海大学;2002年
4 苏健;基于粗糙集的数据挖掘与决策支持方法研究[D];浙江大学;2002年
5 吴涛;构造性知识发现方法研究[D];安徽大学;2003年
6 李俭川;贝叶斯网络故障诊断与维修决策方法及应用研究[D];中国人民解放军国防科学技术大学;2002年
7 岳博;Bayes网络模型及其学习算法研究[D];西安电子科技大学;2002年
8 朱慧明;现代经济管理中的线性贝叶斯推断理论与多总体贝叶斯分类识别方法研究[D];南京理工大学;2003年
9 周海燕;空间数据挖掘的研究[D];中国人民解放军信息工程大学;2003年
10 许兆新;基于元知识的数据挖掘系统研究[D];哈尔滨工程大学;2003年
中国硕士学位论文全文数据库 前10条
1 张涛;基于数据挖掘的互联网信用模型的研究[D];浙江大学;2008年
2 胡振宇;贝叶斯学习的先验分布的研究[D];广西师范大学;2001年
3 李凡;数据挖掘技术的研究与应用[D];西安电子科技大学;2002年
4 尤志强;基于布尔过程论的波形空间以及分段插入排序算法研究[D];湖南大学;2002年
5 沈海峰;基于贝叶斯网络数据挖掘技术理论及算法的研究[D];合肥工业大学;2002年
6 黄添强;基于空间数据挖掘的环境调控空间决策支持系统研究[D];福州大学;2003年
7 Ssengonzi Charles;模糊聚类算法在个性化的WEB信息搜索助手的应用研究[D];大连理工大学;2003年
8 戴南;基于决策树的分类方法研究[D];南京师范大学;2003年
9 兰琼;基于DW/DM的地税发票综合业务分析决策系统的研究与实现[D];江西师范大学;2003年
10 陈玲;基于贝叶斯网络的学生模型的设计与实现[D];太原理工大学;2003年
【二级参考文献】
中国期刊全文数据库 前3条
1 罗永龙,徐致云,黄刘生;安全多方的统计分析问题及其应用[J];计算机工程与应用;2005年24期
2 高曙;基于机群的并行BP算法的设计与实现[J];武汉理工大学学报(交通科学与工程版);2002年05期
3 刘皓,魏平,肖先赐;面向特定结构的几种BP并行算法及比较[J];系统工程与电子技术;2000年01期
【相似文献】
中国期刊全文数据库 前10条
1 杨珺;王映龙;;集中式环境下面向隐私保护的数据挖掘技术的方法研究[J];科技信息;2011年08期
2 李玲娟;郑少飞;;基于数据处理的数据挖掘隐私保护技术分析[J];计算机技术与发展;2011年03期
3 李锋;李生红;李建华;;一种基于特征值分解的数据挖掘隐私保护扰乱增强方法[J];上海交通大学学报;2009年03期
4 郑利荣;印鉴;;一种基于隐私保护的关联规则挖掘算法[J];现代计算机(专业版);2009年06期
5 张瑞;郑诚;;基于隐私保护的关联规则挖掘算法[J];计算机工程;2009年04期
6 黄高琴;;基于隐私保护的分布式关联规则数据挖掘[J];微计算机信息;2009年09期
7 张国荣;印鉴;;基于离散余弦变换矩阵的隐私数据保护方法[J];计算机工程;2009年02期
8 李霞;陈子军;吕庆春;;基于移项的隐私保护关联规则挖掘算法[J];计算机工程;2009年12期
9 戴智丽;李霞;吕庆春;;基于相关系数的隐私保护关联规则挖掘[J];计算机工程;2010年05期
10 刘晓红;贺国平;;垂直分布数据的隐私保护支持向量机[J];佳木斯大学学报(自然科学版);2011年03期
中国重要会议论文全文数据库 前10条
1 贺庆;冯海旗;;基于关联规则挖掘的隐私保护方法研究[A];全国第九届企业信息化与工业工程学术会议论文集[C];2005年
2 俞笛;徐向阳;解庆春;刘寅;;基于保序加密的隐私保护挖掘算法[A];第八届全国信息隐藏与多媒体安全学术大会湖南省计算机学会第十一届学术年会论文集[C];2009年
3 郭学军;陈晓云;;粗集方法在数据挖掘中的应用[A];第十六届全国数据库学术会议论文集[C];1999年
4 徐慧;;基于Web的文献数据挖掘[A];第十七届全国数据库学术会议论文集(技术报告篇)[C];2000年
5 孙迎;;医院信息的数据挖掘与方法研究[A];中华医学会第十次全国医学信息学术会议论文汇编[C];2004年
6 薛晓东;李海玲;;数据挖掘的客户关系管理应用[A];科技、工程与经济社会协调发展——河南省第四届青年学术年会论文集(下册)[C];2004年
7 郭建文;黄燕;印鉴;杨小波;梁兆辉;;建立中风病“阴阳类证”辨证规范的数据挖掘研究[A];中华医学会第十三次全国神经病学学术会议论文汇编[C];2010年
8 薛鲁华;张楠;;聚类分析在Web数据挖掘中的应用[A];北京市第十三次统计科学讨论会论文选编[C];2006年
9 朱扬勇;黄超;;基于多维模型的交互式数据挖掘框架[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
10 陈涛;胡学钢;陈秀美;;基于数据挖掘的教学质量评价体系分析[A];全国第21届计算机技术与应用学术会议(CACIS·2010)暨全国第2届安全关键技术与应用学术会议论文集[C];2010年
中国重要报纸全文数据库 前10条
1 李开宇 黄建军 田长春;把“数据挖掘”作用发挥出来[N];中国国防报;2009年
2 刘国航;打记者难解“隐私”之困[N];法制日报;2010年
3 马婧婧;谁动了我的“隐私”?[N];人民日报海外版;2011年
4 马云飞;P3P:能否撑起隐私保护的天空?[N];中国计算机报;2000年
5 吴平;反乙肝歧视别忘隐私保护[N];中国医药报;2011年
6 黄永维;隐私保护在美国[N];人民法院报;2003年
7 华莱士;“数据挖掘”让银行赢利更多[N];国际金融报;2003年
8 记者 晏燕;数据挖掘让决策者告别“拍脑袋”[N];科技日报;2006年
9 □中国电信股份有限公司北京研究院 张舒博 □北京邮电大学计算机科学与技术学院 牛琨;走出数据挖掘的误区[N];人民邮电;2006年
10 岳成;“黑名单”公布制度与隐私保护[N];国际商报;2001年
中国博士学位论文全文数据库 前10条
1 王健;基于隐私保护的数据挖掘若干关键技术研究[D];东华大学;2011年
2 李光;分类挖掘中的隐私保护问题研究[D];哈尔滨工业大学;2011年
3 孙丽;工艺知识管理及其若干关键技术研究[D];大连交通大学;2005年
4 胡志坤;复杂有色金属熔炼过程操作模式智能优化方法研究[D];中南大学;2005年
5 刘革平;基于数据挖掘的远程学习评价研究[D];西南师范大学;2005年
6 刘寨华;基于临床数据分析的病毒性心肌炎证候演变规律研究[D];黑龙江中医药大学;2006年
7 王川;基因芯片数据管理及数据挖掘[D];中国科学院研究生院(上海生命科学研究院);2004年
8 王涛;挖掘序列模式和结构化模式的精简集[D];华中科技大学;2006年
9 郭斯羽;动态数据中的数据挖掘研究[D];浙江大学;2002年
10 李旭升;贝叶斯网络分类模型研究及其在信用评估中的应用[D];西南交通大学;2007年
中国硕士学位论文全文数据库 前10条
1 汤彪;隐私保护分类数据挖掘研究[D];内蒙古科技大学;2010年
2 苏国强;隐私保护技术在数据挖掘中的应用研究[D];辽宁工程技术大学;2010年
3 刘风丽;基于抽样的隐私保护聚类挖掘算法研究[D];河北工业大学;2007年
4 陈琦;关联规则挖掘算法的研究与实现[D];华中师范大学;2006年
5 邵慧;保护隐私的分类挖掘技术研究[D];河北工程大学;2010年
6 刘立坤;基于噪音添加和欧几里德距离的隐私保护数据挖掘方法[D];吉林大学;2011年
7 陈婷;基于隐私保护的个性化推荐系统的研究与实现[D];复旦大学;2008年
8 常鹏;基于隐私保护的分布式序列模式挖掘算法研究[D];江苏大学;2008年
9 何青松;基于隐私保护的分布式聚类算法的研究[D];复旦大学;2010年
10 沈旭昌;隐私保护的分布式数据挖掘系统[D];浙江工业大学;2004年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026