收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

隐私保护的数据挖掘

葛伟平  
【摘要】:我们处在一个信息爆炸的大时代,计算机处理能力、存储技术以及互联网络的发展又极大地提高了信息的数字化处理程度,所有这些又大大激发了从大量的数据中挖掘有用信息的需求,从而推动了数据挖掘的发展。任何事情都有其两面性,在数据挖掘领域也不例外,随之产生的就是信息安全和隐私保护的问题,如何在保证隐私的情况下挖掘出有用的信息是近年来数据挖掘领域研究的热点之一。 本文首先结合数据分布方式、数据修改方式、数据挖掘算法、数据或规则保护和隐私保护技术五个角度,对当前流行的隐私保护数据挖掘方法作了一个深入浅出的分析和介绍。 接着提出了一种新颖的隐私保护分类挖掘的算法。算法的第一部分着重于如何通过变换数据来保护隐私:首先提出了“单属性转移概率矩阵”的概念;接下来提出了“多个分裂属性联合转移概率矩阵”来表达多个分裂属性的联合变换概率,同时也介绍了计算其值的方法和计算其逆矩阵的简便方法(即等于“单属性转移概率矩阵”逆的联合);然后描述了通过“单属性转移概率矩阵”来变换原始数据的数据变换方法。算法的第二部分着重于如何从变换后的数据中恢复联合属性值的支持计数来产生判定树:首先推导了一个公式来从变换后的数据中恢复联合属性值的支持计数;接下来推导了另外一个公式,以便根据联合属性值的支持计数来计算Gain,进而选择最佳分裂属性和分裂点;最后给出了基于隐私保护的判定树产生算法-PPCART。另外本文也介绍了隐私保护程度的量化表示方法,以及给出了一个网上调研的例子来说明本算法的应用。一系列的实验表明该算法适用于所有的数据类型(布尔类型、分类类型和数字类型)、任意的原始数据概率分布和变换任何属性(包括标签属性),实验表明该算法在变换后的数据集上构造的分类树具有较高的精度。 然后又提出了一种新颖的全局关联规则隐私保护挖掘算法:先分别运用“项集转移概率矩阵”对各个分布站点的数据进行变换;然后提出了一种方法来恢复项集的全局支持计数,以便找出全局频繁项,进而找出全局关联规则。为了保证算法的有效性,该算法没有直接变换记录/事务里的项,而是对每条记录,先找出该记录里包含的所有候选频繁κ-项集,再用单符号分别代替每一个被包含的候选频繁κ-项集,然后逐个变换这些符号,最后将变换后的符号组合成一条记录,


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 张晓琳;汤彪;;隐私保护分类数据挖掘研究[J];内蒙古科技大学学报;2008年04期
2 舒红平,游志胜,蒋建民;基于信息熵的决策属性分类挖掘算法及应用[J];计算机工程与应用;2004年01期
3 郑利荣;印鉴;;一种基于隐私保护的关联规则挖掘算法[J];现代计算机(专业版);2009年06期
4 张德武,江国星;数据挖掘技术[J];现代计算机;2002年12期
5 黄高琴;;基于隐私保护的分布式关联规则数据挖掘[J];微计算机信息;2009年09期
6 李锐利;;数据挖掘中聚类算法的研究[J];山西冶金;2010年03期
7 刘俊霞;;数据挖掘中分类并行算法研究[J];河南科技学院学报;2009年03期
8 张宜生,刘凡,梁书云;人力资源数据挖掘技术及其应用[J];计算机工程与应用;2002年06期
9 龙琦;;基于k-匿名的隐私保护[J];科协论坛(下半月);2010年03期
10 杨珺;王映龙;;集中式环境下面向隐私保护的数据挖掘技术的方法研究[J];科技信息;2011年08期
11 荣秋生;;基于网格的隐私保护分类挖掘算法的研究[J];微计算机信息;2006年36期
12 李玲娟;郑少飞;;基于数据处理的数据挖掘隐私保护技术分析[J];计算机技术与发展;2011年03期
13 李锋;李生红;李建华;;一种基于特征值分解的数据挖掘隐私保护扰乱增强方法[J];上海交通大学学报;2009年03期
14 牟廉明;数据挖掘中聚类方法比较研究[J];内江师范学院学报;2003年02期
15 夏幼明,解敏,周雯;数据挖掘方法分析与评价[J];云南师范大学学报(自然科学版);2003年02期
16 陈晶;肖丁;;决策树算法在数据挖掘中的应用研究[J];软件导刊;2008年03期
17 张瑞;郑诚;;基于隐私保护的关联规则挖掘算法[J];计算机工程;2009年04期
18 张国荣;印鉴;;基于离散余弦变换矩阵的隐私数据保护方法[J];计算机工程;2009年02期
19 陆瑶;张杰;冯英俊;;基于判定树的项目R&D中的数据挖掘质量测评研究[J];情报杂志;2009年05期
20 李霞;陈子军;吕庆春;;基于移项的隐私保护关联规则挖掘算法[J];计算机工程;2009年12期
中国重要会议论文全文数据库 前10条
1 贺庆;冯海旗;;基于关联规则挖掘的隐私保护方法研究[A];全国第九届企业信息化与工业工程学术会议论文集[C];2005年
2 俞笛;徐向阳;解庆春;刘寅;;基于保序加密的隐私保护挖掘算法[A];第八届全国信息隐藏与多媒体安全学术大会湖南省计算机学会第十一届学术年会论文集[C];2009年
3 郭学军;陈晓云;;粗集方法在数据挖掘中的应用[A];第十六届全国数据库学术会议论文集[C];1999年
4 徐慧;;基于Web的文献数据挖掘[A];第十七届全国数据库学术会议论文集(技术报告篇)[C];2000年
5 孙迎;;医院信息的数据挖掘与方法研究[A];中华医学会第十次全国医学信息学术会议论文汇编[C];2004年
6 薛晓东;李海玲;;数据挖掘的客户关系管理应用[A];科技、工程与经济社会协调发展——河南省第四届青年学术年会论文集(下册)[C];2004年
7 郭建文;黄燕;印鉴;杨小波;梁兆辉;;建立中风病“阴阳类证”辨证规范的数据挖掘研究[A];中华医学会第十三次全国神经病学学术会议论文汇编[C];2010年
8 薛鲁华;张楠;;聚类分析在Web数据挖掘中的应用[A];北京市第十三次统计科学讨论会论文选编[C];2006年
9 王静;汪晓刚;;一种新的保护原始数据隐私性的聚类算法[A];第十届中国科协年会论文集(三)[C];2008年
10 朱扬勇;黄超;;基于多维模型的交互式数据挖掘框架[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
中国博士学位论文全文数据库 前10条
1 葛伟平;隐私保护的数据挖掘[D];复旦大学;2005年
2 王明春;基于粗糙集的数据及文本挖掘方法研究[D];天津大学;2005年
3 王健;基于隐私保护的数据挖掘若干关键技术研究[D];东华大学;2011年
4 李光;分类挖掘中的隐私保护问题研究[D];哈尔滨工业大学;2011年
5 孙丽;工艺知识管理及其若干关键技术研究[D];大连交通大学;2005年
6 胡志坤;复杂有色金属熔炼过程操作模式智能优化方法研究[D];中南大学;2005年
7 刘革平;基于数据挖掘的远程学习评价研究[D];西南师范大学;2005年
8 刘寨华;基于临床数据分析的病毒性心肌炎证候演变规律研究[D];黑龙江中医药大学;2006年
9 王川;基因芯片数据管理及数据挖掘[D];中国科学院研究生院(上海生命科学研究院);2004年
10 王涛;挖掘序列模式和结构化模式的精简集[D];华中科技大学;2006年
中国硕士学位论文全文数据库 前10条
1 汤彪;隐私保护分类数据挖掘研究[D];内蒙古科技大学;2010年
2 陈瑞斌;ERP相关技术在网通公司的应用研究[D];昆明理工大学;2005年
3 苏国强;隐私保护技术在数据挖掘中的应用研究[D];辽宁工程技术大学;2010年
4 袁志刚;基于贝叶斯理论的海量科学数据挖掘[D];电子科技大学;2005年
5 刘燕;SVM在个人房贷信用风险评估中的应用研究[D];大连理工大学;2006年
6 刘风丽;基于抽样的隐私保护聚类挖掘算法研究[D];河北工业大学;2007年
7 唐志军;基于分布式概念格的知识发现研究[D];合肥工业大学;2005年
8 郭兴凯;数据流挖掘技术的研究[D];黑龙江大学;2005年
9 李晓歌;基于BP网络的卷烟销售违规预测方法研究[D];郑州大学;2005年
10 王华;关联规则挖掘及在医学信息处理中的应用研究[D];合肥工业大学;2006年
中国重要报纸全文数据库 前10条
1 李开宇 黄建军 田长春;把“数据挖掘”作用发挥出来[N];中国国防报;2009年
2 刘国航;打记者难解“隐私”之困[N];法制日报;2010年
3 马婧婧;谁动了我的“隐私”?[N];人民日报海外版;2011年
4 马云飞;P3P:能否撑起隐私保护的天空?[N];中国计算机报;2000年
5 吴平;反乙肝歧视别忘隐私保护[N];中国医药报;2011年
6 华莱士;“数据挖掘”让银行赢利更多[N];国际金融报;2003年
7 黄永维;隐私保护在美国[N];人民法院报;2003年
8 记者 晏燕;数据挖掘让决策者告别“拍脑袋”[N];科技日报;2006年
9 □中国电信股份有限公司北京研究院 张舒博 □北京邮电大学计算机科学与技术学院 牛琨;走出数据挖掘的误区[N];人民邮电;2006年
10 张立明;数据挖掘之道[N];网络世界;2003年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978