收藏本站
《哈尔滨工业大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

分类挖掘中的隐私保护问题研究

李光  
【摘要】:随着信息技术的发展,人类积累了大量的数据。如何有效的利用这些数据成为了一个棘手的问题。数据挖掘技术正是应对这一问题的有力手段。 随着数据挖掘应用的不断拓展,隐私保护成为了数据挖掘中的一个重要问题。必须在进行数据挖掘的同时考虑防止隐私泄露。普通的数据挖掘算法假定数据是可以直接得到的。这一假定与隐私数据的使用原则相违背。现实中,出于隐私保护的需要,很多时候都无法直接得到数据。为解决这一问题,需要研究如何在无法直接得到精确数据的情况下完成数据挖掘。 本文针对分类挖掘中的隐私保护问题进行研究。目前该领域已经提出了多种解决方法,但该领域的研究仍然不成熟。这主要表现在两方面。第一,目前该领域提出的算法仍有空白之处,很多问题都还没有解决,例如:目前针对分布式数据库,缺少实用的隐私保护的神经网络学习算法,因此将神经网络方法应用于隐私数据的挖掘仍不方便。第二,某些已有算法有进一步改进以提高性能的空间。例如,基于奇异值分解的方法有两点不足,首先,该方法对所有样本和属性都进行了同样强度的扰动,但实际上不同的样本和属性的重要性各不相同,而且可能对隐私保护强度有不同的要求,因此进行差别化扰动会比较好,其次,该方法仅使用奇异值分解来分析数据,实际上,不同的数据分析技术是从不同方面对数据进行分析的,综合使用多种数据分析技术可以对数据进行更为全面的分析。 本文针对以上不足,围绕分类挖掘中的隐私保护问题进行研究,开发解决该问题的算法,主要完成了以下几项工作。 (1)现有文献中没有涉及到实用的针对分布式数据库的隐私保护神经网络学习算法,因此目前在实际中在分布式数据库上隐私保护的进行神经网络学习并不方便。针对这一问题,本文基于安全多方计算,提出了应用于分布式数据库的隐私保护的反向传播算法。该算法使用基于安全多方计算的信息交流协议来在分布式数据库各节点之间交流反向传播算法所必需的信息,从而隐私保护的完成神经网络的训练。 (2) DNALA是一种DNA序列隐私保护算法。它首先进行序列对齐并计算距离矩阵,随后利用距离矩阵对序列进行聚类和泛化。DNALA算法在对齐序列时使用了较为费时的多序列比对。另外,DNALA算法在聚类时使用了精度不高的贪心算法。而且,DNALA算法不具备在线性,在数据变化时不能很快的得到最终结果。本文针对以上问题,对DNALA算法进行改进,在对齐序列时,用所需时间较少的两两双序列比对代替了多序列比对,并使用一种混合聚类算法代替了贪心聚类算法。该混合聚类算法由基于最大权匹配的聚类算法以及在线聚类算法构成。在线聚类算法在数据变化时可以很快地得到结果,但所得结果精度较低,基于最大权匹配的算法具有和贪心算法相同的时间复杂度,而且结果精度较高。混合算法在数据变化时,使用在线聚类算法,以快速的得到结果,并周期性的使用基于最大权匹配的算法以提高结果精度。 (3)在基于奇异值分解的隐私保护算法中,对所有样本和属性进行同样强度的扰动,而事实上样本和属性的重要性不同,对隐私保护的要求也可能不同,因此应该进行差别化对待。本文针对这一问题对基于奇异值分解的方法进行改进,提出了一种结合样本与属性选择的方法。该方法通过样本和属性选择选出重要的样本和属性,对于重要的样本和属性进行强度较低的扰动,对于其它的样本和属性进行强度较高的扰动。 针对同样的问题,本文还提出了一种基于加权奇异值分解的隐私保护方法。在该方法中,每个样本都有一个标示其重要性的权值。本文对基于奇异值分解的数据扰动方法进行推广,引入了加权机制,并用其进行数据扰动。 另外,在基于奇异值分解的隐私保护算法中,仅使用奇异值分解来分析数据。如果综合使用多种数据分析技术,可以更为全面地对数据进行分析。基于这一思路,本文提出了一种综合使用奇异值分解和独立成分分析的隐私保护算法。 (4)分类挖掘中的隐私保护方法可以分为两类:算法相关的和算法无关的。其中,算法相关的方法是针对特定的分类方法设计的,对于其他分类方法并不适用,而算法无关的方法对各种常用的分类方法都适用。目前,算法无关的方法都是基于数据扰动的方法。基于随机化的方法是最常使用的一种数据扰动方法,但目前尚未将随机化方法应用于算法无关的隐私保护方法。本文提出了一种基于随机化的算法无关的隐私保护方法。该方法独立生成一组不同于原始数据,但与原始数据同分布的新数据,并将其作为扰动数据公开。用户通过处理扰动数据来得到原始数据的模式。 综上所述,本文的主要贡献在于对分类挖掘中的隐私保护问题进行研究,提出新算法,并对已有算法进行改进以提高其性能。
【学位授予单位】:哈尔滨工业大学
【学位级别】:博士
【学位授予年份】:2011
【分类号】:TP309;TP311.13

【参考文献】
中国期刊全文数据库 前4条
1 韩建民;岑婷婷;虞慧群;;数据表k-匿名化的微聚集算法研究[J];电子学报;2008年10期
2 葛伟平;汪卫;周皓峰;施伯乐;;基于隐私保护的分类挖掘[J];计算机研究与发展;2006年01期
3 张鹏;唐世渭;;朴素贝叶斯分类中的隐私保护方法研究[J];计算机学报;2007年08期
4 郝红卫;蒋蓉蓉;;基于最近邻规则的神经网络训练样本选择方法[J];自动化学报;2007年12期
中国硕士学位论文全文数据库 前1条
1 陈玉山;基于独立成分分析的数字水印算法研究[D];厦门大学;2007年
【共引文献】
中国期刊全文数据库 前10条
1 孙小军;王志强;;带负权最短路问题前趋法的改进[J];安徽大学学报(自然科学版);2009年02期
2 王永梅;胡学钢;;决策树中ID3算法的研究[J];安徽大学学报(自然科学版);2011年03期
3 叶明全;;数据挖掘在医疗数据中的应用[J];安徽工程科技学院学报(自然科学版);2007年03期
4 贾泽露;;基于GIS与SDM集成的农用地定级专家系统[J];安徽农业科学;2008年14期
5 蔡丽艳;冯宪彬;丁蕊;;基于决策树的农户小额贷款信用评估模型研究[J];安徽农业科学;2011年02期
6 赵静娴;;基于决策树的食品安全评估研究[J];安徽农业科学;2011年32期
7 王斌;;基于聚类的决策树在玉米种质筛选中的应用[J];安徽农业科学;2011年33期
8 陈文;基于决策树的入侵检测的实现[J];安徽技术师范学院学报;2005年05期
9 覃爱明,胡昌振,谭惠民;网络攻击检测中的机器学习方法综述[J];安全与环境学报;2001年01期
10 左吉峰;乔均俭;;ID3算法的合理性证明及实验分析[J];保定学院学报;2008年04期
中国重要会议论文全文数据库 前10条
1 叶红云;倪志伟;陈恩红;;一种混合型集成学习演化决策树算法[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 ;Learning Algorithm of Decision Tree Generation for Continuous-valued Attribute[A];第二十九届中国控制会议论文集[C];2010年
3 王琦;;基于贝叶斯决策树算法的垃圾邮件识别机制[A];2011年通信与信息技术新进展——第八届中国通信学会学术年会论文集[C];2011年
4 陈清光;许家佗;于波;郭喆千;屠立平;崔龙涛;张志枫;费兆馥;;亚健康状态脉图特征的数据挖掘研究[A];全国第十二次中医诊断学术年会论文集[C];2011年
5 鲁松;;英文介词短语归并歧义的RMBL分类器消解[A];2005年信息与通信领域博士后学术会议论文集[C];2005年
6 刘海霞;钟晓妮;周燕荣;田考聪;;决策树在居民就诊卫生服务利用影响因素研究中的应用[A];重庆市预防医学会2010年论文集[C];2011年
7 汪云亮;吕久明;刘孝刚;;基于信息熵的辐射源属性分类方法[A];2006北京地区高校研究生学术交流会——通信与信息技术会议论文集(上)[C];2006年
8 叶中行;陆青;余敏杰;;计算智能在银行信贷信用分类中的应用[A];中国电子学会第十五届信息论学术年会暨第一届全国网络编码学术年会论文集(下册)[C];2008年
9 徐怡;余斌;李龙澍;;粗糙集在决策树生成中的应用[A];2005中国控制与决策学术年会论文集(下)[C];2005年
10 ;Rough Set Based Autolanding Control[A];第二十三届中国控制会议论文集(下册)[C];2004年
中国博士学位论文全文数据库 前10条
1 孙鹏飞;基于计算智能技术的蛋白质结构预测方法研究[D];哈尔滨工程大学;2010年
2 邬俊;基于交互式语义推理的图像检索算法研究[D];大连海事大学;2010年
3 张明;电能质量扰动相关问题研究[D];华中科技大学;2010年
4 渠瑜;基于SVM的高不平衡分类技术研究及其在电信业的应用[D];浙江大学;2010年
5 徐迪红;复杂背景下的交通标志检测和分类算法研究[D];武汉大学;2010年
6 徐河杭;面向PLM的数据挖掘技术和应用研究[D];浙江大学;2010年
7 朱佳俊;不确定可拓群决策优化方法及应用[D];东华大学;2010年
8 陈进;高光谱图像分类方法研究[D];国防科学技术大学;2010年
9 管红波;食品连锁经营中的有效客户反应研究[D];东华大学;2010年
10 李军;不平衡数据学习的研究[D];吉林大学;2011年
中国硕士学位论文全文数据库 前10条
1 岳海亮;信息论在粗糙集连续属性离散化中的应用[D];辽宁师范大学;2010年
2 张艳萍;蛋白质序列的数学描述及其应用[D];浙江理工大学;2010年
3 董鹏飞;路由算法及过滤器部署算法的研究与分析[D];郑州大学;2010年
4 徐一凤;隐私保护聚类挖掘方法的研究[D];哈尔滨工程大学;2010年
5 李威;多参数扰动的隐私保护关联规则挖掘算法研究[D];哈尔滨工程大学;2010年
6 魏晓晖;敏感规则隐藏算法的研究[D];哈尔滨工程大学;2010年
7 徐洪伟;数据挖掘中决策树分类算法的研究与改进[D];哈尔滨工程大学;2010年
8 曹振兴;适应概念漂移的数据流分类算法研究[D];哈尔滨工程大学;2010年
9 李晓光;数据挖掘技术在高校招生和教务管理中的应用[D];哈尔滨工程大学;2010年
10 秦园;基于SPOT5的土地信息提取技术研究[D];大连理工大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 牛夏牧,陆哲明,孙圣和;彩色数字水印嵌入技术[J];电子学报;2000年09期
2 李洁,高新波,焦李成;一种基于CSA的混和属性特征大数据集聚类算法[J];电子学报;2004年03期
3 李洁;高新波;焦李成;;基于特征加权的模糊聚类新算法[J];电子学报;2006年01期
4 梁化楼,戴贵亮;人工神经网络与遗传算法的结合:进展及展望[J];电子学报;1995年10期
5 石红芹,谢昕;数字水印及其发展研究[J];华东交通大学学报;2005年02期
6 郝红卫,戴汝为;An integration approach to handwritten Chinese character recognition system[J];Science in China(Series E:Technological Sciences);1998年01期
7 丁玮,齐东旭;数字图像变换及信息隐藏与伪装技术[J];计算机学报;1998年09期
8 彭京;唐常杰;程温泉;石葆梅;乔少杰;;一种基于层次距离计算的聚类算法[J];计算机学报;2007年05期
9 黄达人,刘九芬,黄继武;小波变换域图像水印嵌入对策和算法[J];软件学报;2002年07期
10 杨晓春;刘向宇;王斌;于戈;;支持多约束的K-匿名化方法[J];软件学报;2006年05期
【相似文献】
中国期刊全文数据库 前10条
1 姚瑶;吉根林;;面向垂直划分数据库的隐私保护分布式聚类算法[J];南京师范大学学报(工程技术版);2008年04期
2 张国荣;;分布式数据挖掘的隐私保护问题[J];电脑知识与技术(学术交流);2006年08期
3 姚瑶;吉根林;;一种基于隐私保护的分布式聚类算法[J];计算机科学;2009年03期
4 邹妍;门爱华;秦晓薇;;XML信息共享中隐私保护技术研究[J];赤峰学院学报(自然科学版);2010年02期
5 陈晓华;;电子商务消费者隐私问题研究[J];洛阳工业高等专科学校学报;2006年04期
6 陈一梅;;数字化参考咨询的隐私保护研究[J];农业图书情报学刊;2008年01期
7 刘智涛;霍成义;;电子商务中的隐私保护技术研究[J];现代计算机(专业版);2008年10期
8 龙琦;;基于k-匿名的隐私保护[J];科协论坛(下半月);2010年03期
9 陶卫平;;基于数据扰动的隐私保持的分类挖掘方法[J];数字技术与应用;2010年09期
10 毕菊;王莉;;基于快速隐私保护关联规则的挖掘算法[J];辽宁科技大学学报;2010年05期
中国重要会议论文全文数据库 前10条
1 张亚维;朱智武;叶晓俊;;数据空间隐私保护平台的设计[A];第二十五届中国数据库学术会议论文集(一)[C];2008年
2 陆闻天;陶先平;吕建;;普适计算环境中隐私保护的研究与进展[A];第二届和谐人机环境联合学术会议(HHME2006)——第2届中国普适计算学术会议(PCC'06)论文集[C];2006年
3 高建智;肖晓玲;;性病门诊患者隐私保护需求调查分析与对策[A];中华护理学会2009全国护理管理学术交流暨专题讲座会议;中华护理学会2009全国护理新理论、新方法、新技术研讨会论文汇编[C];2009年
4 桂琼;程小辉;;一种隐私保护的分布式关联规则挖掘方法[A];2009年全国开放式分布与并行计算机学术会议论文集(下册)[C];2009年
5 栾卫华;;妇产科患者隐私保护的调查分析体会[A];河南省妇产科护理风险管理研讨班暨学术会议论文集[C];2008年
6 潘晓;郝兴;孟小峰;;基于位置服务中的连续查询隐私保护研究[A];第26届中国数据库学术会议论文集(A辑)[C];2009年
7 余永红;;集成访问控制和隐私保护机制的安全数据库研究[A];第二十五届中国数据库学术会议论文集(一)[C];2008年
8 陆川;姚剑波;文光俊;;无线传感器网络中的数据融合隐私分级保护[A];全国第19届计算机技术与应用(CACIS)学术会议论文集(下册)[C];2008年
9 刘敏;杨薇;;妇产科门诊与住院病人隐私保护需求特点的比较分析[A];中华护理学会全国妇产科新技术、新理论进展研讨会论文汇编[C];2009年
10 黄毅;潘晓;孟小峰;;OrientPrivacy:移动环境下的隐私保护服务器[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
中国重要报纸全文数据库 前10条
1 刘国航;打记者难解“隐私”之困[N];法制日报;2010年
2 马婧婧;谁动了我的“隐私”?[N];人民日报海外版;2011年
3 马云飞;P3P:能否撑起隐私保护的天空?[N];中国计算机报;2000年
4 吴平;反乙肝歧视别忘隐私保护[N];中国医药报;2011年
5 黄永维;隐私保护在美国[N];人民法院报;2003年
6 岳成;“黑名单”公布制度与隐私保护[N];国际商报;2001年
7 黄碧梅;我们的隐私,怎么成了别人的金矿[N];人民日报;2010年
8 记者 何宗渝 马姝瑞 付航;网络“隐私门”发酵,谁来保护网民隐私?[N];新华每日电讯;2010年
9 本报记者 吕勇;360密盘让隐私保护更给力[N];中国消费者报;2010年
10 赵正华 冯永强;“八达通”事件凸显港隐私保护亟待更严立法[N];法制日报;2010年
中国博士学位论文全文数据库 前10条
1 李光;分类挖掘中的隐私保护问题研究[D];哈尔滨工业大学;2011年
2 张坤;面向多租户应用的云数据隐私保护机制研究[D];山东大学;2012年
3 任毅;可信数据库中的隐私保护技术研究[D];武汉大学;2011年
4 孙一品;车载自组网隐私保护关键技术研究[D];国防科学技术大学;2010年
5 宋金玲;K-匿名隐私保护模型中与匿名数据相关的关键问题研究[D];燕山大学;2012年
6 刘恒;普适计算环境下基于位置服务的隐私保护若干技术研究[D];电子科技大学;2010年
7 任国珍;支持多租户数据隐私保护的数据加密机制研究[D];山东大学;2012年
8 吴珏;隐私保护的数据挖掘算法研究[D];西南石油大学;2012年
9 朱友文;分布式环境下的隐私保护技术及其应用研究[D];中国科学技术大学;2012年
10 何贤芒;隐私保护中k-匿名算法和匿名技术研究[D];复旦大学;2011年
中国硕士学位论文全文数据库 前10条
1 孙喜策;商用驱动的无线传感器网络分布式隐私保护技术研究[D];浙江大学;2010年
2 林吓洪;社区化网络中的隐私保护[D];上海交通大学;2010年
3 何青松;基于隐私保护的分布式聚类算法的研究[D];复旦大学;2010年
4 沈旭昌;隐私保护的分布式数据挖掘系统[D];浙江工业大学;2004年
5 毛云青;高效的集值属性数据隐私保护发布技术研究[D];浙江大学;2011年
6 吴修强;WMN安全与隐私保护机制研究[D];西安电子科技大学;2010年
7 王春光;我国网络隐私权民事保护制度研究[D];吉林大学;2005年
8 冷家昭;基于隐私保护的关联规则挖掘研究[D];南京信息工程大学;2011年
9 牛德姣;基于视频的目标跟踪及隐私保护技术的研究与实现[D];江苏大学;2003年
10 王彩梅;位置服务中用户轨迹隐私度量的研究[D];华中师范大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026