收藏本站
《复旦大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

隐私保护中k-匿名算法和匿名技术研究

何贤芒  
【摘要】:数据挖掘和数据发布是当前数据库应用的两个重要领域。一方面,数据挖掘与知识发现在各式各样的数据应用领域中都扮演着非常重要的角色。数据挖掘的目的在于从大量的数据中抽取出潜在的、有价值的知识、模型、规则等;另一方面,数据发布是将数据库中的数据直接地展现给用户,而在各种数据应用中,如果数据发布者不采取适当的数据保护措施,将可能造成敏感数据的泄漏,从而给数据所有者带来危害。例如从医院的病历数据中挖掘关联规则,以进行疾病的预防与控制。医院的病历数据就包含了特定的个人患有某种疾病的隐私信息。所以,如何在数据的发布和使用中保护个人隐私成为了一个越来越严峻的话题。 数据匿名化是实现隐私保护的一个有效手段,其基本思想是通过改变(概化、压缩等)原始数据中的部分数据,使改变后的数据无法和其他信息相结合而推理出关于任何个人的隐私信息。如何对含有隐私信息的数据进行匿名化已经吸引了大量的研究工作,得到了研究者广泛的关注。具体地说,实施数据隐私保护主要是考虑以下两个方面:(1)如何保证数据应用过程中不泄露隐私;(2)如何更有利于数据的应用。因此,如何在保护隐私的同时获得良好的数据可用性,这是学术界和工业界都亟需解决的一个问题。 有鉴于此,本文的主要工作集中在保证足够的隐私力度的前提下,如何提高数据的可用性。从匿名算法和匿名技术二个方面着手提高数据的可用性,本文研究成果主要有: (1)K-匿名模型是隐私保护中最重要的模型之一。其中概化是很多算法中最普遍使用的一种匿名技术。目前,基于概化的K-匿名算法遵守一个共同规则来完成一张表的匿名化处理:把表划分成很多的分组(QI-groups),且这些QI-groups的大小至少是K。然而,我们发现经过可以在不降低隐私保护力度的前提下,基于概化处理后的数据,如果能够降低QI-groups的大小,那么信息损失可以得到极大地改善。根据这个观察,我们提出了基于连接的K-匿名隐私保护模型,该模型中QI-group大小都比K小。同时,提出了一种简单的启发式算法来实现这个模型,其正确性通过理论证明。大量的真实数据实验表明,我们的算法比目前为止最好的算法的信息损失要降低很多。 (2)分析了Margnial Publication技术的特征,揭示了Marginal Publication解决方案的缺陷,通过引入m-invariance概念并且给出了存在满足m-invaraince划分的充要条件,可以在线性时间内判定是否存在满足要求的划分,从而比较好地提出解决该问题的算法,在数据可用性及其效率上都体现出良好的性能。 (3)在探讨了已有的匿名技术基础之上,提出了置换匿名(Permutation Anonymization)技术,它的特点是综合了概化(Generalization)和Anatomy二种著名匿名技术的优缺点,优化了数据的可用性。通过对置换匿名技术的分析表明,它是Anatomy技术的一种推广,能够提供比Anatomy更加好的隐私保护力度,能够抵抗存在攻击(Presence Attack),应用范围也更加地广泛。 (4)加密技术作为分布式环境下隐私保护最重要的手段之一。本文重点研究了几类序列密码的加密稳定性问题。这些序列包括著名的Legendre序列、Hall序列和广义割圆序列。给出了Legendre序列在GF(p)上线性复杂度的一般表示,这个结果是对丁存生著名的论文"On the linear complexity of Legendre sequences"[1]的一般性推广;给出了广义割圆序列的p+1/2-错线性复杂度,结论表明这类序列可以被一个次数不超过p+q极小多项式逼近,这比其线性复杂度L(L∈[pq/2,pq])要低很多;另外,我们还研究了Hall序列在GF(p)上线性复杂度。
【学位授予单位】:复旦大学
【学位级别】:博士
【学位授予年份】:2011
【分类号】:TP309

手机知网App
【引证文献】
中国博士学位论文全文数据库 前1条
1 杨高明;基于聚类的隐私保护数据发布关键技术研究[D];哈尔滨工程大学;2012年
【参考文献】
中国期刊全文数据库 前2条
1 周水庚;李丰;陶宇飞;肖小奎;;面向数据库应用的隐私保护研究综述[J];计算机学报;2009年05期
2 杨晓春;刘向宇;王斌;于戈;;支持多约束的K-匿名化方法[J];软件学报;2006年05期
中国硕士学位论文全文数据库 前1条
1 许俭;基于可用性的数据匿名化研究[D];复旦大学;2008年
【共引文献】
中国期刊全文数据库 前10条
1 王东霞;张楠;路晓丽;;基于育种算法的SVM参数优化[J];安徽大学学报(自然科学版);2009年04期
2 朱继锋;戴林;杜顶;李鹏辉;段晶晶;;支持密文索引的数据库透明加密方法[J];信息安全与技术;2011年09期
3 周锐;朱祖林;;基于成绩库的远程学习者流失预测决策树的应用研究[J];安庆师范学院学报(自然科学版);2009年02期
4 田莹,王丽君;RSA算法的一种简单快速变异算法[J];鞍山科技大学学报;2004年06期
5 董乐;袁德强;;GF(3)上一类广义自缩序列特例的密码性质[J];安阳师范学院学报;2009年02期
6 季越江;吕佳;;基于聚类分析的客户细分研究[J];办公自动化;2009年08期
7 许子君;杜秋;栾超;;Apriori改进算法在军队院校干部考核中的应用[J];兵工自动化;2012年03期
8 李新社;杜晓辉;尹毅峰;胡予濮;;多态密码机制的改进及其严格雪崩特性分析[J];北京工业大学学报;2009年06期
9 马猛;钮俊清;宁岩;郑浩然;王煦法;;聚类和关联规则挖掘在基因表达数据分析中的应用研究[J];北京生物医学工程;2008年04期
10 廖群英,孙琦;关于有限域上原根的分布[J];北京邮电大学学报;2004年04期
中国重要会议论文全文数据库 前10条
1 韩建民;岑婷婷;于娟;;实现敏感属性l-多样性的l-MDAV算法[A];第二十七届中国控制会议论文集[C];2008年
2 晏敏;牛少彰;辛阳;;基于第三方的安全移动支付方案的分析与设计[A];2011年通信与信息技术新进展——第八届中国通信学会学术年会论文集[C];2011年
3 张乃岳;张力;张学燕;;基于字段匹配的CRM数据挖掘算法与应用[A];逻辑学及其应用研究——第四届全国逻辑系统、智能科学与信息科学学术会议论文集[C];2008年
4 邵通;古永革;;保密环境中的一种伪随机数生成器的统计特性分析[A];第三次全国计算机安全技术交流会论文集[C];1988年
5 谯通旭;张文政;祝世雄;;计算几类周期序列的最小周期[A];第十一届保密通信与信息安全现状研讨会论文集[C];2009年
6 曹晖;司刚全;张彦斌;贾立新;;基于聚类分析的模糊控制算法在制粉系统中的应用[A];2007'仪表,自动化及先进集成技术大会论文集(一)[C];2007年
7 曹晖;司刚全;张彦斌;贾立新;;基于模糊时序数据挖掘的火电厂制粉系统优化算法[A];2007'仪表,自动化及先进集成技术大会论文集(一)[C];2007年
8 潘国林;杨帆;;数据挖掘算法在保险客户分析中的应用[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(上册)[C];2009年
9 王丹丽;刘国华;宋金玲;李芳玲;;k-匿名模型中准标识符最佳值的求解问题[A];NDBC2010第27届中国数据库学术会议论文集A辑二[C];2010年
10 朱青;赵桐;王珊;;面向查询服务的数据隐私保护算法[A];NDBC2010第27届中国数据库学术会议论文集A辑一[C];2010年
中国博士学位论文全文数据库 前10条
1 韩道;基于人体和小动物数据库的生理组M3L平台构建[D];华中科技大学;2010年
2 吴学雁;金融时间序列模式挖掘方法的研究[D];华南理工大学;2010年
3 林胜;存储系统容错及阵列编码[D];南开大学;2010年
4 朱凤翔;k-错线性复杂度分布研究[D];解放军信息工程大学;2007年
5 王劲松;几类伪随机序列和序列簇的设计与分析[D];解放军信息工程大学;2007年
6 徐河杭;面向PLM的数据挖掘技术和应用研究[D];浙江大学;2010年
7 韩燕清;中药治疗多囊卵巢综合征文献数据库的建立及中药疗效的数据分析[D];北京中医药大学;2011年
8 于宏波;阳痿肾阳虚证症状规律及其转录组特征研究[D];成都中医药大学;2011年
9 彭佳扬;代谢网络中功能模块挖掘和进化分析研究[D];中南大学;2011年
10 张璇;准同步CDMA通信系统扩频序列设计[D];北京邮电大学;2011年
中国硕士学位论文全文数据库 前10条
1 刘建东;基于Web访问信息挖掘的数字图书馆个性化服务研究[D];浙江理工大学;2010年
2 龚吕乐;GF(3)上新的一类广义自缩序列及其扩展[D];郑州大学;2010年
3 吴正娟;特征变换在组合分类中的应用研究[D];郑州大学;2010年
4 黄银忠;一类新型缩控序列[D];郑州大学;2010年
5 琚长涛;一种带有聚类功能的边界检测算法的研究[D];郑州大学;2010年
6 牛建光;ATN中敏感信息关键技术的研究[D];哈尔滨工程大学;2010年
7 王勇;一种面向隐私保护的分布式数据流挖掘算法[D];哈尔滨工程大学;2010年
8 徐艳红;基于倾斜时间窗口的频繁项集挖掘算法研究[D];哈尔滨工程大学;2010年
9 侯宗仁;TD-SCDMA网络性能分析系统的设计与实现[D];大连理工大学;2010年
10 刘晨;XML文档聚类的研究[D];大连理工大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 韩建民;岑婷婷;虞慧群;;数据表k-匿名化的微聚集算法研究[J];电子学报;2008年10期
2 韩建民;于娟;虞慧群;贾泂;;面向敏感值的个性化隐私保护[J];电子学报;2010年07期
3 倪巍伟;陈耿;陆介平;吴英杰;孙志挥;;基于局部信息熵的加权子空间离群点检测算法[J];计算机研究与发展;2008年07期
4 宋金玲;刘国华;黄立明;朱彩云;;k-匿名方法中相关视图集和准标识符的求解算法[J];计算机研究与发展;2009年01期
5 倪巍伟;徐立臻;崇志宏;吴英杰;刘腾腾;孙志挥;;基于邻域属性熵的隐私保护数据干扰方法[J];计算机研究与发展;2009年03期
6 崇志宏;倪巍伟;刘腾腾;张勇;;一种面向聚类的隐私保护数据发布方法[J];计算机研究与发展;2010年12期
7 胡彩平;秦小麟;;一种基于密度的局部离群点检测算法DLOF[J];计算机研究与发展;2010年12期
8 杨高明;杨静;张健沛;;隐私保护的数据发布研究[J];计算机科学;2011年09期
9 周水庚;李丰;陶宇飞;肖小奎;;面向数据库应用的隐私保护研究综述[J];计算机学报;2009年05期
10 金澈清,钱卫宁,周傲英;流数据分析与管理综述[J];软件学报;2004年08期
中国博士学位论文全文数据库 前1条
1 李锋;面向数据挖掘的隐私保护方法研究[D];上海交通大学;2008年
【二级参考文献】
中国期刊全文数据库 前4条
1 罗永龙 ,黄刘生 ,荆巍巍 ,姚亦飞 ,陈国良;一个保护私有信息的布尔关联规则挖掘算法[J];电子学报;2005年05期
2 葛伟平;汪卫;周皓峰;施伯乐;;基于隐私保护的分类挖掘[J];计算机研究与发展;2006年01期
3 羌卫中;邹德清;金海;;网格环境中证书和策略的隐私保护机制研究[J];计算机研究与发展;2007年01期
4 张锋;常会友;;基于分布式数据的隐私保持协同过滤推荐研究[J];计算机学报;2006年08期
【相似文献】
中国期刊全文数据库 前10条
1 王平水;王建东;;匿名化隐私保护技术研究进展[J];计算机应用研究;2010年06期
2 李玲娟;郑少飞;;基于数据处理的数据挖掘隐私保护技术分析[J];计算机技术与发展;2011年03期
3 王莉;宫照煊;;基于多目标免疫克隆进化的随机匿名化算法[J];计算机应用研究;2010年11期
4 王茜;屈盛知;石香灵;;基于敏感属性值泄露个数期望的匿名模型[J];计算机应用研究;2009年03期
5 邹妍;门爱华;秦晓薇;;XML信息共享中隐私保护技术研究[J];赤峰学院学报(自然科学版);2010年02期
6 罗亦军;刘强;王宇;;社会网络的隐私保护研究综述[J];计算机应用研究;2010年10期
7 王平水;王建东;;匿名化隐私保护技术研究综述[J];小型微型计算机系统;2011年02期
8 刘喻;吕大鹏;冯建华;周立柱;;数据发布中的匿名化技术研究综述[J];计算机应用;2007年10期
9 张晓琳;毕红净;;隐私保护动态数据集方法研究[J];内蒙古科技大学学报;2010年01期
10 胡新平;孙志挥;张柏礼;董建成;;基于敏感元组的隐私数据保护方法[J];东南大学学报(自然科学版);2010年05期
中国重要会议论文全文数据库 前10条
1 张亚维;朱智武;叶晓俊;;数据空间隐私保护平台的设计[A];第二十五届中国数据库学术会议论文集(一)[C];2008年
2 顾大权;范茵;许屏;侯太平;汪晋;;三维动态云的模拟[A];2007年中国智能自动化会议论文集[C];2007年
3 陈宇;宋俊;李平;张仁和;;基于FPGA和Handel-C的声纳信号处理算法实现[A];中国声学学会2003年青年学术会议[CYCA'03]论文集[C];2003年
4 张冬冬;李建中;张艳秋;;基于三级存储器的Join算法[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
5 郭维河;邢建厂;王玲;杜伟;张帅;;使用PRO*C实现莱钢大H型钢轧线切割优化的算法[A];第十一届全国自动化应用技术学术交流会论文集[C];2006年
6 汪卫;楼荣生;;封锁调度及几种新颖算法[A];第十一届全国数据库学术会议论文集[C];1993年
7 朱青;赵桐;王珊;;面向查询服务的数据隐私保护算法[A];NDBC2010第27届中国数据库学术会议论文集A辑一[C];2010年
8 滕金芳;钟诚;;基于匿名方法的数据发布隐私泄露控制技术进展分析[A];广西计算机学会2009年年会论文集[C];2009年
9 陆闻天;陶先平;吕建;;普适计算环境中隐私保护的研究与进展[A];第二届和谐人机环境联合学术会议(HHME2006)——第2届中国普适计算学术会议(PCC'06)论文集[C];2006年
10 高建智;肖晓玲;;性病门诊患者隐私保护需求调查分析与对策[A];中华护理学会2009全国护理管理学术交流暨专题讲座会议;中华护理学会2009全国护理新理论、新方法、新技术研讨会论文汇编[C];2009年
中国重要报纸全文数据库 前10条
1 刘国航;打记者难解“隐私”之困[N];法制日报;2010年
2 马婧婧;谁动了我的“隐私”?[N];人民日报海外版;2011年
3 马云飞;P3P:能否撑起隐私保护的天空?[N];中国计算机报;2000年
4 吴平;反乙肝歧视别忘隐私保护[N];中国医药报;2011年
5 黄永维;隐私保护在美国[N];人民法院报;2003年
6 岳成;“黑名单”公布制度与隐私保护[N];国际商报;2001年
7 黄碧梅;我们的隐私,怎么成了别人的金矿[N];人民日报;2010年
8 记者 何宗渝 马姝瑞 付航;网络“隐私门”发酵,谁来保护网民隐私?[N];新华每日电讯;2010年
9 本报记者 吕勇;360密盘让隐私保护更给力[N];中国消费者报;2010年
10 赵正华 冯永强;“八达通”事件凸显港隐私保护亟待更严立法[N];法制日报;2010年
中国博士学位论文全文数据库 前10条
1 何贤芒;隐私保护中k-匿名算法和匿名技术研究[D];复旦大学;2011年
2 宋金玲;K-匿名隐私保护模型中与匿名数据相关的关键问题研究[D];燕山大学;2012年
3 张坤;面向多租户应用的云数据隐私保护机制研究[D];山东大学;2012年
4 任毅;可信数据库中的隐私保护技术研究[D];武汉大学;2011年
5 李光;分类挖掘中的隐私保护问题研究[D];哈尔滨工业大学;2011年
6 孙一品;车载自组网隐私保护关键技术研究[D];国防科学技术大学;2010年
7 赵晏;数据库安全中隐私保护若干关键技术研究[D];东华大学;2011年
8 杨高明;基于聚类的隐私保护数据发布关键技术研究[D];哈尔滨工程大学;2012年
9 刘恒;普适计算环境下基于位置服务的隐私保护若干技术研究[D];电子科技大学;2010年
10 朱友文;分布式环境下的隐私保护技术及其应用研究[D];中国科学技术大学;2012年
中国硕士学位论文全文数据库 前10条
1 林吓洪;社区化网络中的隐私保护[D];上海交通大学;2010年
2 孙喜策;商用驱动的无线传感器网络分布式隐私保护技术研究[D];浙江大学;2010年
3 于娟;数据发布中隐私保护的匿名模型及算法研究[D];浙江师范大学;2010年
4 何青松;基于隐私保护的分布式聚类算法的研究[D];复旦大学;2010年
5 沈旭昌;隐私保护的分布式数据挖掘系统[D];浙江工业大学;2004年
6 毛云青;高效的集值属性数据隐私保护发布技术研究[D];浙江大学;2011年
7 吴修强;WMN安全与隐私保护机制研究[D];西安电子科技大学;2010年
8 王春光;我国网络隐私权民事保护制度研究[D];吉林大学;2005年
9 冷家昭;基于隐私保护的关联规则挖掘研究[D];南京信息工程大学;2011年
10 牛德姣;基于视频的目标跟踪及隐私保护技术的研究与实现[D];江苏大学;2003年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026