收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

隐私保持数据挖掘与知识发现研究

黄芹华  
【摘要】: 数据挖掘和知识发现是从大规模数据集中发现潜在的,有价值的知识。随着计算机软硬件以及数据采集技术的发展,数据集的来源趋于更加多元化。数据集形式从数据文件发展到现今的各种数据库,数据流等。在进行数据挖掘的同时,有关保护源数据持有人隐私和数据库中的敏感知识的研究成为当前数据挖掘领域的重要紧迫性研究课题。本文在分析隐私保持数据挖掘方法研究现状的基础上,引入同态加密机制,提出数据干扰后重构技术,理论分析结合试验,针对传统的大规模数据库和新型的数据流应用领域,包括关联规则挖掘、序列模式发现、协同过滤推荐、数据流知识发现,提出相应安全、高效的隐私保持数据挖掘算法。 在大规模数据库中进行关联规则和序列模式发现是传统数据挖掘研究领域重要的两个研究课题。相关的隐私保持技术研究是当前的一个研究热点。现有隐私保持协议存在安全协议不够严谨、协议实现复杂等缺点。本文就此展开了相关研究。在引入同态加密机制后,重新对整个数据发现算法进行了设计,得到隐私保持关联规则发现算法,隐私保持序列模式算法,并且把算法从两方向多方扩展。 隐私保持技术研究是进行安全数据挖掘活动的技术基础。除了将同态加密理论运用于隐私保持数据挖掘,对于源数据进行干扰,以保持数据隐私,也是一个有实际意义的重要方法。数据干扰是对原始数据进行修改,删减,以隐藏真实数据,保护数据安全。本文提出了仅添加干扰,不改变原始数据值的干扰方法,在分析了干扰对支持度的影响概率后,重构干扰前频繁序列模式支持度,有效地保护了原始数据隐私。最后利用试验确定干扰的具体参数,取得了很好的效果。@@@协同过滤技术是近几年数据挖掘研究领域出现的智能数据处理方法,是电子商务等领域的核心技术。协同推荐系统收集具有共同信息需求的人们对给定领域的项目的评价,通过处理这些信息,为不同用户提供对用户未知项目的评价预测。本文提出基于代理的协同推荐技术,充分考虑了最大限度的利用系统收集的知识,利用C-Means聚类得到合成的代理代替传统算法中的邻居,为用户提供推荐,显著地提高了协同推荐的预测精度。在此基础上,利用安全多方计算,提出了隐私保持协同过滤协议,从而使得协同过滤过程保护了用户的隐私。 数据流是一种近年出现的数据应用形式。不同于传统建模中数据持久性的特点,数据流是瞬时的,广泛存在于电信、金融等领域。数据流数据挖掘的相关研究目前主要集中于分类,频繁模式发现。本文首次独立提出了对数据流进行序列模式挖掘算法,提出LSP-tree结构来概要归纳在线数据流,进而采用位图算法,时间倾斜窗口技术挖掘该概要结构的序列模式。在此基础上,结合我们提出的安全多方计算协议,利用同态加密,提出了在数据流上进行隐私保持序列模式发现算法,以保持客户秘密发现知识。 本文的创新之处有如下几点: (1)引入同态加密技术,结合现有的数据库知识发现技术,提出了基于同态加密性质的隐私保持数据挖掘方法。进而,在两方的基础上提出了进行多方参与的隐私保持数据库挖掘技术,包括关联规则挖掘,序列模式发现。 (2)提出了新的隐私保护机制。在添加干扰之后,重构干扰前的序列模式支持度估计,扰乱原有数据情况,进而保持了序列数据库的元数据隐私。 (3)提出了新的推荐技术用于协同过滤。利用C-Means聚类产生推荐代理,消除了部分传统算法中采用邻居推荐技术的评分不完整带来的不利影响,进而结合隐私保持聚类算法,提出了隐私协同过滤算法,解决了协同推荐中用户隐私保护的问题。 (4)提出了数据流中序列模式挖掘问题。利用快速位图算法,倾斜窗口技术,提出了基于内存的在线概要结构LSP-tree,进行数据流的序列模式挖掘。在此基础上,首次提出在保持客户秘密的前提下,秘密发现数据流中的序列模式信息。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 王兴鹏,沙金;利用Apriori算法进行序列模式挖掘[J];现代计算机;2002年10期
2 邹翔,张巍,蔡庆生,王清毅;大型数据库中的高效序列模式增量式更新算法[J];南京大学学报(自然科学版);2003年02期
3 吴卫华,袁宁;基于序列模式的关联规则Apriori算法的研究与优化[J];山东机械;2003年05期
4 宋世杰,胡华平,胡笑蕾;关联规则和序列模式算法在入侵检测系统中的应用[J];成都信息工程学院学报;2004年01期
5 杨学兵,刘胜军,蔡庆生;一种实时过程控制中的数据挖掘算法研究[J];计算机应用;1999年09期
6 胡笑蕾,胡华平,宋世杰;数据挖掘算法在入侵检测系统中的应用[J];计算机应用研究;2004年07期
7 张兵,聂永红,林士敏;NPSP:一种高效的序列模式增量挖掘算法[J];广西师范大学学报(自然科学版);2004年04期
8 龚惠群,黄超,彭江平;具有双时间维约束的股票序列模式挖掘[J];计算机工程;2003年20期
9 郭跃斌;翟延富;董祥军;;序列模式的关联规则在彩票分析中的应用研究[J];山东轻工业学院学报(自然科学版);2008年01期
10 周斌,吴泉源,高洪奎;序列模式挖掘的增量式算法的设计原则[J];计算机研究与发展;2000年10期
11 陈安,刘鲁,陈宁;多层次序列模式采掘算法及其在供需链管理中的应用[J];信息与控制;2000年06期
12 韩明涛;时间序列模式挖掘的算法研究[J];山东大学学报(工学版);2004年03期
13 张琪,黄厚宽;基于铁路客票分析的序列模式挖掘[J];铁路计算机应用;2004年07期
14 王红侠;胡学钢;;基于可信度约束的序列模式发现研究[J];淮北煤炭师范学院学报(自然科学版);2008年01期
15 孙贺全;彭勤科;张全伟;;基于序列模式特征和SVM的剪切位点预测[J];计算机工程;2009年05期
16 周斌,吴泉源;序列模式挖掘的一种渐进算法[J];计算机学报;1999年08期
17 宋世杰,胡华平,胡笑蕾,金士尧;数据挖掘技术在网络型异常入侵检测系统中的应用[J];计算机应用;2003年12期
18 孙晓冬;一种基于χ~2测试的序列模式挖掘算法[J];辽宁大学学报(自然科学版);2004年02期
19 贺桂娇;;一种改进的序列模式挖掘算法[J];电脑知识与技术;2008年S1期
20 陈金玉,樊兴华,曹长修;序列模式的一种挖掘算法[J];重庆大学学报(自然科学版);2001年01期
中国重要会议论文全文数据库 前10条
1 童咏昕;张媛媛;袁玫;马世龙;于丹;赵莉;;一种挖掘压缩序列模式的有效算法[A];第26届中国数据库学术会议论文集(A辑)[C];2009年
2 丁祥武;;序列模式的可信度[A];第十六届全国数据库学术会议论文集[C];1999年
3 周常恩;谢伙生;白清源;谢丽聪;张莹;;挖掘邻近序列模式的一个高效算法[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
4 张琪;朱秋云;朱绍文;姬朝阳;魏苑琦;陈亮;;对一种序列模式的增量式算法的改进[A];2005年中国智能自动化会议论文集[C];2005年
5 朱扬勇;郭德培;施伯乐;;数据库中序列模式的增量数据采矿技术[A];数据库研究进展97——第十四届全国数据库学术会议论文集(上)[C];1997年
6 程银波;司菁菁;;带有间隔约束的序列模式挖掘算法[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
7 赵桦;曲飞;;序列模式挖掘算法在Web挖掘上的应用[A];全国第十届企业信息化与工业工程学术年会论文集[C];2006年
8 姚伟力;王锡禄;宋俊德;;基于序列模式挖掘的告警相关性分析算法[A];2005年信息与通信领域博士后学术会议论文集[C];2005年
9 丁有伟;胡孔法;陈崚;;一种RFID位置序列挖掘方法[A];2008年全国开放式分布与并行计算机学术会议论文集(上册)[C];2008年
10 樊世燕;彭玉清;贾莲;;关于广播收听调查领域中数据处理问题的研究[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年
中国博士学位论文全文数据库 前10条
1 汤春蕾;交易序列数据挖掘研究[D];复旦大学;2011年
2 佘春东;数据挖掘算法分析及其并行模式研究[D];电子科技大学;2004年
3 徐敏;基于数据挖掘的Web信息检索研究[D];南京航空航天大学;2006年
4 荆涛;面向领域网页的语义标注若干问题研究[D];吉林大学;2011年
5 佟强;科学数据网格中数据挖掘技术研究[D];中国科学院研究生院(计算技术研究所);2006年
6 贾哲;分布式环境中信息挖掘与隐私保护相关技术研究[D];北京邮电大学;2012年
7 Azhar Mahmood;[D];华中科技大学;2013年
8 郑家顺;转录因子结合位点和组合调控模式的研究[D];清华大学;2005年
9 马进;加载隐私保护的网络安全综合管理关键技术研究[D];上海交通大学;2012年
10 PHAM THI THIET;基于前缀树结构的序列模式挖掘算法研究[D];湖南大学;2013年
中国硕士学位论文全文数据库 前10条
1 孟霞;泛在网络中情景感知业务的实现及用户移动序列模式研究[D];北京邮电大学;2010年
2 田彬;基因启动子序列模式建模与发现[D];天津大学;2012年
3 陈登曦;软件漏洞分析中含时间间隔的加权序列模式算法研究[D];燕山大学;2013年
4 李明月;基于约束的闭序列模式挖掘算法的研究[D];燕山大学;2012年
5 杨天霞;基于序列模式的序列聚类挖掘算法研究[D];西北师范大学;2010年
6 崔文亮;基于序列模式的手机病毒挖掘系统的设计与实现[D];北京邮电大学;2013年
7 苗东菁;不确定序列模式发现与查询算法的研究[D];哈尔滨工业大学;2011年
8 伯明超;基于序列模式的Web挖掘的研究[D];长春理工大学;2012年
9 王伟娜;基于投影位置的序列模式挖掘算法研究与应用[D];广西大学;2012年
10 韩高伟;基于前缀序列树的数据流序列模式算法研究[D];燕山大学;2013年
中国重要报纸全文数据库 前4条
1 蔡建生;跨国公司为什么会“出事”?[N];中国经营报;2004年
2 邬建荣;上海双菱“智能”集中客户数据[N];计算机世界;2004年
3 张立明;数据挖掘之道[N];网络世界;2003年
4 ;智能决策为企业导航[N];计算机世界;2001年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978