收藏本站
《复旦大学》 2003年
收藏 | 手机打开
二维码
手机客户端打开本文

高维数据挖掘中若干关键问题的研究

杨风召  
【摘要】: 数据挖掘指的是从大量的数据中提取隐含的、事先未知的、并且潜在有用的知识的技术,是目前国际上数据库和信息决策领域最前沿的研究方向之一。在实际应用中经常会碰到高维数据,如交易数据、文档词频数据、用户评分数据、WEB使用数据及多媒体数据等。由于这种数据存在的普遍性,使得对高维数据挖掘的研究有着非常重要的意义。但由于“维灾”的影响,也使得高维数据挖掘变得异常地困难,必须采用一些特殊的手段进行处理。 随着数据维数的升高,高维索引结构的性能迅速下降,在低维空间中,我们经常采用L_p距离作为数据之间的相似性度量,在高维空间中很多情况下这种相似性的概念不复存在,这就给高维数据挖掘带来了很严峻的考验,一方面引起基于索引结构的数据挖掘算法的性能下降,另一方面很多基于全空间距离函数的挖掘方法也会失效。解决的方法可以有以下几种:一个可以通过降维将数据从高维降到低维,然后用低维数据的处理办法进行处理;对算法效率下降问题可以通过设计更为有效的索引结构、采用增量算法及并行算法等来提高算法的性能;对失效的问题通过重新定义使其获得新生。 本文对高维数据挖掘中的相似性搜索、高维数据聚类、高维数据异常检测及电子商务中的协同过滤技术进行了研究,指出了高维给这些领域带来的影响,提出了一些解决问题的方法,具有一定的理论意义和现实的指导意义。 本文的主要工作如下: (1)通过对高维数据特点的分析,提出了一种新的相似性度量函数Hsim(),该函数可以避免在高维空间中分辨能力下降的问题,还可以将数值型的数据和二值型数据相似性的计算整合在一个统一的框架中。并将它与其它的相似性函数进行了比较; (2)结合量化交易数据的特点,提出了一种新的量化交易数据相似性搜索方法,这种算法基于一种称为特征表的结构,对数据有较高的修剪率,能大大提高相似性搜索的速度; (3)提出了一种新的基于用户评分数据的协同过滤算法,并通过实验证明该算法不仅提高了推荐的效率,还对推荐精度有一定的提高; (4)分析了高维数据聚类的算法,提出了基于对象相似性的高维数据聚类框架; (5)对高维对异常检测算法的影响进行了分析,给出了投影异常检测的概念。提出了一种动态环境下局部异常的增量挖掘算法IncLOF,并通过实验和LOF算 摘 要 法进行了比较,结果表明在动态高维的环境下,当高维索引结构失效的情况下。 能大大提高局部异常的挖掘效率。
【学位授予单位】:复旦大学
【学位级别】:博士
【学位授予年份】:2003
【分类号】:TP311.13

【引证文献】
中国期刊全文数据库 前6条
1 相丽;潘峰;苏光伟;申军伟;;特征维数对隐写检测的影响分析[J];计算机工程;2010年21期
2 姚强;张研;张士靖;;双向聚类在文献计量学中的应用初探——以医院绩效评价为例[J];情报杂志;2012年03期
3 孙浩军;杜育林;姜大志;;基于信息熵的高维分类型数据子空间聚类算法[J];山东大学学报(工学版);2011年05期
4 邵昌昇;楼巍;严利民;;高维数据中的相似性度量算法的改进[J];计算机技术与发展;2011年02期
5 刘爱琴;葛凌云;杨海峰;张继福;;利用子空间划分的局部离群数据挖掘算法[J];小型微型计算机系统;2011年08期
6 陈斯斯;赵颖颖;崔雷;;基于营养疗法的双向聚类应用[J];医学信息学杂志;2013年02期
中国博士学位论文全文数据库 前3条
1 曲吉林;时间序列挖掘中索引与查询技术的研究[D];天津大学;2006年
2 汤俊;基于可疑金融交易识别的离群模式挖掘研究[D];武汉理工大学;2007年
3 宗瑜;聚类质量改进方法的研究[D];大连理工大学;2010年
中国硕士学位论文全文数据库 前10条
1 关庆;增强的软子空间聚类技术的研究[D];江南大学;2011年
2 苏永昌;基于粒度原理的聚类分析及规则挖掘技术研究[D];武汉理工大学;2011年
3 王磊;基于属性相关分析的局部离群数据挖掘算法研究及其应用[D];太原科技大学;2011年
4 杜育林;基于信息熵的高维分类型数据子空间聚类算法研究[D];汕头大学;2011年
5 王志飞;基于遗传算法进行高维数据聚类的新算法[D];汕头大学;2011年
6 陈铭;高维聚类算法研究[D];南京师范大学;2011年
7 张建军;L1-norm最大化及其在降维和分类中的应用[D];江南大学;2012年
8 王爽;基于高光谱散射图像的苹果内部品质预测建模[D];江南大学;2012年
9 周霆;在聚类中关于噪音与高维问题的研究[D];江南大学;2006年
10 禹亮;基于内容的图像索引和浏览算法研究[D];湖南大学;2007年
【参考文献】
中国期刊全文数据库 前2条
1 杨风召,朱扬勇;一种有效的量化交易数据相似性搜索方法[J];计算机研究与发展;2004年02期
2 杨风召,朱扬勇,施伯乐;IncLOF:动态环境下局部异常的增量挖掘算法[J];计算机研究与发展;2004年03期
【共引文献】
中国期刊全文数据库 前10条
1 王家耀;谢明霞;郭建忠;陈科;;基于相似性保持和特征变换的高维数据聚类改进算法[J];测绘学报;2011年03期
2 郑冠贞;徐辉增;;最小差异度聚类在异常入侵检测中的应用[J];电脑知识与技术;2008年27期
3 王津;饶云波;;基于SVM汽车牌照识别技术研究[J];福建电脑;2008年09期
4 蒋盛益,李庆华,王卉,孟中楼;一种增强的局部异常挖掘方法[J];计算机研究与发展;2005年02期
5 张净;孙志挥;杨明;倪巍伟;杨宜东;;基于网格和密度的海量数据增量式离群点挖掘算法[J];计算机研究与发展;2011年05期
6 杨风召;;一种基于特征表的协同过滤算法[J];计算机工程与应用;2007年06期
7 李健;阎保平;李俊;;基于记忆效应的局部异常检测算法[J];计算机工程;2008年12期
8 张忠平;梁永欣;;基于反k近邻的流数据离群点挖掘算法[J];计算机工程;2009年12期
9 李健;阎保平;李俊;;MELOF算法的理论分析与拓展[J];计算机工程;2009年19期
10 谢明霞;郭建忠;张海波;陈科;;高维数据相似性度量方法研究[J];计算机工程与科学;2010年05期
中国重要会议论文全文数据库 前1条
1 张应辉;饶云波;;最小差异度聚类在异常入侵检测中的应用[A];第二十一次全国计算机安全学术交流会论文集[C];2006年
中国博士学位论文全文数据库 前8条
1 苏晓珂;基于聚类的异常挖掘算法研究[D];东华大学;2010年
2 黎刚果;基因模块识别与分析相关问题研究[D];国防科学技术大学;2010年
3 孔志周;多分类器系统中信息融合方法研究[D];中南大学;2011年
4 杨鹏;离群检测及其优化算法研究[D];重庆大学;2010年
5 金义富;高维稀疏离群数据集延伸知识发现研究[D];重庆大学;2007年
6 朱红求;锌冶炼除钴过程建模与智能优化方法研究及应用[D];中南大学;2010年
7 林海;离群检测及离群释义空间查找算法研究[D];重庆大学;2012年
8 雷大江;离群检测与离群释义算法研究[D];重庆大学;2012年
中国硕士学位论文全文数据库 前10条
1 项响琴;聚类算法及其在信用卡恶意透支预测中的应用研究[D];安徽大学;2010年
2 姚领彦;基于聚类的图像分类和分割算法[D];天津大学;2012年
3 江楠;一种多数据流聚类异常检测算法[D];哈尔滨工程大学;2011年
4 潘国涛;数据流聚类算法研究[D];浙江工业大学;2011年
5 谢明霞;高维数据聚类若干关键问题研究[D];解放军信息工程大学;2011年
6 王宏;基于聚类分析的入侵检测方法研究[D];四川大学;2006年
7 葛凌云;基于子空间的离群数据挖掘算法研究及应用[D];太原科技大学;2008年
8 李宁;基于密度的孤立点检测技术研究[D];华中科技大学;2007年
9 张晓;教师评价中基于聚类算法的异常点分析的研究[D];东北师范大学;2009年
10 潘宇;基于DM技术的线损自动生成系统的应用研究[D];大连交通大学;2008年
【同被引文献】
中国期刊全文数据库 前10条
1 喻晓强;刘木华;郭恩有;杨勇;;基于荧光高光谱图像的柑桔糖度无损检测[J];安徽农业科学;2007年36期
2 吴沁奕,陈英,黄湘武;专家系统中基于模糊对象匹配的研究[J];北京理工大学学报;2002年04期
3 倪国强;沈渊婷;徐大琦;;一种基于小波PCA的高光谱图像特征提取新方法[J];北京理工大学学报;2007年07期
4 王岚,张鹏祥;基于Web的数据挖掘研究[J];长春师范学院学报;2005年07期
5 毕春霞;李新锋;刘传勇;;《多媒体CAI课件设计与制作》网络课程设计[J];长江大学学报(自然科学版)理工卷;2008年03期
6 郝先臣,张德干,高光来,赵海;数据挖掘工具和应用中的问题[J];东北大学学报;2001年02期
7 鲁云敏;;浅谈医院绩效管理存在的问题与对策[J];当代医学;2010年13期
8 秦鸿;基于Web的数据挖掘[J];电子科技大学学报;2002年S1期
9 杨思春;;一种改进的句子相似度计算模型[J];电子科技大学学报;2006年06期
10 史彦军,滕弘飞,金博;抄袭论文识别研究与进展[J];大连理工大学学报;2005年01期
中国重要会议论文全文数据库 前1条
1 刘昌平;;汉字识别技术现状与展望[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
中国博士学位论文全文数据库 前10条
1 常甜甜;支持向量机学习算法若干问题的研究[D];西安电子科技大学;2010年
2 冯红伟;数据挖掘技术的研究及应用[D];西北工业大学;2002年
3 毛国君;数据挖掘技术与关联规则挖掘算法研究[D];北京工业大学;2003年
4 周海燕;空间数据挖掘的研究[D];中国人民解放军信息工程大学;2003年
5 刘勇国;基于数据挖掘的网络入侵检测研究[D];重庆大学;2003年
6 刘君强;海量数据挖掘技术研究[D];浙江大学;2003年
7 曾海泉;时间序列挖掘与相似性查找技术研究[D];复旦大学;2003年
8 王达;时间序列数据挖掘研究与应用[D];浙江大学;2004年
9 马赓宇;基于HMM的时间序列聚类与识别[D];清华大学;2004年
10 兰秋军;金融时间序列隐含模式挖掘方法及其应用研究[D];湖南大学;2005年
中国硕士学位论文全文数据库 前10条
1 安文娟;Fisher和支持向量综合分类器[D];辽宁师范大学;2010年
2 吴晓婷;基于流形学习的数据降维算法的研究[D];辽宁师范大学;2010年
3 余养强;半监督学习若干问题的研究[D];福建师范大学;2010年
4 蔡伟贤;关联分析在入侵检测中的研究与应用[D];广东工业大学;2011年
5 陈飞宏;基于向量空间模型的中文文本相似度算法研究[D];电子科技大学;2011年
6 刘伟涛;半监督学习方法及应用研究[D];山东大学;2011年
7 邱学芹;模糊聚类算法及其聚类有效性的研究[D];青岛理工大学;2010年
8 刘恒;程序中重复代码的自动检测[D];大连理工大学;2003年
9 张焱;知识发现在金融反洗钱领域中的应用研究[D];合肥工业大学;2004年
10 栾丽华;聚类算法研究[D];南京师范大学;2004年
【二级引证文献】
中国期刊全文数据库 前10条
1 郭小芳;李锋;宋晓宁;;一种基于PCA的时间序列异常检测方法[J];江西师范大学学报(自然科学版);2012年03期
2 裴丽鹊;;一种基于分段线性的FKD时间序列模式表示[J];赤峰学院学报(自然科学版);2008年07期
3 裴丽鹊;;一种基于滑动窗口的时间序列异常检测算法[J];巢湖学院学报;2011年03期
4 张红军;;一种基于相似度聚类的胃癌诊断挖掘算法研究[J];电脑开发与应用;2010年09期
5 吴骞;吴绍春;;基于离群分析的水位异常识别研究[J];硅谷;2010年24期
6 郝媛;高学东;孟海东;;高维数据对象聚类算法效果分析[J];中国管理信息化;2012年08期
7 吴朝平;;第三方在线支付业务的洗钱风险及反洗钱监管研究[J];南方金融;2012年10期
8 李郁林;;高维数据挖掘中的聚类算法研究[J];电脑与电信;2012年11期
9 杨晟;李学军;刘涛;王珏;;高分辨率遥感影像匹配中的相似性度量综述[J];测绘与空间地理信息;2013年05期
10 秦文;;基于Voronoi图的时间序列线性模式查询算法[J];计算机工程与应用;2008年31期
中国重要会议论文全文数据库 前1条
1 邱均平;王菲菲;;时间序列相似性查询与索引方法研究[A];2009年中国索引学会年会暨学术研讨会论文集[C];2009年
中国博士学位论文全文数据库 前8条
1 叶红云;面向金融营销问题的个性化推荐方法研究[D];合肥工业大学;2011年
2 杨鹏;离群检测及其优化算法研究[D];重庆大学;2010年
3 张可;矩阵型灰色关联分析建模技术研究[D];南京航空航天大学;2010年
4 王甜甜;结构语义相似的程序识别方法研究[D];哈尔滨工业大学;2009年
5 李星毅;基于相似性的交通流分析方法[D];北京交通大学;2010年
6 林海;离群检测及离群释义空间查找算法研究[D];重庆大学;2012年
7 朱林;基于特征加权与特征选择的数据挖掘算法研究[D];上海交通大学;2013年
8 申彦;大规模数据集高效数据挖掘算法研究[D];江苏大学;2013年
中国硕士学位论文全文数据库 前10条
1 王舰艺;编程题自动评判中相关技术的研究与实现[D];哈尔滨工程大学;2010年
2 刘军伟;基于正交变换的时间序列索引[D];大连理工大学;2010年
3 严兆斌;序列模式挖掘在公路隧道交通中的应用研究[D];西安电子科技大学;2009年
4 郭邦梅;快速制图中载负量调整的选取模型研究[D];山东农业大学;2011年
5 邱伟林;面向领域的垂直搜索引擎的研究与实现[D];大连海事大学;2011年
6 魏龙;GML时空序列模式挖掘研究[D];江西理工大学;2011年
7 王志飞;基于遗传算法进行高维数据聚类的新算法[D];汕头大学;2011年
8 付金光;电力系统不良数据辨识的实用软件开发[D];郑州大学;2011年
9 周庆兰;多元时间序列异常检测的研究[D];西南交通大学;2011年
10 荣梅;基于地磁的智能交通检测技术[D];湘潭大学;2011年
【相似文献】
中国期刊全文数据库 前10条
1 刘文远;张亮;孙德杰;陈子军;;改进的SOD孤立点检测算法[J];计算机工程;2011年09期
2 吴晓燕;;基于遗传模拟退火算法的高维离群点挖掘[J];微计算机信息;2010年21期
3 柳彦平;王文杰;谈恒贵;;数据挖掘空间聚类[J];计算机工程与应用;2005年35期
4 邵昌昇;楼巍;严利民;;高维数据中的相似性度量算法的改进[J];计算机技术与发展;2011年02期
5 李邦云,程莉;数据挖掘在电力负荷相似性研究中的应用初探[J];湖南电力;2003年05期
6 杨敏,王志坚,尹燕敏;时间序列相似性搜索算法研究[J];山东师大学报(自然科学版);2001年04期
7 高学东,赵阳;时间序列分析斜率反正切模式表示法的实现[J];科技和产业;2005年11期
8 谭小野;数据挖掘在电网安全中的应用[J];东北电力技术;2005年08期
9 贾澎涛;何华灿;刘丽;孙涛;;时间序列数据挖掘综述[J];计算机应用研究;2007年11期
10 徐翔;刘建伟;罗雄麟;;离群点挖掘研究[J];计算机应用研究;2009年01期
中国重要会议论文全文数据库 前10条
1 郭学军;陈晓云;;粗集方法在数据挖掘中的应用[A];第十六届全国数据库学术会议论文集[C];1999年
2 徐慧;;基于Web的文献数据挖掘[A];第十七届全国数据库学术会议论文集(技术报告篇)[C];2000年
3 孙迎;;医院信息的数据挖掘与方法研究[A];中华医学会第十次全国医学信息学术会议论文汇编[C];2004年
4 薛晓东;李海玲;;数据挖掘的客户关系管理应用[A];科技、工程与经济社会协调发展——河南省第四届青年学术年会论文集(下册)[C];2004年
5 郭建文;黄燕;印鉴;杨小波;梁兆辉;;建立中风病“阴阳类证”辨证规范的数据挖掘研究[A];中华医学会第十三次全国神经病学学术会议论文汇编[C];2010年
6 薛鲁华;张楠;;聚类分析在Web数据挖掘中的应用[A];北京市第十三次统计科学讨论会论文选编[C];2006年
7 朱扬勇;黄超;;基于多维模型的交互式数据挖掘框架[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
8 陈涛;胡学钢;陈秀美;;基于数据挖掘的教学质量评价体系分析[A];全国第21届计算机技术与应用学术会议(CACIS·2010)暨全国第2届安全关键技术与应用学术会议论文集[C];2010年
9 王星;谢邦昌;戴稳胜;;数据挖掘在保险业中的应用[A];北京市第十二次统计科学讨论会论文选编[C];2003年
10 郭建文;黄燕;印鉴;杨小波;梁兆辉;;建立中风病阴阳类证辨证规范的数据挖掘研究[A];2010中国医师协会中西医结合医师大会摘要集[C];2010年
中国重要报纸全文数据库 前10条
1 李开宇 黄建军 田长春;把“数据挖掘”作用发挥出来[N];中国国防报;2009年
2 华莱士;“数据挖掘”让银行赢利更多[N];国际金融报;2003年
3 记者 晏燕;数据挖掘让决策者告别“拍脑袋”[N];科技日报;2006年
4 □中国电信股份有限公司北京研究院 张舒博 □北京邮电大学计算机科学与技术学院 牛琨;走出数据挖掘的误区[N];人民邮电;2006年
5 张立明;数据挖掘之道[N];网络世界;2003年
6 中圣信息技术有限公司 李辉;数据挖掘在CRM中的作用[N];中国计算机报;2001年
7 田红生;数据挖掘在CRM中的应用[N];中国经济时报;2002年
8 王广宇;数据挖掘 加速银行CRM一体化[N];中国计算机报;2004年
9 周蓉蓉;数据挖掘需要点想像力[N];计算机世界;2004年
10 张舒博;数据挖掘 提升品牌的好帮手[N];首都建设报;2009年
中国博士学位论文全文数据库 前10条
1 杨风召;高维数据挖掘中若干关键问题的研究[D];复旦大学;2003年
2 孙丽;工艺知识管理及其若干关键技术研究[D];大连交通大学;2005年
3 胡志坤;复杂有色金属熔炼过程操作模式智能优化方法研究[D];中南大学;2005年
4 李智勇;电力系统运行信息的数据挖掘研究[D];浙江大学;2009年
5 刘革平;基于数据挖掘的远程学习评价研究[D];西南师范大学;2005年
6 刘寨华;基于临床数据分析的病毒性心肌炎证候演变规律研究[D];黑龙江中医药大学;2006年
7 王川;基因芯片数据管理及数据挖掘[D];中国科学院研究生院(上海生命科学研究院);2004年
8 王涛;挖掘序列模式和结构化模式的精简集[D];华中科技大学;2006年
9 郭斯羽;动态数据中的数据挖掘研究[D];浙江大学;2002年
10 李旭升;贝叶斯网络分类模型研究及其在信用评估中的应用[D];西南交通大学;2007年
中国硕士学位论文全文数据库 前10条
1 闫妍;子空间聚类改进方法研究[D];大连理工大学;2008年
2 徐辰冠;基于数据挖掘聚类技术的我国高校分类研究[D];华中科技大学;2011年
3 廖赛恩;养生方数据挖掘分析系统的研制[D];湖南中医药大学;2010年
4 李坤然;数据挖掘在股市趋势预测的应用研究[D];中南林业科技大学;2008年
5 郑宏;数据挖掘可视化技术的研究与实现[D];西安电子科技大学;2010年
6 杜金刚;数据挖掘在电信客户关系管理及数据业务营销中的应用[D];北京邮电大学;2010年
7 徐路;基于决策树的数据挖掘算法的研究及其在实际中的应用[D];电子科技大学;2009年
8 梁小鸥;数据挖掘在高职教学管理中的应用[D];华南理工大学;2011年
9 王浩;数据挖掘在上海市职业能力考试院招录考试优化管理项目中的运用研究[D];华东理工大学;2012年
10 黎卫英;数据挖掘在中职幼教课程改革中的应用[D];福建师范大学;2009年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026