收藏本站
《中国科学技术大学》 2007年
收藏 | 手机打开
二维码
手机客户端打开本文

关联规则挖掘及其在基因表达数据中的应用

缪裕青  
【摘要】: 关联规则挖掘是数据挖掘领域中一个重要的研究问题,从1993年Agrawal等人提出至今,一直是学术界和产业界广泛关注的热点。随着生物数据的快速增长,生物信息学已成为关联规则挖掘最富有机遇与挑战性的应用领域之一。 本文围绕关联规则挖掘问题,对关联规则挖掘算法及其并行化、以及关联规则挖掘在基因表达数据中的应用展开了较全面和深入的研究,其主要内容和贡献包括: (1)基于FP-tree的最大频繁模式挖掘算法研究 由于最大频繁模式搜索空间是项目数的指数级,所以修剪策略在最大频繁模式挖掘算法中一直是一个非常重要的技术。本文在分析研究了前人提出的最大频繁模式挖掘算法FPmax~*基础上,使用本文提出的完全子集修剪和起始项目集修剪策略,提出了进一步优化的改进算法FPmax~(**)。实例分析表明,这两项修剪技术可进一步减少计算开销,提高原FPmax~*算法的性能。 (2)基于FP-tree的频繁闭合模式挖掘并行算法研究 由于在频繁闭合模式挖掘过程中,除了判断模式的频繁性外,还必须判断模式的闭合性,所以,频繁闭合模式挖掘的并行化相比频繁模式挖掘的并行化难度更大。本文在研究了共享存储结构和分布式存储结构下的频繁模式挖掘与最大频繁模式挖掘并行算法的基础上,明确提出了共享存储结构下的频繁闭合模式挖掘并行算法SL-FP和SP-FP算法,以及分布式存储结构下的频繁闭合模式挖掘并行算法DL-FP和DP-FP算法。理论分析表明,SL-FP算法与DP-FP算法具有处理器之间同步较少,并行度更高,I/O与通信开销较小以及良好的负载平衡。 (3)基于超链接结构的自底向上频繁闭合模式挖掘算法研究 针对已有面向基因表达数据集的频繁闭合模式挖掘算法多次扫描数据集转置表带来巨大开销的缺陷,本文提出了基于超链接结构的频繁闭合模式挖掘算法HTclose。理论分析表明,该算法的时间和空间性能比反复扫描转置表的算法有较大的提高;在真实数据集上的实验结果表明,该算法普遍快于反复扫描转置表的算法,最高达1个数量级以上。 (4)基于形式概念分析的自顶向下频繁闭合模式挖掘算法研究 针对已有面向基因表达数据集的自底向上频繁闭合模式算法无法充分修剪空间可能遭遇计算开销过大的问题,本文提出了通过转换搜索空间自顶向下和直接自顶向下搜索频繁闭合模式两种策略,并设计了相应的TPclose和TP+close算法。理论上证明了这两个算法的正确性;在真实数据集上的实验结果表明,一般情况下,它们具有良好的性能和较好的可扩展性,比已有的自底向上频繁闭合模式挖掘算法最高快2个数量级以上。
【学位授予单位】:中国科学技术大学
【学位级别】:博士
【学位授予年份】:2007
【分类号】:TP311.13

手机知网App
【引证文献】
中国硕士学位论文全文数据库 前3条
1 史建军;基因表达数据的频繁闭合项集挖掘算法研究[D];桂林电子科技大学;2010年
2 谷耀军;基因表达数据挖掘方法研究[D];西北农林科技大学;2008年
3 吴敏;基因表达数据的分析与处理[D];西安理工大学;2009年
【参考文献】
中国期刊全文数据库 前10条
1 王华;胡学钢;;基于关联规则的数据挖掘在临床上的应用[J];安徽大学学报(自然科学版);2006年02期
2 高洪歌;赵会群;;关联规则挖掘在乒乓球比赛技战术分析中的应用[J];北方工业大学学报;2006年01期
3 梁志瑞;陈鹏;苏海锋;;关联规则挖掘在电厂设备故障监测中应用[J];电力自动化设备;2006年06期
4 缪裕青;基于频繁模式树的最大频繁模式挖掘算法[J];桂林电子工业学院学报;2004年03期
5 邱洁;过仲阳;苏君毅;戴晓燕;林晖;;关联规则及其在灾害天气预测中的应用[J];华东师范大学学报(自然科学版);2005年Z1期
6 王艳梅;胡小平;李舟军;;利用关联规则检测液体火箭发动机启动关机过程的故障[J];火箭推进;2006年01期
7 李霞,饶绍奇,张田文,郭政,张庆普,K.L.Moser,E.J.Topol;应用DNA芯片数据挖掘复杂疾病相关基因的集成决策方法[J];中国科学(C辑:生命科学);2004年02期
8 范明,李川;在FP-树中挖掘频繁模式而不生成条件FP-树[J];计算机研究与发展;2003年08期
9 杨洪涛;李桂君;;关联规则在房地产广告媒体选择中的应用[J];计算机工程与应用;2006年05期
10 缪裕青;;频繁闭合项目集的并行挖掘算法研究[J];计算机科学;2004年05期
【共引文献】
中国期刊全文数据库 前10条
1 赵群礼;;基于FP-Tree的最大频繁项目集综合更新算法[J];安徽教育学院学报;2006年03期
2 赵群礼;卢朴;;基于T-tree的最大频繁项目集挖掘算法[J];合肥师范学院学报;2009年06期
3 张本成;李柳柏;;基于SIP视频会议的远程医疗会诊系统的设计与实现[J];安徽大学学报(自然科学版);2007年02期
4 叶明全;;数据挖掘在医疗数据中的应用[J];安徽工程科技学院学报(自然科学版);2007年03期
5 李瑞娟;杨文明;;中医证候研究方法学探讨[J];中医药临床杂志;2010年02期
6 顾以韧;李学伟;朱砺;梁艳;;表达谱基因芯片技术及其在动物基因组研究中的应用[J];安徽农业科学;2006年10期
7 王华;江启成;胡学钢;;数据挖掘在医学上的应用[J];安徽医药;2008年08期
8 刘全金;李颖新;阮晓钢;;基于SVM的灵敏度分析方法选取肿瘤特征基因[J];北京工业大学学报;2007年09期
9 秦如新;田英杰;陈静;邓乃扬;张海斌;;双聚类的关联规则挖掘方法[J];北京工业大学学报;2009年04期
10 安颖;;基于Apriori算法的兴趣集加权关联规则挖掘[J];北京联合大学学报(自然科学版);2008年04期
中国重要会议论文全文数据库 前10条
1 张帆;夏红霞;袁景凌;沈琦;;入侵检测系统中关联规则的挖掘[A];12省区市机械工程学会2006年学术年会湖北省论文集[C];2006年
2 刘培强;谢青松;朱大铭;;用于基因表达谱数据聚类分析的贪心图划分算法研究[A];2006年全国理论计算机科学学术年会论文集[C];2006年
3 李忠哗;何丕廉;;一种分布环境中最大频繁项目集挖掘算法[A];2006年全国开放式分布与并行计算学术会议论文集(一)[C];2006年
4 王剑;徐英杰;陆黎明;;关联规则的评价体系[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年
5 王一飞;章勇;;基于条件模式的最大频繁项目集挖掘算法[A];全国自动化新技术学术交流会会议论文集(一)[C];2005年
6 朱玉全;孙志挥;宋余庆;陈耿;;一种基于FP-tree的最大频繁项目集挖掘算法[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
7 杨君锐;赵群礼;杜建;;关于最大频繁项集的增量式挖掘方法研究[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
8 钱进;潘瑜;郭庆军;陈卫平;;基于频繁模式链表的最大频繁项目集快速挖掘算法[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
9 李勃;姚青;;一种基于概念格挖掘规则产生集的算法[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
10 王闻;谢伙生;;基于FP树和对称矩阵的最大频繁模式挖掘算法[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
中国博士学位论文全文数据库 前10条
1 吴学雁;金融时间序列模式挖掘方法的研究[D];华南理工大学;2010年
2 徐兆华;基因芯片数据统合分析方法的若干拓展[D];浙江大学;2010年
3 张小平;主题模型及其在中医临床诊疗中的应用研究[D];北京交通大学;2011年
4 郜峦;基于文献分析的“肺与大肠相表里”证治规律及其关系研究[D];北京中医药大学;2011年
5 陈擎文;《伤寒论》的“方—证要素”对应体系及其神经网络数学模型的构建[D];北京中医药大学;2011年
6 李丽娟;构建重症肌无力五脏相关理论数据挖掘模型的研究[D];广州中医药大学;2011年
7 于宏波;阳痿肾阳虚证症状规律及其转录组特征研究[D];成都中医药大学;2011年
8 马春山;移动增值业务的个性化推荐研究[D];北京邮电大学;2011年
9 梁成军;网球技战术决策支持系统研究与应用[D];上海体育学院;2011年
10 朱小栋;基于扩展预测模型标记语言的数据流挖掘系统建模研究[D];南京航空航天大学;2009年
中国硕士学位论文全文数据库 前10条
1 梅俊;数据挖掘中关联规则算法的研究及应用[D];安徽工程大学;2010年
2 石国强;基于规则的组合分类器的研究[D];郑州大学;2010年
3 任秋红;油菜菌核病抗性相关基因的功能研究[D];郑州大学;2010年
4 郭慧;数据挖掘技术对放射工作人员知觉压力因素分析[D];郑州大学;2010年
5 盖小刚;沂蒙山区土地覆被与土壤侵蚀动态特征[D];山东农业大学;2010年
6 韩君;近期数据流频繁项集挖掘[D];大连理工大学;2010年
7 孙玉侠;数据挖掘中的谱聚类算法研究[D];中国海洋大学;2010年
8 朱彦霞;多关系关联规则及其在HRM中的应用[D];河南工业大学;2010年
9 高峰;化工企业人力资源管理系统的设计与实现[D];华东师范大学;2010年
10 张磊;基于高级SQL查询的分布式多维关联规则挖掘算法的研究[D];天津理工大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 胡孔法;唐小丽;达庆利;陈崚;;一种高效挖掘高维数据的频繁闭合模式算法[J];东南大学学报(自然科学版);2007年04期
2 王晨光;郭政;李霞;王健;;基于功能模块组织癌细胞系基因表达谱的关联规则[J];第三军医大学学报;2006年13期
3 陈宇;;聚类算法研究[J];福建电脑;2007年07期
4 刘月明,张蔚,刘海荣;基因表达数据分析[J];国外医学.生物医学工程分册;2001年06期
5 王富刚,陈先农;基因芯片数据的聚类分析[J];国外医学(生物医学工程分册);2004年02期
6 朱国强,刘士荣,俞金寿;基于支持向量机的数据建模在软测量建模中的应用[J];华东理工大学学报;2002年S1期
7 吕常魁,姜澄宇,王宁生;一种支持向量聚类的快速算法[J];华南理工大学学报(自然科学版);2005年01期
8 李颖新,阮晓钢;基于支持向量机的肿瘤分类特征基因选取[J];计算机研究与发展;2005年10期
9 宋威;杨炳儒;徐章艳;高静;;一种改进的频繁闭项集挖掘算法[J];计算机研究与发展;2008年02期
10 殷爱茹,李栋,黄亚楼;基因表达数据聚类有效性分析的EFOM法[J];计算机工程与应用;2005年17期
中国博士学位论文全文数据库 前5条
1 秦昆;基于形式概念分析的图像数据挖掘研究[D];武汉大学;2004年
2 王明怡;微阵列数据挖掘技术的研究[D];浙江大学;2004年
3 齐红;基于形式概念分析的知识发现方法研究[D];吉林大学;2005年
4 邓晔;微阵列技术中生物信息的利用和挖掘[D];浙江大学;2007年
5 徐玉生;频繁模式挖掘算法与剪枝策略研究[D];兰州大学;2008年
中国硕士学位论文全文数据库 前10条
1 张利军;数据挖掘系统及其应用研究——用关联特征提高朴素贝叶斯文本分类器的性能[D];西北工业大学;2003年
2 郑建华;基于支持向量机的数据挖掘[D];天津大学;2004年
3 詹超;支持向量机在基因表达数据分类中的研究[D];武汉理工大学;2006年
4 熊娓;基于SVM和GA混合算法的基因芯片特征基因子集选取研究[D];吉林大学;2006年
5 赵晶晶;改进的遗传算法在样本选择中的应用研究[D];东北师范大学;2006年
6 袁小芳;基于混沌优化与支持向量机的建模与控制研究[D];湖南大学;2006年
7 翁建洪;支持向量机在生物信息学中的应用[D];东南大学;2006年
8 石佑红;基于支持向量机的文本分类的研究[D];北京交通大学;2007年
9 李自国;基于支持向量数据描述的故障诊断方法研究[D];郑州大学;2007年
10 金波;微阵列数据集的频繁闭合模式挖掘算法研究[D];桂林电子科技大学;2007年
【二级引证文献】
中国硕士学位论文全文数据库 前1条
1 苗成凯;基于HMM的基因表达数据聚类分析算法研究[D];吉林大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 石阳,张红云,马垣;数据挖掘中关联规则算法及其应用[J];鞍山师范学院学报;2002年01期
2 韩建保;罗小江;;基于数据挖掘的坦克传动装置故障征兆识别展望[J];车辆与动力技术;2005年04期
3 黄进,尹治本;关联规则挖掘的Apriori算法的改进[J];电子科技大学学报;2003年01期
4 过仲阳,林珲,戴晓燕,江吉喜,吴健平;影响中尺度对流系统移动的知识发现[J];地理科学;2003年05期
5 白秀玲,崔林,王向阳,彭宁嵩;关系数据库中关联规则的挖掘[J];电脑开发与应用;2002年10期
6 屈景辉,廖琪梅,许卫中,陈汉勇;医学信息数据库的建立与数据挖掘[J];第四军医大学学报;2001年01期
7 师智斌,陈立潮,靳雁霞;基于神经网络的股票交易数据的预测研究[J];华北工学院学报;2003年06期
8 李兴国,于海峰,金芳芳;基于数据挖掘的银行业客户关系管理体系结构[J];合肥工业大学学报(自然科学版);2004年07期
9 张建明,荣冈;基于关联规则的故障诊断方法及研究[J];化工自动化及仪表;2003年05期
10 李霞,饶绍奇,张田文,郭政,张庆普,K.L.Moser,E.J.Topol;应用DNA芯片数据挖掘复杂疾病相关基因的集成决策方法[J];中国科学(C辑:生命科学);2004年02期
中国硕士学位论文全文数据库 前2条
1 曾海颖;客户关系管理中的数据挖掘[D];南京航空航天大学;2003年
2 边海燕;基于数据挖掘技术的动态检测与故障预测分析[D];北京化工大学;2004年
【相似文献】
中国期刊全文数据库 前10条
1 马世欢;白万民;张雪霞;;改进的关联规则并行算法[J];西安工业大学学报;2006年01期
2 王艳;骆嘉伟;杨涛;吴君浩;;基于分段与运算的基因表达数据频繁项集挖掘[J];计算机工程与科学;2006年11期
3 刘维;陈崚;;基因表达数据的并行双向聚类算法[J];小型微型计算机系统;2009年04期
4 郝志斌;;并行FP-Growth算法相关技术研究[J];电脑知识与技术;2011年10期
5 田卫东;王丹阳;胡学钢;;一种基于SMP系统的并行关联规则挖掘算法[J];广西师范大学学报(自然科学版);2008年03期
6 吴磊,陈鹏;基于并行计算的关联规则挖掘优化算法[J];计算机应用;2005年09期
7 王玉荣;钱雪忠;;基于客户机/服务器模式并行关联规则的研究与实现[J];计算机工程与设计;2010年22期
8 易月娥;林亚平;王永红;;基于FP-tree挖掘密集型数据最大频繁模式算法[J];湖南城市学院学报(自然科学版);2007年01期
9 郑飞;;关联规则挖掘的DCOM实现[J];信息技术;2008年03期
10 吕志芳;王怀阳;贾吉庆;;基于MFP-Miner算法的图书借阅数据关联规则挖掘[J];计算机系统应用;2008年02期
中国重要会议论文全文数据库 前10条
1 王丹阳;田卫东;胡学钢;;基于SMP系统的并行Apriori算法研究[A];全国第19届计算机技术与应用(CACIS)学术会议论文集(下册)[C];2008年
2 谷姗姗;秦首科;胡大斌;周傲英;;面向关联规则挖掘的敏感规则隐藏技术[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
3 陈晓云;李泽霞;刘幸辉;彭文静;;关联规则挖掘过程中的模糊化方法研究[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
4 张宇鹏;王丽珍;周丽华;;基于气象数据的关联规则挖掘[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
5 王盛;董黎刚;李群;;一种基于逆序编码的关联规则挖掘研究[A];浙江省电子学会2010学术年会论文集[C];2010年
6 方芳;李建中;潘海为;;脑部医学图像中的关联规则挖掘[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
7 张鹏;于波;童云海;唐世渭;;基于随机响应的隐私保护关联规则挖掘[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
8 张仲楠;孙志挥;;关系数据库中限制性关联规则挖掘的优化[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
9 李贝贝;乐嘉锦;;分布式环境下的隐私保护关联规则挖掘[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
10 杨晓雪;衡红军;;一种对XML数据进行关联规则挖掘的方法研究[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
中国重要报纸全文数据库 前10条
1 ;并行算法研究进展[N];中国计算机报;2004年
2 李讯 特约记者 刘程 本报记者 于莘明;银河有颗闪亮的星[N];科技日报;2005年
3 ;名师上讲台:每堂课都是精心编排的演出[N];科技日报;2006年
4 清华大学计算机系 薛巍;电网仿真考验高性能计算[N];计算机世界;2006年
5 陈文光 郑纬民;高性能计算的三大研究领域[N];计算机世界;2006年
6 曙光信息产业有限公司研发中心 温鑫;并行计算软件开发概述[N];中国计算机报;2007年
7 英特尔微处理器技术实验室主任工程师 Anwar Ghuloum;并行编程为什么这么难?[N];中国计算机报;2007年
8 本报记者 赵波 本报特约记者 刘程 本报通讯员 章立丁;一位巾帼学者的无悔征程[N];解放军报;2005年
9 新华社记者 奚启新 本报记者 廖文根;三次选择 无怨无悔[N];人民日报;2005年
10 孙;"生物信息处理专用计算机与算法研究" 通过验收[N];计算机世界;2005年
中国博士学位论文全文数据库 前10条
1 缪裕青;关联规则挖掘及其在基因表达数据中的应用[D];中国科学技术大学;2007年
2 陆楠;关联规则的挖掘及其算法的研究[D];吉林大学;2007年
3 张焕萍;面向基因表达数据的致病基因挖掘方法研究[D];南京航空航天大学;2009年
4 刘智;关联规则挖掘方法及其在冠心病中医诊疗中的应用研究[D];大连海事大学;2012年
5 何月顺;关联规则挖掘技术的研究及应用[D];南京航空航天大学;2010年
6 耿汝年;加权频繁模式挖掘算法研究[D];江南大学;2008年
7 马猛;面向生物数据的关联规则挖掘算法及其应用研究[D];中国科学技术大学;2008年
8 蔡瑞初;基因表达数据挖掘若干关键技术研究[D];华南理工大学;2010年
9 彭斌;基于关联规则的基因芯片数据挖掘与应用[D];第三军医大学;2008年
10 刘亚波;关联规则挖掘方法的研究及应用[D];吉林大学;2005年
中国硕士学位论文全文数据库 前10条
1 余春;频繁闭项集并行挖掘算法的研究与实现[D];重庆大学;2008年
2 金波;微阵列数据集的频繁闭合模式挖掘算法研究[D];桂林电子科技大学;2007年
3 皇甫罡;食管癌与贲门癌病理特征的关联分析[D];郑州大学;2005年
4 马康;关联规则并行算法在社保审计中的应用研究[D];哈尔滨工程大学;2008年
5 邓庆山;聚类分析及其在基因表达数据中的应用研究[D];华中科技大学;2004年
6 张铁军;关联规则挖掘的相关问题研究[D];西安科技大学;2009年
7 刘月明;基因表达聚类分析方法研究[D];第三军医大学;2001年
8 陈佳妮;基因表达数据分析中IGA-FCM聚类算法研究与实现[D];东北林业大学;2010年
9 周鹏;神经网络集成算法研究及在基因表达数据分析中的应用[D];华中科技大学;2004年
10 武坤;快速生成关联规则的算法研究[D];河南大学;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026