收藏本站
《第三军医大学》 2008年
收藏 | 手机打开
二维码
手机客户端打开本文

基于关联规则的基因芯片数据挖掘与应用

彭斌  
【摘要】: 人类基因组草图(Human Genome Draft,HGD)的绘制完成标志着现代生命科学研究从基因组时代进入了后基因组时代,研究的重心由结构基因组学转向功能基因组学,基因彼此之间的相互作用、相互影响越来越多地受到研究者的关注。基因芯片作为一种高通量的检测技术,可以同时检测成千上万条基因的表达水平,成为研究基因与基因之间相互作用关系的强大工具。随着基因芯片大量数据的产生,数据挖掘成为从基因芯片表达数据中解读基因相关信息的重要技术手段。 本研究针对目前关联规则挖掘技术用于基因芯片表达数据分析时存在的问题,从三个方面进行了比较全面和深入的研究:时序基因芯片表达数据的跨事务关联规则挖掘、传统关联规则中基因表达状态信息缺失问题及大量关联规则的聚类问题等。本文的主要内容及贡献包括: (1)时序基因芯片表达数据中的跨事务关联规则挖掘研究 为了解决传统关联规则忽视数据中的时间信息以及无法对基因的表达状态进行动态预测的问题,本研究提出将跨事务关联规则挖掘技术引入到时序基因芯片表达数据的分析之中,并对跨事务关联规则进行了详细介绍。结合生物学数据库,包括Gene Ontology基因注释数据库、iHOP数据库、DAVID生物信息学资源数据库等,对挖掘出来的跨事务关联规则进行分析,结果显示跨事务关联规则能够有效地挖掘时序基因芯片表达数据中的隐含信息,产生的关联规则符合生物学背景,合理地描述基因之间的动态表达行为。因此,跨事务关联规则为基因功能的预测提供了新的手段和方法。 (2)传统关联规则中基因表达状态信息缺失问题研究 通过对传统关联规则中基因表达状态信息缺失这一问题的深入分析,本研究设计了一种新型的关联规则类型——差异表达关联规则(Differential Expression Association Rules,DEAR),并给出了基本定义及相关概念。为了能够有效地挖掘差异表达关联规则,本文提出了一种算法——差异表达关联规则矩阵算法(Differential Expression Association RulesMatrix Algorithm,DEARM算法),并对进行了详细地阐述。实验结果表明,差异表达关联规则在发现基因表达模式及控制冗余规则产生方面要优于传统关联规则。差异表达关联规则作为一种新的关联规则类型,是对关联规则挖掘内容的丰富,将有助于研究人员从基因芯片表达数据中揭示基因之间隐含的表达关系。 (3)大量关联规则的聚类研究 关联规则挖掘通常会推导出大量的规则,这给后期的分析与利用带来了巨大的障碍。本研究针对这一现实问题,提出了采用聚类分析对关联规则进行后期处理。为了更有效地对关联规则进行聚类,本文提出了新的关联规则相似性度量方法——内容结构加权度量,从关联规则的结构及内容上全面反映关联规则的相似性,克服了已有度量方法的缺陷只注重内容方面的缺陷。本文将聚类结果与生物学数据库Gene Ontology相结合进行分析,从生物学的角度说明了同一个子类中的关联规则所涉及的基因有着相似或者相关的生物学基础,体现了聚类在关联规则后期分析处理中的价值。因此,聚类分析将为研究才从关联规则中发现感兴趣的模式提供重要的、可视化的技术手段。
【学位授予单位】:第三军医大学
【学位级别】:博士
【学位授予年份】:2008
【分类号】:TP311.13

手机知网App
【引证文献】
中国硕士学位论文全文数据库 前6条
1 李威;多参数扰动的隐私保护关联规则挖掘算法研究[D];哈尔滨工程大学;2010年
2 郑西西;基于关联规则的火电厂优化目标值确定的研究[D];华北电力大学;2011年
3 姜静逸;机场应急救援的规模决策与资源调配研究[D];南京航空航天大学;2010年
4 朱宝湘;基于关联规则的结构化浏览技术及其应用[D];浙江理工大学;2011年
5 王若明;数据挖掘技术在独立学院教学评估中的应用研究[D];华南理工大学;2011年
6 屈喜琴;基于关联分析以能力培养为导向的课程体系构建方法[D];南昌航空大学;2011年
【参考文献】
中国期刊全文数据库 前10条
1 刘独玉;杨晋浩;钟守铭;;关联规则挖掘研究综述[J];成都大学学报(自然科学版);2006年01期
2 姜园,张朝阳,仇佩亮,戚玉鹏;对聚类算法普遍存在问题的解决办法[J];电路与系统学报;2004年03期
3 阮备军,朱扬勇;基于商品分类信息的关联规则聚类[J];计算机研究与发展;2004年02期
4 娄兰芳,蒋志方,田世壮;影响关联规则挖掘的有趣性因素的研究[J];计算机工程与应用;2003年06期
5 秦亮曦,史忠植;多时间序列跨事务关联分析研究[J];计算机工程与应用;2005年27期
6 欧阳为民;蔡庆生;;数据库中的时态数据发掘研究[J];计算机科学;1998年04期
7 秦亮曦;刘新峰;史忠植;;基于片段模式的多时间序列关联分析[J];计算机科学;2006年01期
8 胡侃,夏绍玮;基于大型数据仓库的数据采掘:研究综述[J];软件学报;1998年01期
9 陈双平;郑浩然;刘海燕;王煦法;;蛋白质序列中的关联规则发现及其应用[J];生物物理学报;2006年03期
10 张娟;王慧锋;;股票时间序列模型的关联规则挖掘[J];天津理工大学学报;2006年02期
【共引文献】
中国期刊全文数据库 前10条
1 郭苗莉,朱江波,陈蓉芳,张天宝;应用基因表达谱芯片研究MNNG诱致小鼠胚胎畸形肢体基因表达的变化[J];癌变.畸变.突变;2005年02期
2 张世海,刘晓燕,欧进萍;高层结构智能选型知识发现及方法比较[J];四川建筑科学研究;2005年05期
3 王朝霞;生物信息学:一门前沿交叉学科[J];安徽教育学院学报;2002年06期
4 潘洁珠;半结构化数据及其数据模型[J];安徽教育学院学报;2003年06期
5 赵鹏,倪志伟,贾瑞玉;基于数据挖掘技术的范例库维护[J];安徽大学学报(自然科学版);2003年02期
6 梁佩佩,杨丽萍;基于模糊关系数据库的聚类算法研究[J];安徽职业技术学院学报;2004年01期
7 章曙光;耿焕同;;一种改进的基于聚类的范例添加删除维护模型[J];安徽建筑工业学院学报(自然科学版);2006年01期
8 李永森;潘若愚;李传军;;公共设施选址优化研究[J];安徽建筑工业学院学报(自然科学版);2009年06期
9 李芳芳;;数据仓库技术在远程教育中的应用[J];安徽科技;2007年01期
10 张树林;何德;朱高浦;刘杰;莫鹏巧;;生物信息学在农业上的应用[J];安徽农业科学;2007年22期
中国重要会议论文全文数据库 前10条
1 章曙光;;基于CBR的电力负荷预测系统的研究与实现[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 胡扬;桂卫华;;人工代谢技术在医药领域中的应用研究[A];第二十九届中国控制会议论文集[C];2010年
3 查星云;;一种钢铁企业金属损耗平衡分析方法[A];全国冶金自动化信息网2012年年会论文集[C];2012年
4 庄绪静;曹雅忠;李克斌;尹姣;;同源建模和分子对接方法的应用与发展[A];植保科技创新与病虫防控专业化——中国植物保护学会2011年学术年会论文集[C];2011年
5 栾德琴;常国斌;陈国宏;;隐性白鸡不同时期肌肉组织生长相关基因的表达谱分析[A];安全优质的家禽生产——第十五次全国家禽学术讨论会论文集[C];2011年
6 汤广富;马春实;刘欢;付强;;模糊聚类快速实用方法[A];第十四届全国信号处理学术年会(CCSP-2009)论文集[C];2009年
7 由立真;穆志纯;;基于GHSOM网络预测客户欺诈行为[A];2006北京地区高校研究生学术交流会——通信与信息技术会议论文集(上)[C];2006年
8 吴觅昊;戴昌裕;;基于数据仓库的军事无线电管理统计分析技术应用[A];中国电子学会第十六届信息论学术年会论文集[C];2009年
9 王建华;王菲;黄国建;;数据挖掘技术研究的现状及展望[A];中国运筹学会第六届学术交流会论文集(上卷)[C];2000年
10 韦艳艳;李陶深;;基于Stacking框架的学习机制研究[A];广西计算机学会2004年学术年会论文集[C];2004年
中国博士学位论文全文数据库 前10条
1 王杰;基于人工智能的乒乓球比赛技战术诊断与评估研究[D];上海体育学院;2010年
2 牟向伟;模糊语义个性化推荐系统在电子政务中的应用研究[D];大连海事大学;2010年
3 黄利兴;基于文本挖掘技术探索姚荷生咳嗽医案的证治规律[D];湖南中医药大学;2010年
4 贺厚光;双调控溶瘤腺病毒携带超抗原SEA基因治疗前列腺癌基础研究[D];苏州大学;2010年
5 全惠敏;电能质量相关信号的S变换检测算法及应用研究[D];湖南大学;2010年
6 郭新军;拟黑多刺蚁肌细胞增强因子2与肌钙蛋白Ⅰ亚基基因的克隆及其在发育中的表达研究[D];陕西师范大学;2010年
7 吴学雁;金融时间序列模式挖掘方法的研究[D];华南理工大学;2010年
8 徐兆华;基因芯片数据统合分析方法的若干拓展[D];浙江大学;2010年
9 戴小鹏;知识网格及其在农业生物灾害预警中关键技术研究[D];湖南农业大学;2010年
10 鄢煜尘;基于信息融合的中文笔迹鉴别研究[D];武汉大学;2009年
中国硕士学位论文全文数据库 前10条
1 李金华;基于SVM的多类文本分类研究[D];山东科技大学;2010年
2 吴香庭;基于遗传算法的K-means聚类方法的研究[D];山东科技大学;2010年
3 贾莉莉;跳扩散模型下几种奇异期权的保险精算定价研究[D];山东科技大学;2010年
4 蔡浩;基于Web使用挖掘的协同过滤推荐算法研究[D];浙江理工大学;2010年
5 郑碧;家蚕小热休克蛋白22.6的克隆表达与功能初步分析[D];浙江理工大学;2010年
6 庄文华;家蚕ras oncogene (Bras2)的表达、纯化以及特性分析[D];浙江理工大学;2010年
7 马良;家蚕BmIBP基因的原核表达及其亚细胞定位研究[D];浙江理工大学;2010年
8 李婷婷;家蚕BmNADHb5的表达分析及其亚细胞定位[D];浙江理工大学;2010年
9 刘靓珏;家蚕RPA43相关基因(BmRPA43 N)的克隆表达及定位分析[D];浙江理工大学;2010年
10 张杰;基于支持向量机和蛋白质全序列的蛋白质—蛋白质相互作用预测[D];郑州大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 李森;苏令波;宋守信;;人机系统中作业者心理负荷问题研究综述及展望[J];北京交通大学学报(社会科学版);2010年03期
2 孙铁民;于杰;尚程;田大新;张丽华;;基于无监督学习的数据清洗算法[J];吉林大学学报(信息科学版);2008年06期
3 李建强;牛成林;刘吉臻;;数据挖掘技术在火电厂优化运行中的应用[J];动力工程;2006年06期
4 罗永龙 ,黄刘生 ,荆巍巍 ,姚亦飞 ,陈国良;一个保护私有信息的布尔关联规则挖掘算法[J];电子学报;2005年05期
5 胡克;产品交互设计介绍[J];广东轻工职业技术学院学报;2004年03期
6 李建强;牛成林;谷俊杰;刘吉臻;;数据挖掘在火电厂运行参数优化目标值确定中的应用[J];华北电力大学学报(自然科学版);2008年04期
7 杜海涛;陈定方;张波;;一种基于关联规则的超市购物篮分析方法[J];湖北工业大学学报;2008年02期
8 戴奇燕;尤建洁;胡晔;邱晓君;刘兆军;王怀义;夏德深;;细节信息容量与MTF相关分析[J];航天返回与遥感;2005年04期
9 黄晓梅;岩磊;;市场导向:大学生就业能力培养模式构建[J];黑龙江教育(高教研究与评估);2010年07期
10 方学兵;韩春明;;信息界面中的图标符号设计原则[J];淮南师范学院学报;2010年02期
中国博士学位论文全文数据库 前10条
1 马超飞;基于关联规则的遥感数据挖掘与应用[D];中国科学院研究生院(遥感应用研究所);2002年
2 周海涛;走向创新时代的大学课程发展[D];华东师范大学;2002年
3 郭秀娟;基于关联规则数据挖掘算法的研究[D];吉林大学;2004年
4 刘亚波;关联规则挖掘方法的研究及应用[D];吉林大学;2005年
5 叶飞跃;关联规则及其元规则挖掘技术研究[D];南京航空航天大学;2006年
6 宋卫林;基于最大频繁项目集的数据挖掘关联规则算法研究[D];北京邮电大学;2006年
7 沈斌;关联规则相关技术研究[D];浙江大学;2007年
8 沙朝锋;基于信息论的数据挖掘算法[D];复旦大学;2008年
9 李锋;面向数据挖掘的隐私保护方法研究[D];上海交通大学;2008年
10 余光柱;高效用关联规则的挖掘[D];东华大学;2008年
中国硕士学位论文全文数据库 前10条
1 黄磊;大学课程体系个性化研究[D];中南大学;2004年
2 裘国相;基于关联规则的电厂运行优化目标值确定研究[D];大连海事大学;2006年
3 王延伟;基于J2EE的通用地震信息系统[D];中国地震局工程力学研究所;2006年
4 季顺宁;关联规则在课程建设中的应用研究[D];华东师范大学;2006年
5 李志宏;基于Agent的邮政运输调度系统[D];山东大学;2006年
6 周翠红;数据挖掘中关联规则的研究及在高校教学质量评估中的应用[D];中南大学;2007年
7 闭英权;基于关联规则的股票时间序列趋势预测研究[D];广西大学;2008年
8 周志纯;隐私保护数据挖掘研究[D];合肥工业大学;2008年
9 董欣;数据挖掘技术在高职教学评估中的应用研究[D];哈尔滨工程大学;2009年
10 迟晓明;基于数据仓库与数据挖掘的航空货运分析CRM应用研究[D];中国海洋大学;2009年
【二级引证文献】
中国博士学位论文全文数据库 前1条
1 王肃;基于多Agent的突发事件信息智能监测系统研究[D];北京邮电大学;2011年
【二级参考文献】
中国期刊全文数据库 前10条
1 郑朝霞,刘廷建;关联规则在股票分析中的应用[J];成都大学学报(自然科学版);2002年04期
2 邓浩江,王守觉,邢藏菊,李倩;基于聚类统计与文本无关的说话人识别研究[J];电路与系统学报;2001年03期
3 李碧,雍正正;一种改进的基于遗传算法的聚类分析方法[J];电路与系统学报;2002年03期
4 汪祖媛,郑浩然,庄镇泉,王煦法;基于颜色的自组织聚类分析图象检索算法[J];电路与系统学报;2003年01期
5 行小帅,焦李成;数据挖掘的聚类方法[J];电路与系统学报;2003年01期
6 范九伦,裴继红,谢维信;基于可能性分布的聚类有效性[J];电子学报;1998年04期
7 高新波,裴继红,谢维信;模糊c-均值聚类算法中加权指数m的研究[J];电子学报;2000年04期
8 于剑,程乾生;关于聚类有效性函数FP(u,c)的研究[J];电子学报;2001年07期
9 范九伦,吴成茂;划分系数和总变差相结合的聚类有效性函数[J];电子学报;2001年11期
10 刘静,钟伟才,刘芳,焦李成;免疫进化聚类算法[J];电子学报;2001年S1期
中国硕士学位论文全文数据库 前1条
1 龚惠群;具有时间约束的股票序列模型及采掘算法研究[D];湖南大学;2003年
【相似文献】
中国期刊全文数据库 前10条
1 唐世星;陈军;柯凤琴;;基于FCM算法的小脑基因模糊聚类分析[J];数学的实践与认识;2010年12期
2 高倩倩;须文波;孙俊;;量子行为粒子群算法在基因聚类中的应用[J];计算机工程与应用;2010年21期
3 骆嘉伟;李仁发;张白妮;;基于多维伪F统计量的基因表达动态聚类分析方法研究[J];系统仿真学报;2006年03期
4 王文俊;张军英;杨利英;;基于类别保留投影的基因表达数据降维方法[J];四川大学学报(工程科学版);2009年06期
5 季瑞瑞;刘丁;;支持向量数据描述的基因表达数据聚类方法[J];智能系统学报;2009年06期
6 孙亮;赵芳;王永吉;;DENGENE:一种高精度的基于密度的适用于基因表达数据的聚类算法[J];计算机应用研究;2007年04期
7 王开军;李健;张军英;过立新;;聚类分析中类数估计方法的实验比较[J];计算机工程;2008年09期
8 杨晶;王兆月;田心;;乳腺癌基因芯片数据使用探讨[J];生物信息学;2007年01期
9 贺宪民,贺佳;基因芯片数据的标准化及分析方法[J];中国卫生统计;2004年02期
10 伍亚舟;张玲;罗万春;易东;;基因表达数据的多尺度特征提取与分类研究[J];计算机工程与应用;2009年13期
中国重要会议论文全文数据库 前10条
1 毛韶阳;李肯立;;一种基因数据的聚类并行算法研究[A];2007年全国开放式分布与并行计算机学术会议论文集(上册)[C];2007年
2 崔光照;曹祥红;张华;;基于小波变换的基因表达数据去噪聚类分析[A];第十二届全国信号处理学术年会(CCSP-2005)论文集[C];2005年
3 金旻;戚华兵;黄炜;王小凤;陈林;;基因芯片研究结合FGFR3的核心短肽对小鼠前软骨细胞的作用[A];中华医学会第六次全国骨质疏松和骨矿盐疾病学术会议暨中华医学会骨质疏松和骨矿盐疾病分会成立十周年论文汇编[C];2011年
4 刘全海;;基因芯片和新药研制[A];中国药理学会第九届制药工业药理学术会议论文摘要汇编[C];2000年
5 鲁振华;宋银花;牛良;刘淑娥;王志强;;PermutMatrix软件及其在观赏桃形态性状聚类分析中的应用[A];中国园艺学会桃分会第二届学术年会论文集[C];2009年
6 张蔚;方芙蓉;;基因芯片在宫颈癌基因检测中的应用进展[A];全国子宫颈癌暨湖北省妇科肿瘤专业委员会第五次妇科肿瘤学术会议论文汇编[C];2006年
7 王文勇;黄晓峰;闫庆国;王伯澐;;激光捕获显微切割技术应用研究新进展[A];中华医学会病理学分会2009年学术年会论文汇编[C];2009年
8 裴军;;用基因芯片寻找差异表达基因[A];中国生物工程学会第三次全国会员代表大会暨学术讨论会论文摘要集[C];2001年
9 马宁;张正国;;基于信息变化量衡量主成份分析在基因芯片聚类中的作用[A];第十届中国科协年会论文集(三)[C];2008年
10 赖沛龙;杜欣;翁建宇;凌伟;吴穗晶;罗成伟;郭荣;陆泽生;;应用基因芯片筛选硬皮病样慢性移植物抗宿主病相关基因的初步研究[A];第13届全国实验血液学会议论文摘要[C];2011年
中国重要报纸全文数据库 前10条
1 基因潮编译;基因芯片引领医学新革命[N];中国高新技术产业导报;2002年
2 陈丹;加科学家绘制基因相互作用图谱[N];科技日报;2010年
3 记者 季明 徐寿松;基因芯片亮相上海[N];新华每日电讯;2002年
4 记者 刘熙;省一院基因芯片诊断技术获卫生部认证[N];云南日报;2010年
5 南方日报记者 陈枫 通讯员 宋忠雷 彭文斌;省二医应急大楼:全省首家“移动医院” 省妇幼番禺新院:有了地贫基因芯片[N];南方日报;2011年
6 周向东;基因芯片:神奇的医生[N];中国医药报;2001年
7 林海慧;共建全国最大基因芯片基地[N];证券时报;2000年
8 记者 季洪光;基因芯片可望大规模临床应用[N];科技日报;2003年
9 记者 郑晓强 通讯员 陈海峰;全国首个遗传病基因芯片开放式检测平台在厦建成[N];福建日报;2009年
10 ;应时而生前景灿烂[N];中国医药报;2002年
中国博士学位论文全文数据库 前10条
1 彭斌;基于关联规则的基因芯片数据挖掘与应用[D];第三军医大学;2008年
2 吴飞珍;基因芯片数据的聚类功能评价算法和判别分析算法研究[D];上海大学;2009年
3 王广云;肿瘤基因芯片表达数据分析相关问题研究[D];国防科学技术大学;2009年
4 杨春梅;基因表达数据聚类分析算法研究和应用[D];天津大学;2006年
5 胡冉;十三种化合物诱导的小鼠原代培养肝细胞基因表达谱的聚类分析[D];第三军医大学;2005年
6 齐弘炜;体外循环前后心肌及外周血单个核细胞细胞因子基因表达谱的初步研究[D];中国人民解放军军医进修学院;2003年
7 汤建新;活版印刷DNA芯片原位合成新方法及新基材研究[D];东南大学;2005年
8 张骞;红色毛癣菌孢子EST构建及基因表达谱分析[D];吉林大学;2007年
9 高英堂;肝炎病毒(HBV、HCV)基因诊断芯片的研制和新型肝炎病毒SENV的实验研究[D];南开大学;2003年
10 杨林;猪瘟病毒基因芯片诊断技术的研究及应用[D];中国农业大学;2005年
中国硕士学位论文全文数据库 前10条
1 刘天飞;基于遗传算法的基因芯片数据聚类研究[D];四川农业大学;2008年
2 高倩倩;基因表达数据的聚类算法研究及其实现[D];江南大学;2009年
3 马煜;微阵列数据的聚类算法研究[D];西北大学;2006年
4 王勇;聚类方法在生物数据中的研究与应用[D];江南大学;2008年
5 王晗;整合变化量与变化趋势的共调控基因相似性度量[D];吉林大学;2008年
6 刘月明;基因表达聚类分析方法研究[D];第三军医大学;2001年
7 朱婵;聚类算法在基因表达数据分析中的应用研究[D];暨南大学;2005年
8 孙长江;基于图论的聚类算法及其在基因数据处理中的应用[D];吉林大学;2007年
9 刘涛;基于遗传算法与支持向量机融合的特征基因抽取方法研究[D];哈尔滨工业大学;2007年
10 张白妮;基因数据聚类分析研究[D];湖南大学;2005年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026