收藏本站
《上海交通大学》 2006年
收藏 | 手机打开
二维码
手机客户端打开本文

数据挖掘的建模及在生物信息学中的应用研究

沈红斌  
【摘要】: 近十几年,随着科学技术的飞速发展,经济和社会都取得了极大的进步,与此同时,在各个领域产生了大量的数据。为了从如此大量的数据中发现有价值的知识及规律,人们结合统计学、数据库、机器学习等技术,提出数据挖掘技术来解决这一难题。 聚类分析是数据挖掘研究中的重要内容,成为各学科研究中的重要工具。但在现实生活中,常常遇到高维数据集的处理且在大多数情况下,这些数据集对于各个聚类存在属性不平衡的现象。根据这一点,本文提出在核特征空间中的属性加权核聚类算法,实验表明新聚类算法能很好地反映各属性对于各个聚类的重要性,因而取得了比传统聚类算法更好的结果。传统聚类算法的应用对象往往局限于单一独立的数据集,但在很多情况下一个数据集要和其他数据集相互发生关联。基于信息理论,本文提出的合作聚类算法反映了数据集间的相互作用关系,结果表明聚类结果将受到其他数据集的影响。在人类世界中,人眼是最有效的获取知识的器官,也是最有效的聚类机制。因此模仿人眼的工作原理将为研究聚类分析提供一个非常好的平台。本文通过模拟人眼非均匀采样的特点,提出一新颖的视觉聚类分析算法,该算法对于解决聚类分析结果评价的有效性等有着重要的参考意义。 随着生物科学技术在近几年的发展,产生了大量的生物数据。利用传统的生物实验方法将不能满足目前处理如此多生物数据的需要。在这种情况下,生物信息学应运而生。生物信息学是计算机科学与生物科学的交叉学科,成为目前研究的热点。诸多数据挖掘技术,如聚类分析、机器学习等,也成为生物信息研究中的重要内容。文章在分析了前人利用“无监督”模糊C均值聚类算法在预测分析蛋白质结构方面的缺陷的基础上,提出了一种“有监督”的聚类算法用来预测蛋白质结构。实验表明,利用了训练数据类别标号的“有监督”聚类算法的分类精度比“无监督”聚类算法有很大提高。通过这一点表明,在缺乏数据样本类别标号时,“无监督”聚类算法是一种优秀的分析工具,但如果先验知识预先知道训练样本的类别标号,采用“有监督”的学习算法将更加有效。在蛋白组学的研究中,一个重要的课题是如何离散化蛋白序列,从而能为计算机所识别处理。诸多实验表明,伪氨基酸离散模型比传统20-D氨基酸离散模型包含更多的序列顺序信息,因而大大地提高了各类算法在蛋白质属性上的预测分析精度。但如何确定伪氨基酸成分的维数一直是困扰各位研究人员的问题。本文提出了集成分类器框架方案,通过集成多个不同维数的伪氨基酸离散化模型,解决了维数选择问题,大量实验表明在大多数情况下,由于从不同角度抓住问题的核心,集成分类器比任何单一维数的分析精度都要高。随着生命科学、生命数据库的发展,近几年Gene Ontology(GO)数据库得到了长足的发展。GO数据库是一综合多种不同数据库的蛋白表达数据库。本文利用GO蛋白的离散模型预测分析蛋白亚细胞位置,由于GO离散模型更能反映蛋白亚细胞位置的特性,因此取得了比其他离散化模型更好的效果。另外,本文所建立的数据集覆盖了目前该领域研究中最多的亚细胞位置,大大扩大了该项研究的实际应用意义。为了更好地使广大生物学家应用本文生物信息学研究的成果,文章建立了多个在线生物信息预测分析网站,经不完全统计,已有来自美国、英国、荷兰、澳大利亚以及中国等世界各地的研究科学家通过互联网访问并使用所建立的在线生物信息服务网站,为科学研究的快速发展提供了强有力的支持。 本文的创新性表现在: (1)提出高维核空间属性加权核聚类算法,并从理论上证明了收敛性; (2)讨论了合作聚类模型,该模型在研究实际社会中的关联模型上有重要意义; (3)通过模拟生物人眼非均匀采样的特点,提出一种新颖的视觉聚类算法; (4)提出基于“有监督”聚类算法的蛋白结构预测模型; (5)提出集成分类器框架模型,有效地解决了伪氨基酸蛋白离散模型的维数选择问题;通过在诸多应用对象、算法上的实验表明,该框架是切实可行的; (6)采用新型的GO蛋白离散模型分析预测蛋白亚细胞位置。该文所研究的细胞位置数目是目前该研究领域最多的,进一步加强了该研究的实际应用意义;另外,本文的研究涵盖了多个应用对象,如人类细胞、植物细胞、细菌细胞以及病毒等; (7)为了进一步加速研究成果的转化及应用,建立了多个在线生物服务网站。通过互联网,世界各地的科学家可以在线使用生物信息预测服务。
【学位授予单位】:上海交通大学
【学位级别】:博士
【学位授予年份】:2006
【分类号】:TP311.13

【引证文献】
中国博士学位论文全文数据库 前1条
1 梁瑾;模糊粗糙单调数据挖掘算法及在污水处理中应用研究[D];华南理工大学;2011年
中国硕士学位论文全文数据库 前1条
1 孙玉亮;基于聚类的单核苷酸多态性位点质量控制方法研究[D];湖南大学;2013年
【参考文献】
中国期刊全文数据库 前7条
1 张讲社,梁怡,徐宗本;基于视觉系统的聚类算法[J];计算机学报;2001年05期
2 张莉,周伟达,焦李成;核聚类算法[J];计算机学报;2002年06期
3 沈红斌,杨杰,王士同,董一飞;基于信息理论的合作聚类算法研究[J];计算机学报;2005年08期
4 王焜 ,陆文聪,陈念贻,李国正,姚莉秀;宋代汝窑古瓷的微量元素-支持向量机算法研究[J];计算机与应用化学;2004年02期
5 沈红斌,王士同,吴小俊;离群模糊核聚类算法[J];软件学报;2004年07期
6 蔡娜娜;陈月辉;李伟;;利用BP神经网络预测蛋白质三级结构[J];济南大学学报(自然科学版);2009年04期
7 沈红斌,杨杰,王士同,陈宁江;采样定理、视觉原理及无监督聚类分析理论[J];上海交通大学学报;2005年04期
【共引文献】
中国期刊全文数据库 前10条
1 李景福;赵进辉;龙志军;刘诗安;;基于离散小波变换的农业图像处理研究[J];安徽农学通报;2007年03期
2 刘立波;基于数学形态学的二值图像骨架抽取算法[J];安庆师范学院学报(自然科学版);2004年01期
3 吕英华;牛守强;;基于MATLAB的金属材料显微图像处理[J];鞍山科技大学学报;2006年03期
4 苏中;夏艳;吴细宝;;基于激光双目视觉系统的直径测量[J];半导体光电;2008年01期
5 王会峰;刘永奎;汪大宝;;基于小波和Zernike矩的标尺靶亚像素检测算法[J];半导体光电;2010年06期
6 胡跃明;戚其丰;韩佳;袁鹏;吴忻生;;SMD-IC的高速高精度图像识别算法及其实现[J];半导体技术;2005年11期
7 霍炎;荆涛;张德珍;冯玉珉;;基于像素特征的运动块补偿算法[J];北京交通大学学报;2008年02期
8 杨常清;王孝通;徐晓刚;金良安;傅建国;;稳像软平台的一些关键技术研究[J];兵工学报;2006年03期
9 杜慧茜;郭林楠;梅文博;任彦芳;;基于B样条函数的偏微分方程图像去噪[J];兵工学报;2008年08期
10 陈冰;赵亦工;李欣;;基于高斯尺度空间的末制导目标跟踪方法[J];兵工学报;2009年05期
中国重要会议论文全文数据库 前10条
1 ;Novel Hybrid Clustering Algorithm Incorporating Artificial Immunity into Fuzzy Kernel Clustering for Pattern Recognition[A];第二十六届中国控制会议论文集[C];2007年
2 刘吉成;汪熙;王仲;刘爱勇;;基于虚拟环境的摄像机定标中的矩阵研究[A];'2003系统仿真技术及其应用学术交流会论文集[C];2003年
3 毕锦烟;李巍华;;基于半监督模糊核聚类的齿轮箱早期故障检测方法[A];第九届全国振动理论及应用学术会议论文集[C];2007年
4 陈海燕;郭克华;王洪南;赵春霞;;基于各向异性分布偏微分方程的路面图像平滑技术[A];图像图形技术与应用进展——第三届图像图形技术与应用学术会议论文集[C];2008年
5 汤广富;马春实;刘欢;付强;;模糊聚类快速实用方法[A];第十四届全国信号处理学术年会(CCSP-2009)论文集[C];2009年
6 宋雪静;吴仁彪;刘家学;;基于GPR的机场跑道灾害识别[A];第十四届全国信号处理学术年会(CCSP-2009)论文集[C];2009年
7 刘松林;陈杰;郝向阳;西勤;;玻壳缺陷检测与几何量测视觉系统的设计与实现[A];2009年全国测绘仪器综合学术年会论文集[C];2009年
8 饶鲜;李斌;杨绍全;;用核聚类法进行异常检测[A];信号与信息处理技术第三届信号与信息处理全国联合学术会议论文集[C];2004年
9 余琳;邓玲;;常见聚类算法的比较以及DSS系统中的应用[A];湖北省通信学会、武汉通信学会2009年学术年会论文集[C];2009年
10 ;Model Selection for Support Vector Machines Based on Kernel Density Estimation[A];Proceedings of 2010 Chinese Control and Decision Conference[C];2010年
中国博士学位论文全文数据库 前10条
1 张泽宝;空间数据库的索引技术研究[D];哈尔滨工程大学;2009年
2 徐森;文本聚类集成关键技术研究[D];哈尔滨工程大学;2010年
3 冯光升;面向认知网络的自适应QoS感知与配置方法[D];哈尔滨工程大学;2009年
4 沈郑燕;声纳图像去噪与分割技术研究[D];哈尔滨工程大学;2010年
5 孔凡芝;引线键合视觉检测关键技术研究[D];哈尔滨工程大学;2009年
6 于翔;基于网格的数据流聚类方法研究[D];哈尔滨工程大学;2010年
7 李桃迎;交通领域中的聚类分析方法研究[D];大连海事大学;2010年
8 王文标;基于视觉测量的快速再制造成形系统关键技术研究[D];大连海事大学;2010年
9 时长江;豆科类杂草种子图像识别系统研究[D];中国海洋大学;2009年
10 曲建华;基于群体智能的聚类分析[D];山东师范大学;2010年
中国硕士学位论文全文数据库 前10条
1 朱杰;一种基于聚类的支持向量机反问题求解算法[D];河北大学;2007年
2 宋抗;压缩机活塞圆度误差数字检测系统研究[D];河南理工大学;2010年
3 郑莉;DSP在集装箱加强板焊接定位系统中的应用[D];山东科技大学;2010年
4 范丹;Web检索中的查询扩展及结果聚类技术研究[D];辽宁师范大学;2010年
5 蔡静颖;模糊c-均值算法的研究[D];辽宁师范大学;2010年
6 张杨;基于双目立体视觉的CCD测距系统设计[D];长春理工大学;2010年
7 张杰;基于支持向量机和蛋白质全序列的蛋白质—蛋白质相互作用预测[D];郑州大学;2010年
8 王林吉;基于CIELAB均匀颜色空间和聚类算法的混纺测色研究[D];浙江理工大学;2010年
9 杨雪娇;点云的边界提取及角点检测算法研究[D];哈尔滨工程大学;2010年
10 金甲;全景视觉图像去噪与增强方法的研究[D];哈尔滨工程大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 孙海军,蒋东翔,钱立军,战祥森;基于粗糙集理论的旋转机械故障诊断方法[J];动力工程;2004年01期
2 曹长修,孙颖楷,曹龙汉,张邦礼;基于粗糙集理论的内燃机故障诊断专家系统[J];重庆大学学报(自然科学版);2001年04期
3 季民,霍金胜,胡振苓,马文杰,刘文亚,张宝祥;活性污泥法数学模型的研究与应用[J];中国给水排水;2001年08期
4 胡兴志;;基于模糊神经网络的自适应控制在污水处理中的应用研究[J];华北科技学院学报;2006年03期
5 韦安磊;曾光明;黄国和;梁婕;李晓东;;生物脱氮除磷活性污泥系统复合模拟方法[J];环境工程学报;2010年11期
6 楼文高;刘遂庆;;活性污泥系统神经网络建模与仿真研究[J];环境污染与防治;2005年09期
7 李晓东;曾光明;蒋茹;李峰;石林;梁婕;韦安磊;黄国和;;改进支持向量机对污水处理厂运行状况的故障诊断[J];湖南大学学报(自然科学版);2007年12期
8 刘红;胡永华;;遗传流行病学研究中的H-W平衡检验[J];中南大学学报(医学版);2010年01期
9 李洪兴;模糊控制的插值机理[J];中国科学E辑:技术科学;1998年03期
10 李洪兴;模糊控制器与PID调节器的关系[J];中国科学E辑:技术科学;1999年02期
中国博士学位论文全文数据库 前10条
1 杨洁;模糊神经网络的学习收敛性与阈值可去性[D];大连理工大学;2006年
2 孙成敏;基于粗糙集的知识发现方法研究[D];吉林大学;2006年
3 瞿彬彬;基于粗糙集理论的决策信息系统知识获取研究[D];华中科技大学;2006年
4 贾平;基于粗糙集理论的知识发现方法研究[D];浙江大学;2008年
5 黄国顺;基于粗糙集的决策表知识约简研究[D];华中科技大学;2007年
6 陈黎飞;高维数据的聚类方法研究与应用[D];厦门大学;2008年
7 邱东;模糊分析中的若干问题及与粗糙集理论的结合研究[D];电子科技大学;2009年
8 胡清华;混合数据知识发现的粗糙计算模型和算法[D];哈尔滨工业大学;2008年
9 何春梅;模糊神经网络的性能及其学习算法研究[D];南京理工大学;2010年
10 黄正华;模糊粗糙集模型的若干拓展[D];武汉大学;2010年
【二级参考文献】
中国期刊全文数据库 前5条
1 张讲社,梁怡,徐宗本;基于视觉系统的聚类算法[J];计算机学报;2001年05期
2 张莉,周伟达,焦李成;核聚类算法[J];计算机学报;2002年06期
3 陆文聪,陈念贻,叶晨洲,李国正;支持向量机算法和软件ChemSVM介绍[J];计算机与应用化学;2002年06期
4 李国正,王振晓,杨杰,姚莉秀,陈念贻;基于SVM的特征筛选方法及其若干应用[J];计算机与应用化学;2002年06期
5 沈红斌,王士同,吴小俊;离群模糊核聚类算法[J];软件学报;2004年07期
【相似文献】
中国期刊全文数据库 前10条
1 刘桂霞,崔永铎,高平和;关于数据挖掘的研究[J];工业技术经济;2000年03期
2 李业丽,常桂然,徐茜;神经网络在数据挖掘中的应用研究[J];计算机工程与应用;2000年08期
3 陈国萍,李巍,刘仲英;数据挖掘中概念树的标准、生成和实现[J];计算机工程;2000年12期
4 朱天翔,李力;相关案件的数据挖掘[J];计算机应用研究;2000年03期
5 赵丹群;数据挖掘:原理、方法及其应用[J];现代图书情报技术;2000年06期
6 余英泽,廖里,吴渝;一种新型数据分析技术——数据挖掘[J];计算机与现代化;2000年01期
7 邵华 ,万家华 ,金翔义;数据挖掘在证券行业中的应用[J];软件工程师;2000年11期
8 王宏;数据挖掘在网络营销中的应用[J];计算机应用与软件;2000年06期
9 何东峰;数据挖掘要适当[J];互联网周刊;2000年Z1期
10 康松林,费洪晓;数据挖掘的软分类方法[J];长沙铁道学院学报;2001年03期
中国重要会议论文全文数据库 前10条
1 谢中;邱玉辉;;面向商务网站有效性的数据挖掘方法[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年
2 李久丹;陈剑;覃涛;;数据挖掘技术理论研究[A];广西计算机学会2010年学术年会论文集[C];2010年
3 张秋彤;;数据挖掘与高校图书馆个性化信息服务[A];第九届中国不确定系统年会、第五届中国智能计算大会、第十三届中国青年信息与管理学者大会论文集[C];2011年
4 薛鲁华;张楠;;聚类分析在Web数据挖掘中的应用[A];北京市第十三次统计科学讨论会论文选编[C];2006年
5 毛定祥;;数据挖掘与实证经济学[A];2003中国现场统计研究会第十一届学术年会论文集(上)[C];2003年
6 段培俊;周东岱;;数据挖掘研究综述[A];2003年中国智能自动化会议论文集(下册)[C];2003年
7 雷宇;;论行业信息资源的数据挖掘[A];中国烟草行业信息化研讨会论文集[C];2004年
8 吴以凡;吴铁军;欧阳树生;;面向生产过程质量控制的动态数据挖掘方法[A];05'中国自动化产业高峰会议暨中国企业自动化和信息化建设论坛论文集[C];2005年
9 孙明;康红梅;莫一;;数据挖掘在科技奖励管理系统专家库中的应用[A];2005年十二省区市机械工程学会学术年会论文集(湖北专集)[C];2005年
10 邵红全;杨菊梅;潘建雄;;数据挖掘的策略与实现技术[A];中国系统工程学会决策科学专业委员会第六届学术年会论文集[C];2005年
中国重要报纸全文数据库 前10条
1 本报记者褚宁;数据挖掘如“挖金”[N];解放日报;2002年
2 周蓉蓉;数据挖掘需要点想像力[N];计算机世界;2004年
3 □中国电信股份有限公司北京研究院 张舒博 □北京邮电大学计算机科学与技术学院 牛琨;走出数据挖掘的误区[N];人民邮电;2006年
4 《网络世界》记者 王莹;数据挖掘保险业的新蓝海[N];网络世界;2012年
5 刘俊丽;基于地理化的网络数据挖掘与分析提升投资有效性[N];人民邮电;2014年
6 本报记者 连晓东;数据挖掘:金融信息化新热点[N];中国电子报;2002年
7 本报记者 凤小华 朱仁康;“数字挖掘软件”引领中国信息化新浪潮[N];中国电子报;2003年
8 本报记者 史延廷;“成功企业数据挖掘暨数量化管理论坛”在京举办[N];中国旅游报;2002年
9 朱小宁;数据挖掘:信息化战争的基础工程[N];解放军报;2005年
10 本报记者 王小平;从“大集中”走向数据挖掘[N];金融时报;2002年
中国博士学位论文全文数据库 前10条
1 杨虎;序列数据挖掘的模型和算法研究[D];重庆大学;2003年
2 巩建光;面向电信领域的数据挖掘关键技术研究[D];哈尔滨工程大学;2012年
3 李建强;基于数据挖掘的电站运行优化理论研究与应用[D];华北电力大学(河北);2006年
4 余小高;电子商务环境中分布式数据挖掘的研究[D];武汉理工大学;2007年
5 李国旗;本体辅助的先验知识融入生物信息数据挖掘的方法研究[D];上海交通大学;2007年
6 翟坤;基于数据挖掘的成本管理方法研究[D];大连理工大学;2012年
7 徐河杭;面向PLM的数据挖掘技术和应用研究[D];浙江大学;2010年
8 刘洪波;汉语认知脑数据挖掘相关算法及应用研究[D];大连理工大学;2006年
9 朱廷劭;数据挖掘及其在汉语文语转换中应用的研究[D];中国科学院研究生院(计算技术研究所);1999年
10 牛成林;增量数据挖掘及其在电站运行优化中的理论研究及应用[D];华北电力大学(北京);2010年
中国硕士学位论文全文数据库 前10条
1 杨毅超;基于Web数据挖掘的作物商务平台分析与研究[D];湖南农业大学;2008年
2 徐进华;基于灰色系统理论的数据挖掘及其模型研究[D];北京交通大学;2009年
3 俞驰;基于网络数据挖掘的客户获取系统研究[D];西安电子科技大学;2009年
4 冯军;数据挖掘在自动外呼系统中的应用[D];北京邮电大学;2009年
5 于宝华;基于数据挖掘的高考数据分析[D];天津大学;2009年
6 王仁彦;数据挖掘与网站运营管理[D];华东师范大学;2010年
7 彭智军;数据挖掘的若干新方法及其在我国证券市场中应用[D];重庆大学;2005年
8 涂继亮;基于数据挖掘的智能客户关系管理系统研究[D];哈尔滨理工大学;2005年
9 贾治国;数据挖掘在高考填报志愿上的应用[D];内蒙古大学;2005年
10 马飞;基于数据挖掘的航运市场预测系统设计及研究[D];大连海事大学;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026