收藏本站
《国防科学技术大学》 2008年
收藏 | 手机打开
二维码
手机客户端打开本文

微阵列基因表达数据分类问题中的属性选择技术研究

张丽娟  
【摘要】: 近年来,随着微阵列技术的快速发展,人们可以在一次实验中同时测量成千上万个基因的表达水平(通过微阵列技术获得的基因表达数据称为微阵列基因表达数据)。这种高通量的技术为基因表达数据的收集提供了方便,同时也给基因表达数据的挖掘提出了严峻的挑战。 分类是微阵列基因表达数据挖掘的一个重要任务,其目的是根据微阵列基因表达数据对疾病进行分类和诊断,它与传统的分类过程没有区别。然而,微阵列基因表达数据的分类任务更具有挑战性,因为基因数目庞大而样本数目很少。因此,从微阵列基因表达数据的成千上万个基因中识别一少部分对分类任务最有贡献的基因(属性)非常必要。论文借鉴现有的属性选择技术和方法,并基于微阵列基因表达数据的特点,对微阵列基因表达数据上的属性选择问题进行了深入的研究。 在属性选择研究领域,属性相关性是个非常重要的概念,它反映属性对分类任务的重要性。很多属性选择算法直接基于属性相关性概念,并采用这样或那样的相关性度量来评估属性子集的优劣。虽然,属性相关性这个概念在属性选择领域广泛使用,但是,至今仍然没有大家公认的属性相关性定义,相关性度量也很多样化,属性相关性及其与属性选择之间的关系仍然没有得到充分刻画和描述。论文集中于研究属性相关性、更适用于微阵列基因表达数据的属性相关性度量和属性选择方法。 属性相关性度量用来度量属性(属性子集)与类标号之间的相关性。在机器学习和数据挖掘领域存在许多不同的属性相关性度量,不同的度量适合于不同的数据。现有相关性度量中,有些度量适合于有大量样本、且样本服从典型统计分布的数据;有些适合于离散数据。而微阵列基因表达数据不仅样本非常少,而且数据都是连续值,不能满足现有度量的要求。针对这个问题,论文根据灰色系统理论能处理“小样本”和连续值数据的特点,将灰色系统理论中的灰关联分析用于微阵列基因表达数据,用灰关联度量来评估属性相关性,并基于此开发了一个基于灰关联分析的属性选择排列法GR-GRA。 属性相关性在属性选择中是一个非常重要的概念。在机器学习和数据挖掘领域存在很多属性相关性定义,但这些定义大都是定性的,往往仅仅依赖于数据的概率分布,既不考虑相关性度量,也独立于分类器。这样的定义往往会导致一些问题: 由于不同的相关性度量基于不同的理论、具有不同的特点,不考虑相关性度量的定义会导致这样的问题:同一个属性,用一个度量评估时是相关属性,而用另外一个度量评估时可能变为不相关属性,我们无法确定一个属性究竟是相关的,还是不相关的。针对现有定义存在的问题,我们提出依赖于度量的相关性定义,该定义将属性相关性度量包含在其中,用属性相关性度量值的变化来近似地刻画属性的相关性。在这个定义的基础上,我们开发了一个非常有效的属性选择过滤算法FRADM,并将其用于微阵列基因表达数据。广泛的实验证明了FRADM在微阵列基因表达数据上的优越性能。 很多研究表明独立于分类器的属性相关性定义几乎没有什么用处:根据这样的定义所选择的相关属性不一定就是对分类有用的属性,而不相关的属性也未必都对分类没有作用;并且不同的分类器有不同的偏置,对一个分类器重要的属性对另外一个分类器可能是无用的。为此,我们提出依赖于分类器的属性相关性定义,该定义考虑了分类器的偏置,直接用分类器精度的变化来精确地刻画属性的相关性。基于这个定义我们开发了一个有效的属性选择打包算法WR。微阵列基因表达数据上的大量实验证明WR算法能在最大程度上提高分类器的精度。 论文最后将依赖于度量的属性相关性定义和依赖于分类器的属性相关性定义进行了统一和抽象,形成一个广义的属性相关性定义;根据广义属性相关性定义,将属性选择过滤算法FRADM和打包算法WR统一在一个属性选择算法框架下;在此基础上分析了统一框架下过滤算法FRADM和打包算法WR各自的优缺点,并提出一个新颖的混合策略,在新的混合策略下,实现了一个新颖的混合属性选择算法HFW。 总体而言,本文对于属性选择中的属性相关性及相关性度量进行了深入研究,给出了几个属性相关性定义,提出了适用于微阵列基因表达数据的属性相关性度量,并针对微阵列基因表达数据,开发了几个有效的属性选择算法。对于推进高维数据中的属性选择研究具有一定的理论意义和实用价值。
【学位授予单位】:国防科学技术大学
【学位级别】:博士
【学位授予年份】:2008
【分类号】:TP18

手机知网App
【引证文献】
中国硕士学位论文全文数据库 前3条
1 王思漫;基于基因表达谱的肿瘤分类方法研究[D];南京理工大学;2012年
2 孙杰;聚类算法分析在基因表达数据中的分析应用[D];江苏科技大学;2012年
3 陈辉;基坑维护结构的监控分析研究[D];沈阳建筑大学;2012年
【参考文献】
中国期刊全文数据库 前4条
1 张军英,Y.J.Wang,J.Khan,R.Clarke;基于类别空间的基因选择[J];中国科学E辑:技术科学;2003年12期
2 李霞,张田文,郭政;一种基于递归分类树的集成特征基因选择方法[J];计算机学报;2004年05期
3 李建中;杨昆;高宏;骆吉洲;郭政;;考虑样本不平衡的模型无关的基因选择方法[J];软件学报;2006年07期
4 王明怡,吴平,王德林;基于相关性分析的基因选择算法[J];浙江大学学报(工学版);2004年10期
【共引文献】
中国期刊全文数据库 前10条
1 敖琳;曾志雄;方志俊;胡冉;高利宏;杨梦苏;曹佳;;小鼠毒理基因芯片的设计和制作[J];癌变.畸变.突变;2006年02期
2 田文勇;李冬梅;;阿坝州三大产业发展对经济增长的影响分析[J];阿坝师范高等专科学校学报;2011年03期
3 杨开云;冯卫;王亮;朱峰;;多目标决策灰色关联投影法在建筑工程投资决策中的应用[J];四川建筑科学研究;2009年05期
4 郑亮;蒋志雨;;铝粉厂粉尘爆炸危险性影响因素的灰关联分析[J];安防科技;2009年08期
5 齐新安;朱祖林;;安徽电大远程开放教育专业招生规模与发展态势的灰关联分析[J];安徽广播电视大学学报;2007年03期
6 汪周生;;外部环境因素与合肥会展经济发展关联效应的实证分析[J];安徽广播电视大学学报;2010年04期
7 王贵权;朱云鹃;;企业债券发展影响因素的实证研究——基于灰色系统理论[J];安徽广播电视大学学报;2011年01期
8 杜淑辉;臧德奎;孙居文;;木瓜属观赏品种的灰色关联度综合评价[J];山东农业科学;2011年01期
9 丁玉玺;;安徽省科技与经济发展灰色关联度分析[J];安徽电子信息职业技术学院学报;2008年06期
10 庄振华;王年;李学俊;梁栋;王继;;癌症基因表达数据的熵度量分类方法[J];安徽大学学报(自然科学版);2010年02期
中国重要会议论文全文数据库 前10条
1 冯羽;马凤山;魏爱华;赵海军;郭捷;;灰色系统与神经网络组合模型在地下水水位预测中的应用[A];中国科学院地质与地球物理研究所第11届(2011年度)学术年会论文集(中)[C];2012年
2 黄碧春;;灰色系统理论在建筑物变形分析中的应用[A];全国测绘科技信息网中南分网第二十五次学术交流会论文集[C];2011年
3 尹春杰;孙洁君;张承慧;;一种新型的蓄电池组状态在线检测及故障预报算法[A];第二十六届中国控制会议论文集[C];2007年
4 李军亮;肖新平;毛树华;;灰色双层线性规划的粒子群解法[A];第二十七届中国控制会议论文集[C];2008年
5 王首彬;李娜;龚威;;基于灰色关联度的天津市人口与环境分析[A];第二十七届中国控制会议论文集[C];2008年
6 戴文战;李俊峰;;图像边缘检测新算法及应用[A];第二十七届中国控制会议论文集[C];2008年
7 刘荣成;戴文战;;一种基于残差模型的自调整灰色模糊预测控制器的设计[A];第二十七届中国控制会议论文集[C];2008年
8 刘捷;李军亮;廖锐全;;非等间隔广义累加灰色预测模型及其应用[A];第二十九届中国控制会议论文集[C];2010年
9 李俊峰;戴文战;潘海鹏;高金凤;;基于灰色系统理论的图像去噪算法研究[A];第二十九届中国控制会议论文集[C];2010年
10 李俊峰;戴文战;潘海鹏;;基于灰色关联度的自适应图像去噪算法研究[A];中国自动化学会控制理论专业委员会A卷[C];2011年
中国博士学位论文全文数据库 前10条
1 于化龙;基于DNA微阵列数据的癌症分类技术研究[D];哈尔滨工程大学;2010年
2 王晓辉;中国产业结构的动态投入产出模型分析[D];哈尔滨工程大学;2010年
3 刘洪斌;节能减排政府责任保障机制研究[D];中国海洋大学;2010年
4 魏光明;我国环境税收问题研究[D];中国海洋大学;2010年
5 赵昕;海洋灾害补偿基金设计研究[D];中国海洋大学;2010年
6 柏坚;非线性数学地质模型研究及在滇东南金矿成矿预测中的应用[D];中国地质大学(北京);2010年
7 陈非;基于过程信息融合的旋转机械信息(火用)故障诊断研究[D];华中科技大学;2010年
8 许光辉;基于基因芯片技术的刺五加改善果蝇睡眠作用的机制研究[D];黑龙江中医药大学;2010年
9 董凤娟;注水开发阶段的储层评价与油水分布规律研究[D];西北大学;2010年
10 章鹏;多尺度特征检测:方法和应用研究[D];中国科学技术大学;2010年
中国硕士学位论文全文数据库 前10条
1 潘慧;杏鲍菇优良杂交子的初步选育[D];华中农业大学;2010年
2 杜金龙;土地利用变化及其对生态系统服务价值影响研究[D];华中农业大学;2010年
3 朱浩锋;新疆包尔图铜矿床地质地球化学特征及深部预测[D];河南理工大学;2010年
4 乐志军;新朝川矿矿井水分布规律研究与防治对策[D];河南理工大学;2010年
5 刘文伍;杉木树矿井瓦斯地质规律及瓦斯预测研究[D];河南理工大学;2010年
6 段守军;煤炭资源潜力评价研究[D];河南理工大学;2010年
7 王晓彬;新安井田瓦斯赋存规律研究[D];河南理工大学;2010年
8 米帅;工程项目成本管理及绩效评价研究[D];山东科技大学;2010年
9 孙明;深井底板突水判别和预测系统开发研究[D];山东科技大学;2010年
10 孟宪宇;我国钢铁业上市公司绩效评价[D];长春理工大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 蓝树猛;张毅;李飞;;天津奈伦国贸大厦深基坑支护工程变形监测研究[J];安徽建筑;2011年01期
2 田鹏波;;基坑周边建筑物变形测量的实施与数据处理方法[J];城市勘测;2007年05期
3 刘杨;任德奎;;基于灰色理论的间断性需求备件预测方法[J];四川兵工学报;2011年04期
4 王长本,刘兴晖,王伟灵,周新;基因表达数据的聚类分析[J];国外医学(临床生物化学与检验学分册);2004年04期
5 甄精莲;段仲源;贾瑞晨;;深基坑支护技术综述[J];工业建筑;2006年S1期
6 钟小勇;;对岩土工程勘察中深基坑支护技术的分析研究[J];广东科技;2008年22期
7 贺志勇;郑伟;;基于BP神经网络的深基坑变形预测[J];华南理工大学学报(自然科学版);2008年10期
8 杨毅;体育灰色点、斜关联度模型之比较[J];衡阳师范学院学报;2004年06期
9 吴斌;赵健赟;熊先才;;全站仪深基坑开挖安全监测与分析[J];重庆建筑大学学报;2007年02期
10 曹晖;席斌;米红;;一种新聚类算法在基因表达数据分析中的应用[J];计算机工程与应用;2007年18期
中国博士学位论文全文数据库 前7条
1 李俭;大型电力变压器以油中溶解气体为特征量的内部故障诊断模型研究[D];重庆大学;2001年
2 廖瑞金;变压器绝缘故障诊断黑板型专家系统和基于遗传算法的故障预测研究[D];重庆大学;2003年
3 郑春厚;独立分量分析算法及其应用研究[D];中国科学技术大学;2006年
4 平雪良;灰色系统理论及其在逆向工程数据测量与处理中的应用[D];南京航空航天大学;2005年
5 何灵敏;支持向量机集成及在遥感分类中的应用[D];浙江大学;2006年
6 温建宁;供应链管理及统计数据识别处理研究[D];兰州大学;2008年
7 王旭亮;不确定性疲劳寿命预测方法研究[D];南京航空航天大学;2009年
中国硕士学位论文全文数据库 前10条
1 郝利鹏;一种健壮的ISOMAP算法及其应用[D];西安电子科技大学;2009年
2 陈春伟;河南省本科体育院校师生关系类型及影响因素分析[D];河南大学;2011年
3 胡康虎;基坑监测及预警技术在杭州地铁建设中的应用研究[D];浙江工业大学;2010年
4 翁升;软基路堤最终沉降量的灰色预测及反演分析[D];华侨大学;2001年
5 姜伟;基于数据挖掘聚类算法的研究及其应用[D];辽宁工程技术大学;2004年
6 袁潮清;江苏省市(地)科技实力分析与综合评价[D];南京航空航天大学;2004年
7 程树林;基于油样光谱分析的设备磨损状态监测系统的研究[D];广东工业大学;2004年
8 朱京辉;上市公司治理与公司绩效关联研究[D];山东科技大学;2004年
9 张锦良;基于遗传算法的油田开发规划多目标优化研究[D];西南石油学院;2004年
10 邓庆山;聚类分析及其在基因表达数据中的应用研究[D];华中科技大学;2004年
【二级参考文献】
中国期刊全文数据库 前2条
1 何小晨,徐守时;基于关联规则的特征选择方法[J];红外与激光工程;2002年06期
2 朱明,王俊普,蔡庆生;一种最优特征集的选择算法[J];计算机研究与发展;1998年09期
【相似文献】
中国期刊全文数据库 前10条
1 王庆东,马昕,戴华平,孙优贤;基于粗糙集属性量度的数据库分解方法[J];浙江大学学报(工学版);2004年09期
2 陈虹;陶滔;常景超;;决策树在配置命令相关性中的应用研究[J];南华大学学报(自然科学版);2007年04期
3 文专,王正欧;一种高效的基于排序的RBF神经网络属性选择方法[J];计算机应用;2003年08期
4 朱佳贤;无指导学习环境下基于属性相关性分析和聚类算法的属性选择问题研究[J];管理学报;2005年S2期
5 包新彩;张松杰;;改进判定树分类算法的研究[J];科技信息(科学教研);2007年28期
6 王荣;陈纯;;基于属性选择算法的数据挖掘在离网预测模型中的应用[J];计算机应用与软件;2007年11期
7 李坤;梁娟;;判定树分类算法的比较与展望[J];河南机电高等专科学校学报;2007年04期
8 韩萌;郭维维;;基于信息增益和遗传算法的属性选择方法[J];科技信息(科学教研);2008年15期
9 鲍玉斌,王琢,孙焕良,于戈;一种基于分形维的快速属性选择算法[J];东北大学学报(自然科学版);2003年06期
10 杨光祖;王国军;;一种新的朴素贝叶斯属性选择算法[J];科学技术与工程;2009年04期
中国重要会议论文全文数据库 前10条
1 朱小飞;郭嘉丰;程学旗;杜攀;;基于流行排序的查询推荐方法[A];第五届全国青年计算语言学研讨会论文集[C];2010年
2 蒙应杰;张文;吴超;;基于粗集的数据库水印属性选择优化问题[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
3 闫光辉;李战怀;吴海军;;基于Z-Ordering技术的分形属性选择方法[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
4 朱佳贤;;无指导学习环境下基于属性相关性分析和聚类算法的属性选择问题研究[A];第11届海峡两岸信息管理发展策略研讨会论文集[C];2005年
5 王广涛;宋擒豹;车蕊;;一种新的基于信息熵的属性选择算法[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
6 钱永兰;杨邦杰;裴志远;焦险峰;张松岭;吴全;汪庆发;王飞;;IHS变换与低通滤波相结合的遥感图像增强模型[A];中国地理学会2006年学术年会论文摘要集[C];2006年
7 杨淑贞;;浅谈应用ICD-10编码工作中的体会[A];中国医院协会病案管理专业委员会第15届全国病案管理学术会议论文集[C];2006年
8 张铮;胡社教;江萍;;基于EP模式的特征选择算法[A];2011中国仪器仪表与测控技术大会论文集[C];2011年
9 朱琳;周水庚;;基于聚类的文本分类属性加权[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
10 杨东雷;;遥感图像自动分类[A];天津市测绘学会四届十次理事会论文集[C];2004年
中国重要报纸全文数据库 前10条
1 刘向晨;让文件捉迷藏[N];中国电脑教育报;2003年
2 苍苍;教你两手[N];中国电脑教育报;2004年
3 柳涛;秋季更需护理肌肤[N];中华工商时报;2002年
4 零和千;练习使用黑白网点[N];电脑报;2005年
5 刘焕钦;五级分类:再细也不过分[N];金融时报;2006年
6 潘文波;贷款五级分类监管应注意的几个问题[N];金融时报;2005年
7 齐继民;为成功铺好路[N];中华合作时报;2006年
8 胡秀;秋季护肤四部曲[N];保健时报;2005年
9 本报记者 刘晓林;为了一个共同目标[N];人民日报海外版;2003年
10 主持人 本报记者 刘小萃 做客嘉宾 陕西省汉中市南郑县农村信用联社理事长 徐少科;把好“贷款五级分类”主动脉[N];中华合作时报;2006年
中国博士学位论文全文数据库 前10条
1 张丽娟;微阵列基因表达数据分类问题中的属性选择技术研究[D];国防科学技术大学;2008年
2 陈元;基于分类模型的知识发现过程研究[D];国防科学技术大学;2002年
3 王建会;中文信息处理中若干关键技术的研究[D];复旦大学;2004年
4 陈景年;选择性贝叶斯分类算法研究[D];北京交通大学;2008年
5 王琪;软件质量预测模型中的若干关键问题研究[D];上海交通大学;2007年
6 刘光远;基于数据挖掘的移动通信用户流失研究[D];吉林大学;2007年
7 夏国恩;基于商务智能的客户流失预测模型与算法研究[D];西南交通大学;2007年
8 卢志永;基于copula及随机梯度Boosting的机械行业利税风险分析[D];天津大学;2007年
9 张静;基于粗糙集理论的数据挖掘算法研究[D];西北工业大学;2006年
10 王涛;数据流挖掘分类方法关键技术研究[D];国防科学技术大学;2007年
中国硕士学位论文全文数据库 前10条
1 王峻;朴素贝叶斯分类模型的研究与应用[D];合肥工业大学;2006年
2 杨秋洁;基于IV属性选择的随机森林模型研究[D];合肥工业大学;2010年
3 刘辉;数据挖掘中约简技术与属性选择算法的研究[D];吉林大学;2006年
4 文专;基于神经网络的分类数据挖掘属性选择和规则抽取研究[D];天津大学;2004年
5 董雪;基于IG_NN双层属性选择的客户流失预警研究[D];天津财经大学;2010年
6 张祖礼;网格计算中带有资源属性选择的任务调度的设计与实现[D];哈尔滨工业大学;2010年
7 王荣;分类技术及其在客户关系管理中的应用[D];浙江大学;2006年
8 陈作清;基于系方法的违约相关性度量研究[D];华中科技大学;2004年
9 朱小蕾;基于AFS模糊逻辑和属性选择的分类问题研究[D];大连海事大学;2009年
10 耿爱香;离散型次序统计量的相关性[D];大连理工大学;2009年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026