收藏本站
《华东理工大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

基于特征选择的多变量数据分析方法及其在谱学研究中的应用

张明锦  
【摘要】:特征选择是多变量数据分析中一个重要的研究方面,通过特征选择可以剔除无关、冗余的信息,降低数据维数及算法的复杂度,提高模型的推广能力及可理解性,因而在数据分析中起着很重要的作用。 本文以蛋白质组学质谱数据以及近红外光谱数据为研究对象,进行了高维数据特征变量选择方法的研究。对蛋白质组学质谱数据的分析目的是进行潜在生物标记物的探寻及疾病和健康样本的模式识别;对近红外光谱数据的研究目的是通过变量筛选消除数据共线性的影响,从而建立稳定、高效的多元校正模型。 本文研究工作主要包括以下几个方面: (1)提出了一种基于非相关线性判别分析的演进式特征选择方法,该方法包括数据降噪及标准化、数据分箱及箱变量筛选、箱数据处理、非相关线性判别分析用于特征筛选及样本分类等四个步骤。通过对卵巢癌血清样本SELDI-TOF质谱数据的分析筛选得到了可用于识别卵巢癌样本的潜在生物标记物,并建立了分类模型,得到了100%的灵敏度和特异性。 (2)提出了一种独立成分分析结合非相关线性判别分析的特征选择方法。该方法包括三个步骤:1)独立成分分解;2)非参数统计检验用于判别独立成分的选择;3)非相关线性判别分析用于潜在生物标记物的筛选及分类模型的建立。用本方法对一组结肠癌数据集和一组卵巢癌数据集分别进行了分析,最终筛选出的特征所建立的分类模型在两组数据上的灵敏度均为100%,特异性分别为100%和96.77%。 (3)建立了一种基于F-score与偏最小二乘—判别分析的特征选择方法,首先通过预处理,提取出质谱信号中的峰值,然后按F-score值大小对变量的可分类性排序,最后以PLS-DA逐步有放回地筛选出潜在的生物标记物。对结肠癌和卵巢癌数据集进行了分析,最终得到的特异性分别为100%和96.77%,灵敏度分别为95.24%和100%。 (4)提出了一种基于蒙特卡罗采样技术的递归偏最小二乘方法,该方法采用蒙特卡罗采样技术建立多个数据子集,并利用PLS分别对每个子集多次建模,以回归系数为变量筛选依据选出多个优变量子集,通过统计分析确定最终的最佳变量集。用此方法对几个不同的近红外光谱数据集进行分析,并与不同方法进行了比较,结果表明该方法可有效地进行近红外光谱的变量筛选。 (5)提出了一种基于光谱纯度值的变量选择方法,用于近红外光谱定量建模中的波长选择。对光谱中各变量计算其纯度值后,按降序将相应变量排列,采用PLS交互检验通过依次考察变量对模型的贡献逐步选择最佳变量。用此方法对几个不同的近红外光谱数据集进行变量筛选,结果表明此方法简单、有效。
【学位授予单位】:华东理工大学
【学位级别】:博士
【学位授予年份】:2011
【分类号】:Q51

手机知网App
【引证文献】
中国硕士学位论文全文数据库 前1条
1 马雯婷;分子光谱技术结合化学计量学方法评价人类胚胎发育潜能[D];华东理工大学;2013年
【参考文献】
中国博士学位论文全文数据库 前1条
1 张红娟;扩展独立成分分析的若干算法及其应用研究[D];大连理工大学;2008年
【共引文献】
中国期刊全文数据库 前10条
1 于彬;;基于SVM-OVA方法的多类别基因表达数据分类[J];青岛科技大学学报(自然科学版);2008年04期
2 周凡;姜洪福;王立艳;孟凡顺;;基于阵列感应测井的支持向量机流体识别方法[J];中国海洋大学学报(自然科学版);2011年S1期
3 杨林,张德,韩海洪,周楠;应用模式识别法进行水质综合分析评价的探讨[J];青海环境;1997年04期
4 杨林,王金贵;镧系元素键参数与物性的多元回归分析[J];青海师范大学学报(自然科学版);2001年01期
5 杨林,韩海洪,吴启勋;稀土元素的键参数拓扑指数及应用[J];青海师范大学学报(自然科学版);1998年03期
6 金晶;魏彪;冯鹏;唐跃林;周密;;基于支持向量机的~(252)Cf中子裂变信号时频特征分析及识别[J];强激光与粒子束;2010年10期
7 张浩然,韩正之;回归支持向量机的改进序列最小优化学习算法[J];软件学报;2003年12期
8 李建中;杨昆;高宏;骆吉洲;郭政;;考虑样本不平衡的模型无关的基因选择方法[J];软件学报;2006年07期
9 张启忠;;采用非线性核支持向量机并基于基因表达数据的基因选择和分类[J];生命科学仪器;2007年07期
10 张明锦;杜一平;;近红外光谱法测定三元混合物中氯苯的含量[J];生命科学仪器;2009年09期
中国重要会议论文全文数据库 前10条
1 周尚;杨琼;赵小辉;吕昕;贺薇;周邦智;杨季冬;;偏最小二乘-同步荧光法同时测定废水中的α-萘酚和β-萘酚[A];第六届全国环境化学大会暨环境科学仪器与分析仪器展览会摘要集[C];2011年
2 武进;尹恺;王长明;张家才;;SVDM在蔬菜病害图像分类中的应用[A];图像图形技术与应用进展——第三届图像图形技术与应用学术会议论文集[C];2008年
3 任伟;闫桂英;;利用聚类算法来研究基因选择问题[A];中国运筹学会第八届学术交流会论文集[C];2006年
4 洪伟;李青山;张克勤;邢广忠;;纤维材料红外光谱鉴别法及其进展[A];第十三届全国红外加热暨红外医学发展研讨会论文及论文摘要集[C];2011年
5 ;Final Sulfur Content Prediction Model in Hot Metal Desulphurization Process Based on IEA-SVM[A];Proceedings of the 2011 Chinese Control and Decision Conference(CCDC)[C];2011年
6 陈益定;郑树;余捷凯;;血清蛋白质指纹图谱在大肠癌早期诊断中的应用[A];第三届中国肿瘤学术大会教育论文集[C];2004年
7 张睿;陈雪;马建文;;基于递归SVM的高光谱数据特征选择算法研究[A];第八届成像光谱技术与应用研讨会暨交叉学科论坛文集[C];2010年
8 吴海云;崔传金;韩小平;左月明;;近红外光谱数据分析方法的研究进展[A];纪念中国农业工程学会成立30周年暨中国农业工程学会2009年学术年会(CSAE 2009)论文集[C];2009年
9 沈飞;廖宜涛;应义斌;;连续投影算法(SPA)在近红外光谱定量分析中的应用[A];纪念中国农业工程学会成立30周年暨中国农业工程学会2009年学术年会(CSAE 2009)论文集[C];2009年
10 李文法;段洣毅;刘悦;孙春来;;一种面向流分类的特征选择算法[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
中国博士学位论文全文数据库 前10条
1 于化龙;基于DNA微阵列数据的癌症分类技术研究[D];哈尔滨工程大学;2010年
2 王春艳;浓度参量荧光光谱油种鉴别技术研究[D];中国海洋大学;2010年
3 柏坚;非线性数学地质模型研究及在滇东南金矿成矿预测中的应用[D];中国地质大学(北京);2010年
4 章鹏;多尺度特征检测:方法和应用研究[D];中国科学技术大学;2010年
5 吕宁;基于数据驱动的故障诊断模型及算法研究[D];哈尔滨理工大学;2009年
6 包鑫;稳健回归技术及其在光谱分析中的应用[D];浙江大学;2010年
7 徐兆华;基因芯片数据统合分析方法的若干拓展[D];浙江大学;2010年
8 皋军;智能识别中的降维新方法及其应用研究[D];江南大学;2010年
9 吕青;思维进化和支持向量机理论及其在炼焦配煤优化中的应用研究[D];太原理工大学;2011年
10 杜伟;机器学习及数据挖掘在生物信息学中的应用研究[D];吉林大学;2011年
中国硕士学位论文全文数据库 前10条
1 陶丘博;化学计量学在多组分分析同时测定中的应用[D];郑州大学;2010年
2 李海燕;互信息特征选择的研究及在代谢组学中的应用[D];大连理工大学;2010年
3 严康;基于支持向量机的特征选择算法研究[D];大连理工大学;2010年
4 任伟伟;原油荧光光谱特性及分析技术研究[D];中国海洋大学;2010年
5 刘伟丽;基于粒子群算法和支持向量机的中文文本分类研究[D];河南工业大学;2010年
6 吕丹;利用近红外光谱进行羊绒与羊毛的鉴别技术研究[D];北京服装学院;2010年
7 赵丹;基于SVM分类机的DNA序列分类方法[D];南昌大学;2010年
8 吴元清;基于三维荧光光谱的水体有机污染物浓度检测方法[D];浙江大学;2011年
9 王明黔;口令认证系统的安全性研究与实现[D];昆明理工大学;2009年
10 荣正勤;甜叶菊糖甙含量近红外光谱定量预测模型的创建及应用[D];浙江大学;2011年
【同被引文献】
中国期刊全文数据库 前1条
1 张华秀;李晓宁;范伟;梁逸曾;唐玉莲;;近红外光谱结合CARS变量筛选方法用于液态奶中蛋白质与脂肪含量的测定[J];分析测试学报;2010年05期
【二级参考文献】
中国期刊全文数据库 前9条
1 李全政,高小榕,欧阳婧;胸阻抗信号中的呼吸波的去除[J];清华大学学报(自然科学版);2000年09期
2 刘琚,梅良模,何振亚;一种盲信号分离的信息理论方法[J];山东大学学报(自然科学版);1998年04期
3 虞晓,胡光锐;基于高斯混合密度函数估计的语音分离[J];上海交通大学学报;2000年01期
4 何振亚,杨绿溪,鲁子奕;非线性Infomax自组织算法的盲源分离机理[J];数据采集与处理;1998年04期
5 李泽,包雷,黄英武,孙之荣;基于基因表达谱的肿瘤分型和特征基因选取[J];生物物理学报;2002年04期
6 李金昶,赫奕,孙颜,王广,崔秀君;用反相高效液相色谱法分离和测定丁烯二酸的顺反异构体[J];分析测试学报;2000年02期
7 许宏吉;刘琚;谷波;胡慧博;;空时分组码通信中的一类ICA盲检测方案[J];通信学报;2007年06期
8 胡波,凌燮亭;Hebbian无导师学习原理的盲均衡:(Ⅰ)最小相位通道[J];通信学报;1994年05期
9 胡波,凌燮亭;Hebbian无导师学习原理的盲均衡:(Ⅱ)非最小相位通道[J];通信学报;1994年06期
【相似文献】
中国期刊全文数据库 前10条
1 陈华豪;;介绍判别分析——一种多元分析工具[J];林业勘查设计;1981年04期
2 孙尚辉;欧永章;;坐骨大切迹的测量与性别判别分析[J];右江民族医学院学报;1985年02期
3 郑晓瑛;Fisher′s判别分析在性别鉴定中的应用[J];北京大学学报(自然科学版);1992年02期
4 马庆国,王卫红,陈健,黄冠云,戴和忠;神经网络在税务稽查选案中的应用研究[J];数量经济技术经济研究;2002年08期
5 邵长国,陈涌,李斌;判别分析在沉积相研究中的应用[J];断块油气田;2003年06期
6 谭鲜明;张润楚;;高维数据判别分析中的特征选择[J];数学物理学报;2006年05期
7 徐晓燕;王昱;张斌;;一种集成logistic回归与支持向量机的判别分析规则[J];系统工程理论与实践;2007年04期
8 方磊;;论信用评分在我国个人房贷违约分析中的应用[J];现代商贸工业;2009年03期
9 王国富;张庆丰;;Logistic回归在判别分析中的新用法[J];安阳工学院学报;2009年06期
10 杨川德;;利用判别分析予报河流春汛(以伊犁河四月份流量为例)[J];干旱区地理;1979年02期
中国重要会议论文全文数据库 前10条
1 康乐;;用判别分析对广东连南铜铅矿床的预测[A];中国地质科学院宜昌地质矿产研究所文集(9)[C];1985年
2 刘达博;牛东红;姜志勇;李家乐;;缢蛏7群体的形态差异与判别分析[A];中国动物学会、中国海洋湖沼学会贝类学会分会第十四次学会研讨会论文摘要汇编[C];2009年
3 刘达博;牛东红;姜志勇;李家乐;;缢蛏7群体的形态差异与判别分析[A];2010年中国水产学会学术年会论文摘要集[C];2011年
4 张阔;李桂华;李燕飞;;基于判别分析和逻辑斯谛回归的消费者寿险购买行为预测[A];全国教育与心理统计与测量学术年会暨第八届海峡两岸心理与教育测验学术研讨会论文摘要集[C];2008年
5 翁欣欣;尹利辉;杨永健;张中湖;陆峰;;一种基于便携式拉曼光谱仪的假药判别分析方法研究[A];科学仪器服务民生学术大会论文集[C];2011年
6 陈献跃;;根据人体的手部数据推断性别的研究[A];2003中国现场统计研究会第十一届学术年会论文集(上)[C];2003年
7 王帆;鲁清仿;武恒光;;事务所行业专长衡量方法的实证研究:基于判别分析[A];中国会计学会审计专业委员会2010年学术年会论文集[C];2010年
8 杨印生;毕传文;于薇;;DEA-DA判别分析方法在期货市场评价中的应用[A];2003中国现场统计研究会第十一届学术年会论文集(上)[C];2003年
9 林晓娜;赵广英;;智舌——SIMCA法判别分析不同霉菌的研究[A];中国畜牧兽医学会2009学术年会论文集(下册)[C];2009年
10 李娜;曾向阳;;目标识别中的样本选择和特征选择联合算法研究[A];2009年西安-上海声学学术会议论文集[C];2009年
中国重要报纸全文数据库 前10条
1 魏兴杰;“沙尘暴归类判别分析预报模式”作用显著[N];中国气象报;2000年
2 周晓娟;TD已过分水岭[N];通信产业报;2008年
3 郭寅龙 王昊阳;建立中药质检认可体制[N];上海中医药报;2002年
4 谭家义(作者单位:农行四川巴中分行);西方商业银行信用风险评估方法的启示[N];中国城乡金融报;2005年
5 广发证券股份有限公司 何沛俐 章早立;立体空间下的全新财务危机远期预警模型[N];中国证券报;2003年
6 天相投顾 闻群王聃聃;选基金需考虑风险承受力[N];中国证券报;2007年
7 孙志伟;刘刚检查城防林建设[N];齐齐哈尔日报;2008年
8 朱乃诚;考古类型学应向定量分析方向发展[N];中国文物报;2007年
9 郑卫东;高产鹅选种方法和标准[N];中国畜牧兽医报;2007年
10 高普才;营销管理:思维创新才有行为创新[N];医药经济报;2007年
中国博士学位论文全文数据库 前10条
1 张明锦;基于特征选择的多变量数据分析方法及其在谱学研究中的应用[D];华东理工大学;2011年
2 韦娜;基于内容图像检索关键技术研究[D];西北大学;2006年
3 吕铁军;通信信号调制识别研究[D];电子科技大学;2000年
4 燕忠;基于蚁群优化算法的若干问题的研究[D];东南大学;2005年
5 张颖;基于群集智能模式识别方法的研究[D];大连理工大学;2008年
6 陈晓云;文本挖掘若干关键技术研究[D];复旦大学;2005年
7 李勇明;尿沉渣图像自动识别算法的研究[D];重庆大学;2007年
8 刘天羽;基于特征选择技术的集成学习方法及其应用研究[D];上海大学;2007年
9 杨水山;冷轧带钢表面缺陷机器视觉自动检测技术研究[D];哈尔滨工业大学;2009年
10 杜宝军;最大顺序统计量的随机比较与判别分析[D];兰州大学;2012年
中国硕士学位论文全文数据库 前10条
1 魏文国;烟酸对矽肺纤维化的影响及机制研究[D];天津医科大学;2005年
2 刘静;我国BOT建设模式风险评估研究[D];中南大学;2005年
3 朱干江;非参数密度估计在判别分析中的应用[D];南京信息工程大学;2007年
4 苏航;基于DEA-DA模型的农业上市公司财务核心能力判别研究[D];吉林大学;2009年
5 沈志军;我国上市公司并购效率实证研究[D];暨南大学;2005年
6 陈燕燕;分类回归树及其在个人信用评估中的应用[D];中南大学;2007年
7 赵宝利;类风湿关节炎中医辨证分型的判别分析研究[D];广州中医药大学;2008年
8 张秀红;多元统计分析方法在大鼠肾病疗效分析中的应用[D];中南大学;2006年
9 王彬;短花针茅草原退化演替阶段的研究[D];内蒙古农业大学;2008年
10 郭蕾;2型糖尿病的判别分析和Logistic回归分析[D];中南大学;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026