收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于特征选择的多变量数据分析方法及其在谱学研究中的应用

张明锦  
【摘要】:特征选择是多变量数据分析中一个重要的研究方面,通过特征选择可以剔除无关、冗余的信息,降低数据维数及算法的复杂度,提高模型的推广能力及可理解性,因而在数据分析中起着很重要的作用。 本文以蛋白质组学质谱数据以及近红外光谱数据为研究对象,进行了高维数据特征变量选择方法的研究。对蛋白质组学质谱数据的分析目的是进行潜在生物标记物的探寻及疾病和健康样本的模式识别;对近红外光谱数据的研究目的是通过变量筛选消除数据共线性的影响,从而建立稳定、高效的多元校正模型。 本文研究工作主要包括以下几个方面: (1)提出了一种基于非相关线性判别分析的演进式特征选择方法,该方法包括数据降噪及标准化、数据分箱及箱变量筛选、箱数据处理、非相关线性判别分析用于特征筛选及样本分类等四个步骤。通过对卵巢癌血清样本SELDI-TOF质谱数据的分析筛选得到了可用于识别卵巢癌样本的潜在生物标记物,并建立了分类模型,得到了100%的灵敏度和特异性。 (2)提出了一种独立成分分析结合非相关线性判别分析的特征选择方法。该方法包括三个步骤:1)独立成分分解;2)非参数统计检验用于判别独立成分的选择;3)非相关线性判别分析用于潜在生物标记物的筛选及分类模型的建立。用本方法对一组结肠癌数据集和一组卵巢癌数据集分别进行了分析,最终筛选出的特征所建立的分类模型在两组数据上的灵敏度均为100%,特异性分别为100%和96.77%。 (3)建立了一种基于F-score与偏最小二乘—判别分析的特征选择方法,首先通过预处理,提取出质谱信号中的峰值,然后按F-score值大小对变量的可分类性排序,最后以PLS-DA逐步有放回地筛选出潜在的生物标记物。对结肠癌和卵巢癌数据集进行了分析,最终得到的特异性分别为100%和96.77%,灵敏度分别为95.24%和100%。 (4)提出了一种基于蒙特卡罗采样技术的递归偏最小二乘方法,该方法采用蒙特卡罗采样技术建立多个数据子集,并利用PLS分别对每个子集多次建模,以回归系数为变量筛选依据选出多个优变量子集,通过统计分析确定最终的最佳变量集。用此方法对几个不同的近红外光谱数据集进行分析,并与不同方法进行了比较,结果表明该方法可有效地进行近红外光谱的变量筛选。 (5)提出了一种基于光谱纯度值的变量选择方法,用于近红外光谱定量建模中的波长选择。对光谱中各变量计算其纯度值后,按降序将相应变量排列,采用PLS交互检验通过依次考察变量对模型的贡献逐步选择最佳变量。用此方法对几个不同的近红外光谱数据集进行变量筛选,结果表明此方法简单、有效。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 陈华豪;;介绍判别分析——一种多元分析工具[J];林业勘查设计;1981年04期
2 孙尚辉;欧永章;;坐骨大切迹的测量与性别判别分析[J];右江民族医学院学报;1985年02期
3 郑晓瑛;Fisher′s判别分析在性别鉴定中的应用[J];北京大学学报(自然科学版);1992年02期
4 马庆国,王卫红,陈健,黄冠云,戴和忠;神经网络在税务稽查选案中的应用研究[J];数量经济技术经济研究;2002年08期
5 邵长国,陈涌,李斌;判别分析在沉积相研究中的应用[J];断块油气田;2003年06期
6 谭鲜明;张润楚;;高维数据判别分析中的特征选择[J];数学物理学报;2006年05期
7 徐晓燕;王昱;张斌;;一种集成logistic回归与支持向量机的判别分析规则[J];系统工程理论与实践;2007年04期
8 方磊;;论信用评分在我国个人房贷违约分析中的应用[J];现代商贸工业;2009年03期
9 王国富;张庆丰;;Logistic回归在判别分析中的新用法[J];安阳工学院学报;2009年06期
10 杨川德;;利用判别分析予报河流春汛(以伊犁河四月份流量为例)[J];干旱区地理;1979年02期
11 刁登才;;判别分析在姚安褐煤盆地煤层对比中的应用[J];云南地质;1982年01期
12 王令红;香港地区现代人头骨的研究——性别和地区类型的判别分析[J];人类学学报;1989年03期
13 R.E.Whitehead ,赵琼 ,李向东;金勘探中有关CO_2/CaO和砷的判别分析[J];黄金地质;1989年04期
14 李德源,杨华龙;港口装卸机械的综合评价[J];大连海事大学学报;1993年04期
15 吕纯濂,陈舜华,H.Mathes,P.Zollner;逐步Logistic判别分析[J];数理统计与应用概率;1994年04期
16 韩天锡;信息集成方法选择变量与判别分析的应用[J];天津科技大学学报;2004年04期
17 王友谊,曹宪双,李林山,于林辉;数学地质在矿山研究中的应用——判别分析归类矿体属性实例[J];吉林地质;2005年02期
18 李国凤;吴惠明;张明亮;;基于判别分析方法的上市公司财务危机预警研究[J];科技信息(学术研究);2007年21期
19 王元军;;基于判别分析的泥鳅和大鳞副泥鳅识别[J];安徽农业科学;2008年02期
20 李诗鸿;;处理有序数据的判别方法及应用实例[J];科技风;2010年19期
中国重要会议论文全文数据库 前10条
1 康乐;;用判别分析对广东连南铜铅矿床的预测[A];中国地质科学院宜昌地质矿产研究所文集(9)[C];1985年
2 刘达博;牛东红;姜志勇;李家乐;;缢蛏7群体的形态差异与判别分析[A];中国动物学会、中国海洋湖沼学会贝类学会分会第十四次学会研讨会论文摘要汇编[C];2009年
3 刘达博;牛东红;姜志勇;李家乐;;缢蛏7群体的形态差异与判别分析[A];2010年中国水产学会学术年会论文摘要集[C];2011年
4 张阔;李桂华;李燕飞;;基于判别分析和逻辑斯谛回归的消费者寿险购买行为预测[A];全国教育与心理统计与测量学术年会暨第八届海峡两岸心理与教育测验学术研讨会论文摘要集[C];2008年
5 翁欣欣;尹利辉;杨永健;张中湖;陆峰;;一种基于便携式拉曼光谱仪的假药判别分析方法研究[A];科学仪器服务民生学术大会论文集[C];2011年
6 陈献跃;;根据人体的手部数据推断性别的研究[A];2003中国现场统计研究会第十一届学术年会论文集(上)[C];2003年
7 王帆;鲁清仿;武恒光;;事务所行业专长衡量方法的实证研究:基于判别分析[A];中国会计学会审计专业委员会2010年学术年会论文集[C];2010年
8 杨印生;毕传文;于薇;;DEA-DA判别分析方法在期货市场评价中的应用[A];2003中国现场统计研究会第十一届学术年会论文集(上)[C];2003年
9 林晓娜;赵广英;;智舌——SIMCA法判别分析不同霉菌的研究[A];中国畜牧兽医学会2009学术年会论文集(下册)[C];2009年
10 李娜;曾向阳;;目标识别中的样本选择和特征选择联合算法研究[A];2009年西安-上海声学学术会议论文集[C];2009年
中国博士学位论文全文数据库 前10条
1 张明锦;基于特征选择的多变量数据分析方法及其在谱学研究中的应用[D];华东理工大学;2011年
2 韦娜;基于内容图像检索关键技术研究[D];西北大学;2006年
3 吕铁军;通信信号调制识别研究[D];电子科技大学;2000年
4 燕忠;基于蚁群优化算法的若干问题的研究[D];东南大学;2005年
5 张颖;基于群集智能模式识别方法的研究[D];大连理工大学;2008年
6 陈晓云;文本挖掘若干关键技术研究[D];复旦大学;2005年
7 李勇明;尿沉渣图像自动识别算法的研究[D];重庆大学;2007年
8 刘天羽;基于特征选择技术的集成学习方法及其应用研究[D];上海大学;2007年
9 杨水山;冷轧带钢表面缺陷机器视觉自动检测技术研究[D];哈尔滨工业大学;2009年
10 杜宝军;最大顺序统计量的随机比较与判别分析[D];兰州大学;2012年
中国硕士学位论文全文数据库 前10条
1 魏文国;烟酸对矽肺纤维化的影响及机制研究[D];天津医科大学;2005年
2 刘静;我国BOT建设模式风险评估研究[D];中南大学;2005年
3 朱干江;非参数密度估计在判别分析中的应用[D];南京信息工程大学;2007年
4 苏航;基于DEA-DA模型的农业上市公司财务核心能力判别研究[D];吉林大学;2009年
5 沈志军;我国上市公司并购效率实证研究[D];暨南大学;2005年
6 陈燕燕;分类回归树及其在个人信用评估中的应用[D];中南大学;2007年
7 赵宝利;类风湿关节炎中医辨证分型的判别分析研究[D];广州中医药大学;2008年
8 张秀红;多元统计分析方法在大鼠肾病疗效分析中的应用[D];中南大学;2006年
9 王彬;短花针茅草原退化演替阶段的研究[D];内蒙古农业大学;2008年
10 郭蕾;2型糖尿病的判别分析和Logistic回归分析[D];中南大学;2007年
中国重要报纸全文数据库 前10条
1 魏兴杰;“沙尘暴归类判别分析预报模式”作用显著[N];中国气象报;2000年
2 周晓娟;TD已过分水岭[N];通信产业报;2008年
3 郭寅龙 王昊阳;建立中药质检认可体制[N];上海中医药报;2002年
4 谭家义(作者单位:农行四川巴中分行);西方商业银行信用风险评估方法的启示[N];中国城乡金融报;2005年
5 广发证券股份有限公司 何沛俐 章早立;立体空间下的全新财务危机远期预警模型[N];中国证券报;2003年
6 天相投顾 闻群王聃聃;选基金需考虑风险承受力[N];中国证券报;2007年
7 孙志伟;刘刚检查城防林建设[N];齐齐哈尔日报;2008年
8 朱乃诚;考古类型学应向定量分析方向发展[N];中国文物报;2007年
9 郑卫东;高产鹅选种方法和标准[N];中国畜牧兽医报;2007年
10 高普才;营销管理:思维创新才有行为创新[N];医药经济报;2007年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978