收藏本站
《南京信息工程大学》 2019年
收藏 | 手机打开
二维码
手机客户端打开本文

超高维判别分析数据的特征筛选方法研究

沈宝华  
【摘要】:随着当代科学研究和技术发展的深入推进,超高维数据早已渗透到现代社会的各个领域当中.这一现状对统计学家而言既是机遇也挑战,一方面能够以低成本获取海量数据,另一方面传统的统计分析方法会因计算成本高、效率低下而不再适用.考虑到在超高维数据中仅有少数协变量与响应变量相关(稀疏性假设),统计学家开始关注并探索能够快速降低维数的特征筛选方法,试图先将数据的维度降到一般高维情形,再利用传统方法进行研究分析.而超高维判别分析数据作为超高维研究中的一个重要分支,在生物信息学、蛋白质组学、人脸识别、大脑图像、机器学习、社交网络分析等领域中都会有所涉及.因而,对超高维判别分析数据的特征筛选方法研究也显得尤为重要.本文从三个不同的角度,给出了针对超高维判别分析数据的特征筛选方法.首先,本文从条件分布的角度出发,构建了特征筛选指标(MS),用来处理超高维多分类数据.与现有的一系列筛选方法相比较,MS筛选方法具有以下优点.第一,不需要特定的模型假定.第二,当协变量服从重尾分布时,该指标具有较好的稳健性.第三,在相关条件的支撑下,所提出的特征筛选方法满足确定筛选性质和指标排序相合性,同时数值模拟和实例分析也进一步验证了方法的有效性.其次,本文注意到在给定类别下,倘若协变量的条件期望与无条件期望之间存在很大差异时,则认为该协变量能够影响分类结果.基于这一发现,本文利用条件方差与无条件方差的比值,提出了方差比确定独立筛选方法(VR-SIS).该方法可以直接应用于多类别情况,并且能够同时筛选出主效应和交互效应.另外,由于结构简单,计算成本也相对低廉,该方法在实际中可得到广泛的应用.本文通过蒙特卡罗模拟研究和两个实际数据分析来说明该方法适用于判别分类的有效性.最后,为研究各个协变量与响应变量之间的边际关系,本文通过考虑不同类别下协变量数值的差异来度量协变量对分类的贡献程度,若两者之间差异越大,则表明该协变量对分类影响越大.在此基础上本文构建了两分类下的无模型的Mann-Whitney特征筛选框架(MWS).进一步地,本文给出了多分类情形下的特征筛选指标.不难发现,提出的筛选方法具有模型自由的特点,而且由于协变量具有单调递增变换的不变性,该方法还可以用于研究响应变量与协变量之间的非线性关系.不容忽略的是,该方法对重尾分布具有很好的稳健性.此外,在不附加次指数尾部概率的条件下,本文建立了该方法的三种理论性质:确定筛选性质、指标排序相合性和控制错误率.本文还进行了数值模拟和实例分析,以评估筛选程序的有效性.
【学位授予单位】:

知网文化
【相似文献】
中国期刊全文数据库 前20条
1 童恒庆,林卉;使用评估模型的判别分析[J];统计与决策;2003年04期
2 石军,薄辉,李志方;Fisher判别分析在新生儿缺氧缺血性脑病中的应用[J];实用儿科临床杂志;1998年06期
3 李凤岐;苏育嵩;范立群;;南海北部海区水团的判别分析[J];海洋湖沼通报;1987年03期
4 皮永浩;俞东郁;金东洙;郭济兴;;髋骨性别的多元分析研究 Ⅲ.残骸的复原与判别分析[J];延边医学院学报;1987年04期
5 陈森;;应用贝叶斯准则进行判别分析树木生长和气候因素的适应性[J];中南林业调查规划;1987年02期
6 杨茂有,刘武,邰凤久;下颌骨的性别判别分析研究[J];人类学学报;1988年04期
7 孙洪元,张其吉;判别分析在心脏功能分级中的应用[J];数学的实践与认识;1988年01期
8 陶可圣,朱振岗,张尤恩;多类判别分析在大气污染临界警报中的应用[J];哈尔滨医科大学学报;1988年S1期
9 张殿卿;;关于学生体质等级的灰色判别分析[J];贵州体育科技;1988年02期
10 连洪寿;李玉林;陈翼胜;;硅特兰结构毒性关系的判别分析研究[J];计算机与应用化学;1988年01期
11 王令红;香港地区现代人头骨的研究——性别和地区类型的判别分析[J];人类学学报;1989年03期
12 刘武;上肢长骨的性别判别分析研究[J];人类学学报;1989年03期
13 汪炳祥;判别分析在海浪分类中的应用[J];青岛海洋大学学报;1989年04期
14 李凤岐,苏育嵩,范立群;南海北部海区水团的判别分析[J];青岛海洋大学学报;1989年S1期
15 董玉库,赵春瑞;木材物理力学性质的综合分析(Ⅲ)——聚类分析、判别分析[J];东北林业大学学报;1989年06期
16 张殿卿;;关于学生体质等级的灰色判别分析[J];学校卫生;1989年05期
17 余金生;邓颂平;;罗吉斯蒂判别分析的稳健性[J];物探化探计算技术;1989年02期
18 郑良春;;最大迹判别分析及其在识别油气异常中的应用[J];石油地球物理勘探;1989年04期
19 姚棣荣 ,李麦村;论离散判别分析(一)[J];杭州大学学报(自然科学版);1980年02期
20 姚棣荣 ,李麦村;论离散判别分析(二)[J];杭州大学学报(自然科学版);1980年03期
中国重要会议论文全文数据库 前10条
1 卞志国;金立左;费树岷;;基于增量判别分析的特征融合与视觉目标跟踪[A];2009年中国智能自动化会议论文集(第三分册)[C];2009年
2 周晓斌;崔宝同;;应用判别分析模型对上市企业进行财务预警[A];2007中国控制与决策学术年会论文集[C];2007年
3 刘张聚;张进;;利用Fisher判别分析进行油气预测[A];国家安全地球物理丛书(十三)——军民融合与地球物理[C];2017年
4 谷丽颖;姜达维;赵从英;;应用SAS软件实现学龄前儿童超重与肥胖的判别分析[A];第八届全国体育科学大会论文摘要汇编(二)[C];2007年
5 徐炜新;;判别分析与材料研究[A];2007中国钢铁年会论文集[C];2007年
6 朱宁;徐标;李建军;;学生成绩判别分析预测模型[A];第八届中国青年运筹信息管理学者大会论文集[C];2006年
7 李洪东;梁逸曾;;不平衡数据判别分析中决策值优化的模拟研究[A];中国化学会第26届学术年会化学信息学与化学计量学分会场论文集[C];2008年
8 宋宏伟;赵梅兰;刘晓晔;;上颌前牙的性别判别分析[A];全国第六次法医学术交流会论文摘要集[C];2000年
9 康乐;;用判别分析对广东连南铜铅矿床的预测[A];中国地质科学院宜昌地质矿产研究所文集(9)[C];1985年
10 张阔;刘启辉;;判别分析在组织人才测评选拔中的应用[A];第十届全国心理学学术大会论文摘要集[C];2005年
中国重要报纸全文数据库 前1条
1 魏兴杰;“沙尘暴归类判别分析预报模式”作用显著[N];中国气象报;2000年
中国博士学位论文全文数据库 前10条
1 张艳丽;高维数据下的判别分析及模型选择方法[D];山东大学;2015年
2 周民志;基于多因素多变量判别分析的中小石化企业信用评价研究[D];中国石油大学;2008年
3 王锐;税收不遵从的识别研究[D];浙江大学;2003年
4 孔令洋;城市轨道交通系统型式选择研究[D];北京交通大学;2009年
5 陈暮紫;我国不良贷款违约损失率计量模型研究[D];中国科学技术大学;2010年
6 范华;手指末端生物光子辐射与肺气虚证、痰热壅肺证的相关性研究[D];山东中医药大学;2016年
7 杜宝军;最大顺序统计量的随机比较与判别分析[D];兰州大学;2012年
8 陈子锦;若干风险问题分析[D];中国科学技术大学;2008年
9 吴飞珍;基因芯片数据的聚类功能评价算法和判别分析算法研究[D];上海大学;2009年
10 王一惟;初诊前列腺癌骨转移判别分析模型的建立和验证[D];复旦大学;2014年
中国硕士学位论文全文数据库 前10条
1 沈宝华;超高维判别分析数据的特征筛选方法研究[D];南京信息工程大学;2019年
2 万昭稳;基于关联分析和判别分析的食品网购订单的研究[D];华中师范大学;2019年
3 马俊婷;两类一般总体的高维判别分析[D];东北师范大学;2019年
4 赵雯雯;特征退火方法下的高维多总体判别分析[D];东北师范大学;2019年
5 黄雅楠;基于距离的三角模糊数及区间数Fisher判别分析模型和算法研究[D];宁夏大学;2018年
6 冯其帅;基于半监督判别分析的迁移学习算法研究[D];哈尔滨理工大学;2018年
7 王瑞璇;基于局部线性嵌入和指数判别分析的故障诊断方法研究[D];北京化工大学;2018年
8 王玥;基于相对判别分析的工业过程故障诊断算法研究[D];浙江大学;2018年
9 贾云青;基于判别分析的医疗数据处理研究[D];中南大学;2010年
10 鄢红;模糊判别分析在妊高征预测中的应用研究[D];东北师范大学;2007年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978