关于模型稀疏性的研究
【摘要】:随科学技术的发展,人们在生产生活中收集了大量的复杂数据。在针对这些数据进行统计分析的过程中,构建一个简单高效的模型至关重要。一个简单的稀疏模型不仅具有很好的解释性,常常也具有很高的性能。本文的主要工作就是对一些统计模型做了稀疏性研究。
现今,针对线性模型的稀疏性研究已经很成熟。因此我们首先概述了线性模型的稀疏性方法。针对多变量回归模型的稀疏性研究也有很多,然而这些研究大多只是针对预测变量的稀疏性,关于多维响应变量的稀疏性研究并不多见。在本文的第二章,我们针对多变量线性回归的稀疏性做了一些研究,这里的稀疏性不仅仅针对预测变量,同时也针对多维的响应变量。我们首先研究了多变量线性回归和典型相关分析的关系,然后通过研究典型载荷的稀疏性来研究多变量线性回归模型的稀疏性。理论结果表明我们的方法具有选择相合性。大量的数值模拟研究也佐证了我们的理论结果。
有监督分类学习在现实世界的诸多领域中都有大量的应有,这些领域包括医学诊断、手写体识别、网页数据挖掘、文本分类,等等。迄今大量的有监督分类方法已被提出,这些方法包括线性(二次)判别分析,逻辑斯蒂回归,最近邻方法,朴素贝叶斯分类器,支持向量机(SVM),等等。在这些分类方法中,朴素贝叶斯分类器由于其计算简单,性能优越等优点被广泛应用。然而据我们所知,迄今关于超高维朴素贝叶斯分类器的统计显著性研究并没有得到很好的研究。在本文的第三章,我们针对超高维朴素贝叶斯分类器,提出了一个全新的统计量来研究它的统计显著性,理论结果保证我们所提统计量的渐近正态性。同时我们的数值模拟研究也佐证了我们的理论发现,此外我们还尝试了利用我们所提的检验统计量通过假设检验的方法对朴素贝叶斯分类器进行变量选择,从而可以得到一个稀疏的朴素贝叶斯分类器,在保证分类精度的同时,使分类器更加具有解释性。
很多数据分析的统计方法都需要一个好的协方差矩阵或协方差逆阵的估计。这些方法包括:线性(二次)判别分析,主成分分析,典型相关分析,高斯图模型,等等。传统上,用样本协方差阵估计协方差矩阵是一个不错的选择。然而随着科学技术的发展,人们在科学和实际应用领域针对每个个体可以收集很多指标变量,然而样本量却由于许多实际的原因不能很大。在这种情形下,变量的维数通常远远大于样本量,因此样本协方差矩阵不再是正定的,然而正定性在大部分多变量统计分析方法中是被要求的。所以,在这种高维情形下,非常有必要对协方差矩阵或者其逆阵寻求一个好的估计。在本文的第四章,我们提出了一种新颖的假设检验方法来确定协方差逆阵的阶数。理论结果表明我们所提出的检验统计量在原假设下是渐近标准正态的,而且数值模拟结果能够很好的佐证我们的理论发现。模拟结果同样表明我们的方法在大部分情形下能够很好的估计出协方差逆阵的阶数。