收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于copula理论的分布估计算法研究

王丽芳  
【摘要】:分布估计算法综合了智能计算领域和统计学领域的知识,是一种基于群体的算法,在每代循环体中,根据适应值选择出一些较好的个体组成优势群体,通过分析优势群体的概率分布模型来指导新一代群体的产生。多变量相关的分布估计算法是目前研究的热点,为反映变量的相关性,往往采用贝叶斯网络、高斯网络或马尔科夫网络等结构。但是,这些网络结构的学习本身要花费大量的时间,因此,目前的分布估计算法多数运行时间花费在对优势群体概率分布模型的估计操作上。有些分布估计算法假设变量服从联合正态分布,通过估计数学期望和协方差矩阵获得具体的概率分布模型。但是由于正态分布本身具有对称性等特点,不能准确地反映实际优化问题中变量的相关性。而且,由方差和协方差计算得到的相关系数也仅仅能够反映变量之间的线性相关性。因此,基于联合正态分布的分布估计算法优化效果一般。 在统计学领域中,copula理论将多变量的联合分布函数分解成为两个部分:一是各个变量的一维边缘分布函数,二是反映这些变量相关结构的copula函数。copula函数摈弃了边缘分布的干扰,而对变量的相关性单独进行研究。这里的相关性更全面,而不仅仅是线性相关性。学者们通过对大量现实数据的分析总结出了一些典型的copula函数,并对其性质进行了深入的研究。 本文提出了基于copula理论的分布估计算法,在估计优势群体的概率分布模型时,将边缘分布函数的估计操作和copula函数的估计操作分别进行,实际上这两个操作是可以独立地并行实现的。边缘分布函数的估计和copula函数的估计要比复杂网络结构的学习简单省时的多。在这一思想下,本文主要完成了以下工作: (1)通过分析分布估计算法和copula理论,给出了基于copula理论的分布估计算法的总体框架和实现步骤,并证明了该算法的全局收敛性。在模型估计阶段,分两个部分分别进行:估计各个变量的边缘分布函数;估计copula函数。在估计copula函数时,一般是选择一个带参数的copula函数,然后根据优势群体对其参数进行估计;或者是根据优势群体直接构造copula函数,如经验copula函数。在模型采样阶段,主要是对copula函数的采样。根据copula函数采样得到服从该分布的单位超立方体上的向量,然后根据边缘分布函数的反函数计算得出搜索空间中的点作为新个体。理论上证明了在群体规模无限的情况下,copula分布估计算法收敛于全局最优解。 (2)在copula分布估计算法框架下分别用二维正态copula函数和两个二维阿基米德copula函数表示变量的相关性,针对二维数值优化问题,实现了三种具体的copula分布估计算法,在理论和实验上验证了copula分布估计算法的可行性和有效性。另外,实验结果表明阿基米德copula分布估计算法优于正态copula分布估计算法。 (3)针对多维的数值优化问题,提出了经验copula分布估计算法。在估计模型时,将单位超立方体等分成若干个小区间,统计优势群体中落入各个小区间的个体数,构造经验copula函数,并以此采样。边缘分布可以是任何形式的分布,在本文中研究了正态分布和经验分布两种情况。在该算法中,经验copula函数不需要显式表示出来,而是根据其构造方式直接推出了经验copula函数的采样方式,因此在算法具体实现时,只需要统计个体数并直接采样就可以。实验结果表明,经验copula分布估计算法能够有效地解决多维数值优化问题,其全局探测能力较强,能够很快地找到全局最优解附近。 (4)针对多维的数值优化问题,提出了阿基米德copula分布估计算法。用阿基米德copula函数反映优化变量之间的相关性,具体实现了Clayton copula EDA、Gumbel copula EDA和Frank copula EDA,在适应值计算次数相同的条件下,这些阿基米德copula分布估计算法的优化效果优于典型的分布估计算法。 (5)针对阿基米德copula分布估计算法的参数和采样方法进行了研究。提出了两种参数的估计方法:PMLE估计和根据Kendallτ估计。分别针对小种群低维数、小种群高维数、大种群低维数和大种群高维数四种情况分析了参数估计对阿基米德copula分布估计算法的影响,并与典型的分布估计算法进行了比较,表明无论在收敛速度还是收敛精度方面,具有参数估计的阿基米德copula EDA都优于典型的分布估计算法。另外,根据Kendallτ估计参数的阿基米德copula EDA比PMLE估计参数的阿基米德copula EDA更简单有效。由于copula函数本身也可以看作是随机变量,因此可以直接估计其服从的密度函数,并从中采样。对该采样方法在阿基米德copula分布估计算法中的作用进行了研究,表明该采样方法更准确有效。 (6)将copula分布估计算法用于数字图像矢量量化的研究中。根据码书中的各码字将训练矢量分成若干个子群体,在每个子群体中按copula分布估计算法产生新码字。对标准测试图像的仿真实验表明,该算法比LBG等算法性能更好。


知网文化
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978