收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

带泊松跳跃的正倒向随机最优控制理论及其应用

史敬涛  
【摘要】: 随机最优控制是现代控制理论中的重要问题。这类问题总是要求控制者在容许控制集合中最小化/最大化某个指标泛函来满足一个状态方程(随机控制系统)。取得最小值/最大值的容许控制称为最优控制,相应的状态变量和指标泛函分别称为最优轨线和值函数。众所周知,庞特里亚金(Pontryagin)的最大值原理和贝尔曼(Bellman)的动态规划原理是解决随机最优控制问题的两种主要的和最通常使用的方法。在最大值原理的表述中,给出了最优控制满足的必要条件;这一条件总是由某个哈密顿(Hamilton)函数来给出,称为最大值条件。哈密顿函数是针对系统状态变量和某些对偶变量来定义的。对偶变量满足的方程称为对偶方程,是一个或两个巴赫杜-彭(Pardoux-Peng)型的倒向随机微分方程(BSDE)。包含对偶方程、状态方程和最大值条件的系统称作广义哈密顿系统。另一方面,动态规划原理的基本思想是考虑一族不同初始时刻和初始状态的随机最优控制问题,去建立这族问题与称作哈密顿-雅各比-贝尔曼(Hamilton-Jacobi-Belman,HJB)方程的二阶偏微分方程(PDE)之间的联系。如果HJB方程可解,则我们可以通过最大化/最小化HJB方程中的广义哈密顿函数来得到最优控制,这一结果称为随机验证定理(SVT)。这两种方法已经各自独立地取得了发展;最近的文献中存在一些关于这两种方法之间关系的研究。 这篇论文旨在发展和完善随机最优控制理论,特别是带泊松(Poisson)跳跃的正倒向问题。在这类问题中,带泊松跳跃的随机微分方程(SDEP)、倒向随机微分方程(BSDEP)和正倒向随机微分方程(FBSDEP)经常出现。这类方程的解不连续,原因是这些方程中的随机干扰来自于布朗(Brown)运动和泊松随机测度。泊松随机测度是与某个跳过程联系的计数测度。具体地说,泊松随机测度度量某个不连续过程在某段时间内、跳的幅度包含于某个可测集的跳的次数。也就是说,泊松随机测度包含了某个不连续(跳)过程的所有信息:它告诉我们什么时刻跳以及跳的幅度有多大。带泊松跳跃的正倒向随机最优控制理论在工程和金融市场中有很广泛的实际应用前景。 在第二章中,我们研究跳扩散过程随机最优控制问题的最大值原理与动态规划原理之间的关系,这里系统的状态过程用SDEP来描述。首先,在温和的假设条件下,我们给出了值函数的某些基本性质并且证明了动态规划原理在跳扩散框架下仍然成立。然后我们给出了相应的广义HJB方程,它现在是一个包含广义哈密顿函数的二阶偏积分-微分方程(PIDE)。其次,在假设值函数光滑(连续可微)的条件下,我们建立了最大值原理与动态规划原理之间的关系。再次,不假设值函数光滑,利用粘性解理论,我们同样得到了最大值原理与动态规划原理之间的关系。最后,首先假设值函数光滑,我们得到了一个随机验证定理,通过它我们可以最大化广义哈密顿函数来得到最优控制。在粘性解的框架下,我们还证明了不包含值函数的任何导数的随机验证定理的另一版本。 非线性BSDE首先由Pardoux和Peng[74]引入。Duffie和Epstein[35]独立地从经济背景下同样引入了BSDE。在[35]中,他们给出了递归效用的一种随机微分表述。递归效用是标准的可加效用的推广,其当前效用不仅依赖于当前消费率而且依赖于未来的效用。El Karoui,Peng和Quenez[37]发现,递归效用过程可以用一个BSDE的解来表示。从BSDE观点,[37]还给出了递归效用的另外表述和性质。从而,随机最优控制问题,如果其指标泛函由某个BSDE的解来描述,则构成了随机递归最优控制问题。在第三章中,我们考虑一类带泊松跳跃的随机递归最优控制问题,其指标泛函由某个BSDEP的解来描述。对这一问题,应用Peng[79]中的随机后向半群的概念,Li和Peng[59]最近得到了相应的动态规划原理,并且证明了值函数是某个广义HJB方程的粘性解。我们则研究这一随机递归最优控制问题的最大值原理与动态规划原理之间的关系。为此,我们首先证明了一类带泊松跳跃的正倒向随机控制系统的局部最大值原理。并且,我们证明了加上某些凸/凹性假设条件,上述最大值原理也是充分的。我们还讨论了这一结果在金融市场中一类均值-方差投资组合选择混合一个递归效用泛函的优化问题中的应用。然后,假设值函数光滑,我们得到了相应的随机最大值原理与动态规划原理之间的关系。作为应用,我们讨论了金融市场中一类线性二次(LQ)递归投资组合优化问题。在这一例子中,利用最大值原理和动态规划原理都得到了同样的最优控制,二者的关系也得到了验证。 LQ随机最优控制问题是随机最优控制问题中最重要的例子,特别是由于其优良的结构和在工程设计中的广泛应用。在第四章中,我们研究一类带泊松跳跃的耦合正倒向LQ随机最优控制问题,在金融市场中当考虑“大户投资者”时会碰到这类最优控制问题。我们证明了存在惟一的最优控制并给出了其状态反馈形式。当所有系数是确定性的时候,利用一类广义矩阵值黎卡提(Riccati)方程系统的解,我们得到了最优控制的线性状态反馈调节器。我们还讨论了这类黎卡提方程的可解性。 系数受连续时间马尔科夫(Markov)链调节的随机微分方程(SDE)来自于金融市场中为反映更现实的随机市场环境而出现的体制转换模型。在体制转换模型中,市场参数依赖于在有限个状态之间转换的市场模式。不同的市场模式可以反映潜在的市场状态、投资者的心情以及其他经济因素。最近,博士论文[97]中引入了带马尔科夫链的BSDE,其生成元受随机干扰并且用一个连续时间马尔科夫链来描述。受一个带马尔科夫链调节的带泊松跳跃的LQ随机最优控制问题的驱使,在第五章中,我们推广[97]中的部分结果至不连续情形。也就是说,我们考虑带马尔科夫链的BSDEP。在假设生成元满足全局李普希兹(Lipschitz)条件下,利用某些推广的鞅表示定理,我们得到了其解的存在惟一性结果。我们还讨论了解过程的性质,得到了一维情形下的比较定理。 这篇论文的另一个目的是研究部分可观测的完全耦合正倒向随机最优控制问题。部分可观测的最优控制问题的最重要的特征之一是其有更实际的背景。具体地说,实际上控制者不能完全观测到系统状态,在大多数情况下只能观测到与系统状态相关的某个噪声过程。最近,很多研究兴趣已经被吸引到完全耦合的正倒向随机控制系统上来。一个原因是理论本身是有趣的并富有挑战性。另一方面,在金融市场中,当考虑“大户投资者”的投资组合优化问题时会碰到这类控制系统。这时的状态过程用完全耦合的正倒向随机微分方程(FBSDE)来描述。在第六章中,假设控制域可能非凸,利用针状变分、对偶和滤波技术,我们得到了一类部分可观测的完全耦合正倒向随机控制系统的最大值原理。为了解释理论结果,我们给了一个例子讨论部分可观测的完全耦合LQ正倒向随机最优控制问题。结合经典的滤波技术和求解线性FBSDE的技术,我们得到了可观测的最优控制。同时,我们还得到了最优轨线的滤波估计,它们由双倍维数的正倒向常微分方程(DFBODE)和若干黎卡提方程的解来给出。最后,结合前面的技术和艾克兰(Ekeland)变分原理,我们还讨论了带状态约束的问题。 论文共分六章,以下是本文结构和得到的主要结论。 第一章:介绍从第二章到第六章我们研究的问题。 第二章:建立跳扩散过程随机最优控制问题的最大值原理与动态规划原理之间的关系。我们考虑下面的随机控制系统和指标泛函 跳扩散过程的随机最优控制问题叙述如下。 问题(JD)_(s,y)。对给定(s,y)∈[0,T)×R~n,在U[s,T]中最小化(2.2),满足(2.1)。 我们的主要结果是下面的针对光滑值函数情形的定理2.4和针对非光滑值函数情形的定理2.8。 定理2.4.(关系,光滑情形)假设(H2.1)~(H2.3)成立,(s,y)∈[0, T)×R~n,给定。设(?)是问题(JD)_(s,y)的最优对,(?)是一阶对偶方程(2.19)的解。假设(?),则其中G由(2,16)定义。进一步地,如果(?)以及V_(tx)也连续,则 定理2.8. (关系,非光滑情形)假设(H2.1)~(H2.3)成立,(?)给定。设(?)满足(2.8)和(2.9)是广义HJB方程(2.15)的粘性解,(?)是问题(JD)_(s,y)的最优对,(?)和(?)分别是一阶和二阶对偶方程(2.19),(2.20)的解。则其中G由(2.54)定义。 下面的两个结果分别给出了光滑和不光滑值函数情形下的随机验证定理。 定理2.9.(随机验证定理,光滑情形)假设(H2.1)~(H2.3)成立,(?)是广义HJB方程(2.15)的解,则进一步地,如果容许对(?)满足其中G由(2.16)定义,则(?)是最优对。 定理2.10. (随机验证定理,非光滑情形)假设(H2.1),(H2.2)成立。设(?)满足(2.8)和(2.9)是广义HJB方程(2.15)的粘性解,则 (i)(2.73)成立; (ii)设(?)给定,(?)是容许对。假设存在(?),使得以及其中(?),满足(?),则(?)是最优对。 第三章:建立带泊松跳跃的随机递归最优控制问题的最大值原理与动态规划原理之间的关系。作为准备工作,我们首先考虑下面的正倒向随机控制系统和指标泛函 正倒向随机最优控制问题叙述如下。 问题(FB)_(0,T)。对给定(?),在U_(ad)中最小化(3.2),满足(3.1)。 应用经典的凸变分方法,我们首先得到了下面的局部最大值原理。 定理3.1.(局部随机最大值原理)假设(H2.1),(H2.3)’,(H3.1)和(H3.2)成立。设u(·)是问题(FB)_(0,T)的最优控制,(?)是相应的最优轨线,则其中哈密顿函数H由(3,7)定义。 进一步地,在某些附加的凸/凹性假设下,上面定理3.1中的必要条件也是充分的。 定理3.2.(最优控制的充分性条件)假设(H2.1),(H2.3)’,(H3.1)~(H3.3)成立。设u(··)是容许控制,(?)是相应的轨线,满足(?)是对偶方程(3.6)的解。假设H关于(?)凸,则u(·)是问题(FB)_(0,T)满足(3.8)的最优控制。 在上述工作的基础上,我们研究带泊松跳跃的随机递归最优控制问题的最大值原理与动态规划原理之间的关系。我们考虑下面的随机控制系统和指标泛函 随机递归最优控制问题叙述如下。 问题(R)_(s,y).对给定(?),在U[s,T]中最小化(3.31),满足(3.35)。 主要结果是下面的定理。 定理3.6.(关系,递归问题,光滑情形)假设(H2.1),(H2.3)’,(H3.1),(H3.2)成立,(?)给定。设U(·)是问题(R)_(s,y)的最优控制,(?)是相应的最优轨线,(?)是对偶方程(3.36)的解。假设值函数(?),则进一步地,如果(?)并且V_(tx)也连续,则 第四章:研究一类带泊松跳跃的耦合正倒向LQ随机最优控制问题。我们考虑下面的随机控制系统和指标泛函 LQ随机最优控制问题叙述如下。 问题(LQ)_(0,T)。对给定(?),在U_(ad)中最小化(4.6),满足(4.5)。 我们证明了存在惟一的最优控制,并给出其显式的线性状态反馈形式。 定理4.1.问题(LQ)_(0,T)存在惟一的最优控制其中(?)是相应的最优轨线。 当所有的系数矩阵是确定性的时候,利用一类广义矩阵值黎卡提方程系统的解,我们可以给出最优控制的线性状态反馈调节器。 定理4.2.假设t∈[0,T],存在矩阵(K(t),M(t),Y(t,·))满足广义矩阵值黎卡提方程系统(4.9),则问题(LQ)_(0,T)的最优线性状态反馈调节器为最优值函数为 我们讨论了这类广义矩阵值黎卡提方程系统的可解性问题。在某些特殊情形下,我们得到了下面的存在惟一性结果。 定理4.5.假设(H4.3)成立,D≡0,则广义矩阵值黎卡提方程系统(4.9)存在惟一解(?)。 第五章:研究带泊松跳跃和马尔科夫链的BSDE。首先,作为研究动机,我们讨论一类带泊松跳跃和马尔科夫链的LQ随机最优控制问题。我们考虑下面的随机控制系统和指标泛函其中(?)是一个连续时间马尔科夫链,状态空间为(?)。α的转移概率为其中q_(ij)≥0,对(?)。 带马尔科夫链的LQ随机最优控制问题叙述如下。 问题(LQMC)_(0,T)。对给定(?),在U_(ad)中最小化(5.2),满足(5.1)。 通过一个约束随机黎卡提方程的解,我们得到了最优状态反馈控制和最优值函数。 定理5.1.如果约束随机黎卡提方程(5.4)的解(?)的解存在,则问题(LQMC)_(0,T)是适定的,最优状态反馈控制为(省略某些时间变量t)进一步地,最优值函数为 我们研究下面带泊松跳跃和马尔科夫链的BSDE: 在生成元满足全局李普希兹条件的假设下,利用一些推广的鞅表示定理,我们得到了其解的存在惟一性结果。 定理5.2.(存在惟一性)假设(H5.1)成立,则BSDEP (5.8)存在惟一解(?)。 我们还讨论了解的若干性质,在一维情形下证明了比较定理。为此,设(?)是另一个马尔科夫链,状态空间(?)。β的转移概率为其中q_(jk)≥0,对(?)。 定理5.4. (比较定理)假设(?)满足(H5.2)。设过程(?)可测,满足(?)。令对(?)。 设(?),f'定义为对(?),其中(?)满足(H5.2)。 我们用(Y,Z,K(·))(相应地,(Y',Z',K'(·)))记BSDEP (5.8)对应于参数(ξ,f)(相应地,(ξ',f'))的解。如果 (iv)ξ≥ξ',a.s.; (v)对马尔科夫链α,β,成立(?),a.s.; (vi)(?)关于i∈Μ单调不减,并且(?),a.s.,a.e.,(?),则我们有如果,进一步地,我们假设P(ξξ')0,则(?)。特别地,Y(0)Y'(0)。 第六章:研究一类部分可观测的完全耦合正倒向随机最优控制问题。我们考虑下面的随机控制系统带有观测方程和指标泛函 部分可观测的随机最优控制问题叙述如下。 问题(PO)_(0,T).对给定(?),在U_(ad)中最小化(6.7),满足(6.4)和(6.5)。 我们的主要结果是下面的定理。 定理6.1.(部分可观测的随机最大值原理)假设(H6.1)~(H6.3)成立。设u(·)是问题(PO)_(0,T)部分可观测的最优控制,(?)是相应的最优轨线,Z(·)是相应的(6.6)的解。设(P(·),Q(··))是附属BSDE(6.34)的解,(p(··),q(·),k( ·))是对偶FBSDE(6.35)的解,则其中哈密顿函数H由(6.36)定义。 为了解释理论结果,我们给出了一个部分可观测的完全耦合LQ正倒向随机最优控制问题。我们考虑下面的随机控制系统和观测方程指标泛函为 部分可观测的LQ随机最优控制问题叙述如下。 问题(POLQ)_(0,T).对给定(?),在U_(ad)中最小化(6.40),满足(6.38)和(6.39). 结合经典的线性滤波理论和求解线性FBSDE的技术,我们得到了显式的满足必要条件的可观测最优控制。同时,我们得到了最优轨线的滤波估计,它们由一个双倍维数的正倒向常微分方程(DFBODE)和若干黎卡提方程的解给出。 定理6.2.(LQ情形,可观测最优控制及最优轨线的滤波估计)对问题(POLQ)_(0,T),可观测的最优控制u(·)由(6.47)给出,其中(?)是DFBODE (6.53)的解,(?)由(6.51)给出,Π(·)是黎卡提方程(6.44)的解。并且,最优轨线的滤波估计(?)分别由DFBODE(6.53)和(6.57)的解给出,其中∑(·)是黎卡提方程(6.55)的解。 最后,我们讨论带状态约束的问题。我们考虑如下的状态约束。带状态约束的部分可观测随机最优控制问题叙述如下。 问题(POC)_(0,T).对给定(?),在U_(ad)中最小化(6.7),满足(6.4),(6.5)以及状态约束(6.57)。 主要结果是下面的定理。 定理6.3.(状态约束下部分可观测的随机最大值原理)假设(H6.1)~(H6.4)成立。设u(·)是问题(POC)_(0,T)部分可观测的最优控制,(?)是最优轨线,Z(·)是相应的(6.6)的解。则存在非零三元组(?),满足(?),以及(?)分别是附属BSDE(6.60)和对偶FBSDE(6.61)的解,使得最大值条件成立,其中哈密顿函数H由(6.59)定义。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 陈关荣;线性二次型随机最优控制的样条 RT 逼近[J];数学的实践与认识;1985年03期
2 吴捷,马裕旭;采用带时滞的输入-输出模型的随机最优控制(英文)[J];控制理论与应用;1989年01期
3 朱昌杰;终时不确定的随机最优控制[J];淮北煤炭师范学院学报(自然科学版);2005年02期
4 李同安;;系杆拱桥吊杆张拉施工的随机控制理论[J];中国科技信息;2006年14期
5 李小军;;随机发展方程的最大值原理[J];Chinese Annals of Mathematics;1993年06期
6 郭文旌;固定消费模式下的最优投资组合[J];系统工程学报;2004年06期
7 吴臻,王向荣;带有随机跳跃干扰的线性二次随机最优控制问题(英文)[J];自动化学报;2003年06期
8 邹立华;赵建昌;虞庐松;;双单体组合隔震结构振动随机最优控制[J];控制理论与应用;2005年06期
9 翟玉玲;;一个Vasicek模型下的期权定价问题[J];科技信息(学术研究);2008年07期
10 丁灯;关于带跳的反射扩散过程的随机最优控制问题[J];应用数学和力学;2000年09期
11 戴晓娟;张启敏;;带Poisson跳的随机种群系统的最优控制[J];昆明理工大学学报(理工版);2009年04期
12 戴家权,王勇,冯恩民;油气资源勘探与开发的不确定性分析及最优策略[J];系统工程理论与实践;2004年01期
13 孙良,潘德惠,樊治平;具有随机收入的最优消费和证券选择问题[J];控制与决策;1998年S1期
14 叶燕程;高随祥;;缴费确定型企业年金最优投资策略研究[J];中国科学院研究生院学报;2007年02期
15 曾守桢;;基于风险规避的证券投资组合的最优策略[J];统计与决策;2008年18期
16 颜铁成;随机最优控制LQG问题中的一类可行法则[J];铁道师院学报;1995年04期
17 李小军;Lagrange方法和期权定价[J];应用概率统计;2000年04期
18 胡世培;甑立华;;风险敏感性控制在CEV模型的应用研究[J];数学的实践与认识;2010年07期
19 彭勇波;李杰;;结构地震反应性态的物理随机最优控制[J];防灾减灾工程学报;2011年05期
20 翟玉玲;;一类随机Riccati矩阵微分方程的解的存在性[J];科技信息(科学教研);2008年23期
中国重要会议论文全文数据库 前10条
1 常英;乐云祥;;随机最优控制在连续刚构桥和斜拉桥施工控制中的应用[A];二○○○年湖北省桥梁学术讨论会论文集(下册)[C];2000年
2 岳猛;么莉;刘建功;刘鲁源;;随机最优控制与自适应控制的并行结构[A];1996年中国控制会议论文集[C];1996年
3 李先波;黄国石;刘军祥;;关于投资的随机最优控制问题[A];1999中国控制与决策学术年会论文集[C];1999年
4 应祖光;朱位秋;;部分可观测非线性系统的随机最优控制[A];第七届全国非线性动力学学术会议和第九届全国非线性振动学术会议论文集[C];2004年
5 周渊;;线性随机系统的非二次最优控制[A];第25届中国控制会议论文集(上册)[C];2006年
6 顾安邦;常英;乐云祥;;大跨径预应力连续刚构桥施工控制的理论和方法[A];中国公路学会桥梁和结构工程学会一九九九年桥梁学术讨论会论文集[C];1999年
7 朱位秋;;拟哈密顿系统非线性随机最优控制研究的若干进展[A];第八届全国动力学与控制学术会议论文集[C];2008年
8 刘海龙;郑春;付涛;;基于随机控制的证券投资决策方法[A];1999中国控制与决策学术年会论文集[C];1999年
9 徐明;徐世杰;;Halo轨道转移及中途修正问题研究[A];全国第十二届空间及运动体控制技术学术会议论文集[C];2006年
10 应祖光;王永;朱位秋;;Preisach滞迟系统的随机平均与最优控制[A];第八届全国动力学与控制学术会议论文集[C];2008年
中国博士学位论文全文数据库 前10条
1 张峰;正倒向系统相关的偏微分方程与随机最优控制问题[D];山东大学;2009年
2 冯驹;拟哈密顿系统非线性随机最优控制的若干问题研究[D];浙江大学;2011年
3 王维峰;随机最优控制问题必要条件及其相关问题的研究[D];华中科技大学;2013年
4 罗银淼;基于随机平均法的非线性系统随机响应与最优控制的试验和应用研究[D];浙江大学;2011年
5 胡昉;含分数阶导数阻尼的随机系统的随机分岔与分数阶随机最优控制[D];浙江大学;2013年
6 王维峰;随机最优控制问题必要条件及其相关问题的研究[D];华中科技大学;2013年
7 史敬涛;带泊松跳跃的正倒向随机最优控制理论及其应用[D];山东大学;2009年
8 陈虹丽;基于π型舵船舶纵向多变量随机控制方法研究[D];哈尔滨工程大学;2004年
9 宦荣华;计及执行器饱和的拟哈密顿系统的非线性随机最优控制[D];浙江大学;2007年
10 葛根;矩形薄板振动的随机分岔和可靠性研究[D];天津大学;2009年
中国硕士学位论文全文数据库 前10条
1 孙子龙;带终端限制的一类随机最优控制问题的最大值原理[D];山东大学;2010年
2 蔡立刚;伴有状态矩方程的随机最优控制变分方法及其应用[D];东北大学;2008年
3 王汀;带约束的非线性时滞随机最优控制系统[D];华东理工大学;2014年
4 邓丽红;连续时间证券投资组合[D];天津大学;2003年
5 董雷;非线性系统应用MR阻尼器的半主动随机最优控制[D];浙江大学;2004年
6 滕飞;带终端约束的部分信息随机最优控制问题的最大值原理及应用[D];山东大学;2011年
7 杨金波;网络控制系统的时延补偿算法研究[D];哈尔滨工业大学;2006年
8 李雪;偏微分方程随机最优控制问题的应用研究[D];天津大学;2007年
9 代晓燕;最优投资消费模型及其数值方法的研究[D];中国石油大学;2009年
10 朱岚;线性随机系统的最优反馈控制及拟Riccati方程的解[D];复旦大学;2007年
中国重要报纸全文数据库 前1条
1 本报记者 张兴华;彭实戈:中国金融数学第一人[N];中国教育报;2009年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978