分层强化学习算法及其应用研究
【摘要】:
强化学习是人工智能和机器学习的一个重要研究领域。强化学习采用试错的方式与环境进行交互,根据环境对动作的评价性反馈信号改进行动方案以适应环境。强化学习具有良好的在线自适应性和对非线性系统的学习能力,因此在人工智能、机器学习和自动控制等领域中得到广泛研究和应用。但是在具有大规模状态空间或连续状态空间的任务中,强化学习也存在着学习效率低,收敛速度慢的问题。二十世纪九十年代提出的分层强化学习是提高强化学习的收敛速度的一种有效方法。而且分层强化学习的子任务策略可以复用,这一特点使得知识传递成为强化学习的当前研究热点。
本文主要研究分层强化学习以及分层强化学习的知识传递方法。研究内容包括两大部分:第一部分主要研究如何改进分层强化学习,加快算法在单个任务中的收敛速度。第二部分主要研究在状态转移概率与系统参数相关的任务中,分层强化学习如何有效获得与参数无关的知识,用知识传递加快算法在多个任务中的收敛速度。本文的主要研究工作和创新性体现在以下三个方面:
第一,提出一种基于稳定状态空间的强化学习算法,通过减少所需探索和学习的状态空间来提高强化学习的收敛速度。为获得系统局部稳定状态空间的最优策略,提出一种状态预评估准则,并且修正算法的报酬信号,保证稳定状态空间的状态能独立收敛。为将探索过程集中于稳定状态空间中,提出基于状态预评估准则和动作连续性准则的探索策略。算法的学习时间仅随局部稳定状态空间的增加呈指数增长,因此有效地缓解了强化学习的维数灾难问题。将算法用于实际系统控制时,本文发现在倒立摆系统控制任务中,强化学习存在极限环问题,算法的控制策略不稳定。提出基于平衡状态的极限环检测方法,解决强化学习的极限环问题。本文算法能获得稳定的控制策略,为分层强化学习进一步获取知识提供了基础。
第二,提出一种基于定性模型的分层Option算法和分步探索策略,解决强化学习探索策略的探索和利用问题。根据系统控制任务的特点,本文定义定性动作,并提出基于状态路径的次优定性动作判断准则。分步探索策略利用该准则首先选择次优定性动作,执行“利用”;然后从次优定性动作中选择元动作探索,在“利用”的基础上执行“探索”。这种分步探索策略不仅用层次化的方法有效地协调算法在全局和局部状态空间之间的探索和学习,而且解决了常用的分时探索策略所存在的问题。算法将知识传递和系统控制任务放在不同层次的子任务中完成,其层次化结构有利于算法抽取不同参数值的系统所具有的共同特征,为实现分层强化学习的知识传递提供了条件。
第三,提出一种基于定性模糊网络的Option算法,解决常用知识传递方法难以用于状态转移概率随系统参数变化的任务中的问题。算法建立系统的定性模型,描述不同参数值的系统所具有的共同特征,将参数相关任务转变为参数无关任务。提出一种定性模糊网络学习基于定性模型的次优策略,抽取次优策略的特征获取与参数无关的知识。在系统参数变化较大的任务中,提出基于状态路径的报酬信号动态调整定性模糊网络,使定性模糊网络经过少量学习和修正后能适用于各种新参数值的同类任务。这种基于定性模型的知识传递方法能有效地描述参数值不同的系统所具有的共同控制规律,解决常用知识传递方法的参数敏感性问题,将常用知识传递方法从参数无关任务扩展到参数相关任务中。