基于强化学习的机器人行为学习
【摘要】:随着机器人技术的不断发展,机器人导航技术应用的领域和范围也在不断扩大,因此,移动机器人导航技术的研究成为国内外学术界研究的重要课题。由于移动机器人所处的环境是未知的,所以机器人导航存在很强的不确定性。本文主要针对移动机器人导航方法和传感器的设计等技术展开分析和研究,目的是为了使移动机器人能够快速有效的完成导航任务。
深入研究了二型模糊系统理论并将其应用到机器人导航中,利用二型模糊系统实现机器人小车避障并接近目标的导航行为。通过仿真实验对比表明,相对于传统的一型模糊系统,二型模糊系统具有更强的模糊性,可以通过专家知识有效的解决机器人导航中的环境不确定性问题以及导航的动态性问题。但二型模糊系统中的模糊规则由专家知识主观定义而成,故仍存在一定的局限性。
在对二型模糊系统分析的基础上,提出了一种将二型模糊系统和强化学习相结合的方法,利用二型模糊系统解决强化学习中的状态空间到动作空间的映射问题;同时利用强化学习的方法来建立模糊规则,把状态空间作为输入变量,通过模糊规则得到相应的后件输出,也就是动作空间。利用学习的方法来建立更完善的规则库,进而得到更加完善的系统。此方法不但提高了强化学习算法的收敛速度和对环境的适应能力,同时也提高了反应式机器人的性能和学习效率。
最后,将结合的算法应用到具体的移动机器人导航中。通过建立仿真实验平台,证明该方法能够利用了二型模糊系统隶属度区间更加精确地描述模糊信息,相对较少的模糊规则就可以实现强化学习的学习过程,具有更好的有效性和精确性,这样机器人可以快速有效的完成未知情况下的导航任务。