基于强化学习的仿人智能控制器参数在线学习与优化
【摘要】:
仿人智能控制基于特征辨识的多控制器、多控制模态结构,其控制的一个显著特点是比例(闭环)和保持(开环)模式的切换,突破了传统控制理论控制信息处理单映射的结构,妥善地解决了稳定性和准确性、快速性之间的矛盾,解决了复杂难控系统的控制可行性问题。但是,由于其多控制器和多控制模态结构,造成特征参数和控制参数众多,给控制器的设计又带来了困难。另外,系统本身因为周围环境的改变而改变或者不确定因素的存在使得控制参数不能在这个运行过程中一成不变,必须要对参数进行实时校正,才能直接用于实际系统。因为对于本论文的研究对象在使用仿人智能控制的同时引入在线参数学习与优化的方法,对于实现快速高品质的实时控制显得十分重要。
参数的在线学习与优化在控制中起着重要的作用,其在线学习与离线学习参数的最大区别是在线学习参数可以适应动态环境,而离线学习参数则只适于静态或简单的环境。在线参数的方法包括:模拟退火算法(SA)、粒子群算法(PSO)、单纯形法和强化学习方法等等。本论文首次提出了利用强化学习在线学习优化仿人智能控制器的参数。
连续动作强化学习自动机(Continuous Action Reinforcement Learning Automata,CARLA)是强化学习中的一种,其具有在参数空间上连续取值。其算法利用连续概率密度函数(Continuous Probability Density Function,CPDF),处理每一个决策变量,通过多次迭代对参数的修正,最终将参数收敛到一个稳定值上,每一次修正的过程都取决于每次迭代后得到的强化信号值。
本文有效地实现了利用连续动作强化学习自动机在线学习具有多模态控制结构和分层递阶结构的仿人智能控制器参数。在文章的最后,选取研究对象,分别实现基于CARLA的仿人智能控制参数在线学习及基于CARLA的PID控制参数在线学习与优化。此外还分别利用遗传算法对系统参数进行寻优与CARLA参数寻优进行对比。结果显示,在不同控制器作用下,仿人智能控制明显优于PID控制;在相同控制器作用下,CARLA在线学习参数明显优于遗传算法寻优参数等其他算法。
|
|
|
|
1 |
李劲松;;新型带专家系统的仿人智能控制[J];计算机仿真;1990年03期 |
2 |
章兢;仿人智能控制与模糊控制神经网络融合技术[J];控制与决策;1999年05期 |
3 |
牛鹏辉,涂亚庆;过程控制中的仿人智能控制算法[J];计算机测量与控制;2005年10期 |
4 |
生力松;余达太;李果;姬献征;;车载天线跟踪系统的智能控制[J];计算机测量与控制;2006年02期 |
5 |
邹伟,孙瑜,周海君;纸浆浓度的仿人智能PID控制[J];中国造纸;2005年08期 |
6 |
蔡凌;韩晓;;基于仿人智能控制的恒温水(油)浴箱温度控制的研究[J];化工自动化及仪表;2011年03期 |
7 |
王培进;仿人智能推理与控制器的研究[J];计算机工程与应用;2001年14期 |
8 |
陈波,康戈文,涂铭旌;高频感应加热设备仿人智能控制及其仿真[J];四川大学学报(工程科学版);2001年02期 |
9 |
杨晓飞,陈铁军,尚海涛;基于模式识别的仿人变周期控制器及其应用[J];郑州工业大学学报;2001年04期 |
10 |
邹鲁勇;张利建;;基于BP神经网络的仿人智能控制仿真研究[J];自动化与信息工程;2006年04期 |
11 |
邓扬玉;王卫星;;智能控制技术在棒材连轧活套控制中的研究与应用[J];可编程控制器与工厂自动化;2008年04期 |
12 |
董小闵;李祖枢;余淼;廖昌荣;陈伟民;;仿人智能控制及其在磁流变半主动悬架中的应用(英文)[J];控制理论与应用;2010年02期 |
13 |
王应建;王昌银;林建亚;;电液位置伺服系统仿人智能型模糊—自适应控制[J];机械与电子;1990年06期 |
14 |
王培进;仿人智能推理与控制器模型的研究[J];计算机应用研究;2001年11期 |
15 |
王培进,刘其成;仿人智能控制中的数据挖掘[J];计算机工程与应用;2002年12期 |
16 |
王培进,范宝德;仿人智能推理与控制器的实现[J];计算机工程与应用;2002年13期 |
17 |
王武,董海鹰;基于组态软件的温度过程仿人智能控制[J];自动化与仪表;2005年06期 |
18 |
钱平;王小柘;;基于递推梯度控制的智能二级张力控制系统[J];制造业自动化;2006年02期 |
19 |
高富强;裴斌;田小果;;基于仿人智能控制的风机调速算法[J];自动化与仪器仪表;2006年04期 |
20 |
刘军;张利建;薛明;;基于遗传算法的仿人智能控制[J];青岛科技大学学报(自然科学版);2007年02期 |
|