收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

多Agent协同的强化学习方法研究

尹晓虎  
【摘要】:强化学习,因其不需要环境模型、通过Agent和所在环境的自主交互进行学习的特点,现已成为多Agent系统和机器学习领域的研究热点。多Agent系统常被应用于开放、复杂、动态变化的环境,单个Agent的能力已不能胜任所面临的任务,尤其是具有相同目标的系统,Agent之间必须协同求解。同时,Agent还必须具备学习能力以适应环境的动态变化。但传统的单Agent学习原理并不适用于多Agent环境,因此亟待根据多Agent系统的协同性,提出新的学习方法。 Pursuit game问题常用于来测试人工智能领域的学习算法,本文就此问题提出了两种多Agent协同强化学习方法:基于目标分解的方法和最优行为策略学习方法。 博弈论反映了个人或组织之间的社会关系,将博弈论应用到多Agent系统以研究Agent之间的相互关系是合适的。本文正是基于这一点,将马尔可夫博弈与强化学习结合起来,对多Agent的协同博弈强化学习方法进行了初探。 文章首先介绍了Agent和多Agent系统、以及多Agent学习的一些基本概念,然后介绍了强化学习的基本原理以及几个常用的强化学习算法。在对pursuit game问题进行初步分析的基础上,提出了基于目标分解的强化学习方法。但基于目标分解的方法有可能学习到的是局部最优解,为此对它进行了改进,提出了最优行为策略学习方法。文中对上述两种方法都进行了实验验证。最后,在对上述两种方法进行一般化和扩充的基础上,对多Agent的协同博弈强化学习进行了初步研究,提出了协同博弈强化学习算法,并就算法的收敛性进行了证明。 本文的主要成果及创新见解是,提出了两种适用于pursuit game问题的多Agent协同强化学习算法,并进行了实验验证。此外,通过施加一定的约束,将马尔可夫博弈与强化学习相结合并应用到多Agent系统中,对协同博弈强化学习进行了初探。在理论分析的基础上,提出了协同博弈的强化学习算法,并证明了算法的收敛性。


知网文化
【相似文献】
中国期刊全文数据库 前2条
1 齐锡位,范钦,肖浩文;微生物学检验技术课程目标和单元目标分解[J];中等医学教育;2000年07期
2 杨然;李坤;秦前清;;基于散射分量系数的极化SAR数据分类[J];测绘信息与工程;2010年03期
中国重要会议论文全文数据库 前5条
1 夏训忠;;浅议质量目标分解的运行[A];中国有色金属建设协会第七次贯标研讨会交流材料[C];2003年
2 王隽;杨劲松;黄韦艮;王贺;陈鹏;陈小燕;;基于极化SAR目标分解理论的船只分类[A];中国海洋湖沼学会第九次全国会员代表大会暨学术研讨会论文摘要汇编[C];2007年
3 朱昌宏;;安全生产管理必须落实到实处[A];2013年8月建筑科技与管理学术交流会论文集[C];2013年
4 卢颖;倪维平;严卫东;边辉;;极化SAR目标分解算法研究[A];国家安全地球物理丛书(八)——遥感地球物理与国家安全[C];2012年
5 袁驵;邢立宁;陈英武;;考虑观测能力的敏捷卫星对地观测目标分解与合并方法[A];中国系统工程学会第十八届学术年会论文集——A12系统科学与系统工程理论在各个领域中的应用研究[C];2014年
中国重要报纸全文数据库 前10条
1 初建;目标分解不过是手段[N];中华工商时报;2002年
2 记者 任德京;我市2800亿引资目标分解到人[N];兰州日报;2012年
3 记者 朱宇琛 编辑 衡道庆;将把钢铁等行业2010年度淘汰目标分解落实到各地[N];上海证券报;2009年
4 ;确定目标分解任务 力争明年创建成功[N];郑州日报;2014年
5 林艺;把节能目标分解到车间[N];中国环境报;2007年
6 记者 沈兴国;今年全市服务业目标确定:增加值880亿[N];绍兴日报;2009年
7 通讯员 货萱;目标分解 层层落实[N];中国民航报;2009年
8 中共河南省濮阳县县委常委、组织部部长 姜爱国;组工干部办事要讲条理[N];农民日报;2010年
9 卢志坚 喻葵英;江苏宿迁:目标责任分解落实中央决定[N];检察日报;2007年
10 王树国;要狠抓落实[N];赤峰日报;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978