基于马尔可夫决策过程理论的Agent决策问题研究
【摘要】:
人工智能被认为其主要目标是构造可以决策出智能行为的Agents,即这些Agents能够在多方面再现人类可以做出的智能行为。马尔可夫决策过程(MDP)可以用来描述和处理大规模不确定性环境下的Agent决策问题。
RoboCup机器人世界杯是国际上一项为促进分布式人工智能、智能机器人技术及其相关领域的研究与发展而举行的大型比赛和学术活动,RoboCup仿真2D比赛是RoboCup所有项目中以Agent决策为重点的一个分支。
本文以马尔可夫决策过程的相关理论为基础,以RoboCup仿真2D比赛为实验平台,对Agent决策相关问题进行了研究。本文的主要工作可以概括为以下三个方面:
本文重构并实现了一个完整的RoboCup仿真2D球队决策系统WE2009。该系统以部分可观察随机博弈(POSG)的模型为理论基础,包括信息处理、高层决策和行为执行三个模块。特别是高层决策模块,采用基于独立行为生成器的结构设计,不仅可以充分利用Agent的决策时间,而且可以提高团队合作的效率。
本文提出了一类特殊的马尔可夫决策过程,即行动驱动的马尔可夫决策过程(ADMDP)。本文分析了ADMDP的理论模型,提出了ADMDP的相关求解方法。该方法采取离线值迭代与在线搜索相结合,在本文中用来求解RoboCup仿真2D比赛中的不离身带球问题,使Agent的带球性能有了较大的提高。
本文提出了一类特殊的马尔可夫博弈,即基于阵型的零和马尔可夫博弈(FZSMG)。本文分析了FZSMG的理论模型,并以此为基础来描述RoboCup仿真2D比赛中的Anti-Mark问题。针对Anti-Mark问题,本文提出了一个基于阵型变换的启发式求解方法,使球队在与盯人防守的对手比赛时取得了较好的效果。
本文的所有工作都是基于WE2009实现的,WE2009在完成后参加了2009RoboCup机器人世界杯和2009中国机器人大赛两次重要比赛,并且全部获得冠军。
|
|
|
|
1 |
张振文;程显毅;李明;;分布式强化学习在RoboCup中的应用[J];现代电子技术;2007年04期 |
2 |
姬朝阳;朱绍文;朱秋云;张琪;;一种基于对手行为预测的多智能体合作研究[J];计算机与现代化;2006年05期 |
3 |
徐怡,李龙澍;面向Agent的软件工程方法学[J];微机发展;2005年10期 |
4 |
赵曦滨,赵志峰,程显毅;RoboCup中基于动态目标驱动的抢断策略分析[J];计算机工程与应用;2003年22期 |
5 |
邱忠宇,王一欧,顾晃,吴昭同;基于多Agent的汽轮发电机组故障诊断系统[J];中国机械工程;2001年07期 |
6 |
张志良,楚丰,游大海,龙云;一种基于CORBA和Agent技术的电力市场仿真平台的研究[J];电力系统及其自动化学报;2002年04期 |
7 |
嵇海明,杨宗源,黄海涛;软件工程方法的新进展:面向Agent的软件工程[J];计算机应用研究;2003年05期 |
8 |
凌咏红;Agent迁移机制辨析[J];武汉理工大学学报;2003年06期 |
9 |
赵进,袁春风;移动Agent系统的安全性研究[J];计算机工程与设计;2004年04期 |
10 |
薛明志,钟伟才,刘静,焦李成;用于函数优化的正交Multi-Agent遗传算法[J];系统工程与电子技术;2004年09期 |
11 |
赵龙文,侯义斌;多Agent系统的组织结构与协同[J];计算机工程与应用;2000年10期 |
12 |
程显毅,董红斌;设计Agent系统应注意的问题[J];计算机工程与应用;2000年11期 |
13 |
优佳;管理你的UPS[J];市场与电脑;2000年09期 |
14 |
李一军,曹荣增,丁伟;基于Agent的智能电子商务支持系统研究[J];计算机工程与应用;2001年02期 |
15 |
楚丰,游大海;使用Agent技术的能量管理系统的研究[J];电力系统及其自动化学报;2001年05期 |
16 |
张建军,韩莹;Microsoft Agent技术在Delphi中的应用[J];电脑开发与应用;2001年04期 |
17 |
杨清,杨柳;网络信息发现系统中Multiagent的研究与设计[J];计算机工程与科学;2001年04期 |
18 |
谭长庚,王斌,王建新;基于Multi-Agent的Internet信息服务模式[J];计算机工程与应用;2002年12期 |
19 |
薛为民,石志国,谷学静,王志良;基于Agent的人机情感交互系统研究[J];计算机工程与应用;2002年19期 |
20 |
鄢琦,彭岩,齐剑锋,涂序彦;基于Agent结构的MIS系统设计及实现[J];计算机工程与应用;2002年23期 |
|