收藏本站
《浙江大学》 2003年
收藏 | 手机打开
二维码
手机客户端打开本文

多Agent系统协商中若干关键技术的研究

郭庆  
【摘要】: agent和多agent系统(Multi-agent Systems,简称MAS)系统正在崛起为人工智能研究实用化和分布计算环境下软件智能化的重要技术。系统提供具有社会和领域知识,能依据心理状态自主工作,并具有语义互操作和合作行为协调能力的软件实体,不仅为实施紧凑一致的协同工作提供有力的支持,也为建立面向分布计算的开放性、可重构和可伸缩的新型计算环境建立了基础。 MAS技术的研究主要集中在三个方面:agent行为理论、agent体系结构和多agent协作。其中,多agent协作主要是研究自动agent系统如何能够更有效的交互。近来协商作为agent之间达成对双方都有利的决定的机制,已经成为MAS系统协作研究中的一个重要的分支。许多学者提出了一些理论和方法,包括Rosenschein等人的基于对策论的理性协商理论,R.Smith等人提出的合同网理论,Sycara的以劳资谈判为背景的协商理论,Kraus的最佳平衡协商理论,Sandholm的多agent核结盟理论以及Jenning等人基于协商中思维状态变迁的联合承诺理论等等。这些理论从协商主体数目、交互方式、协商议题数目、时间限制、环境信知、效用评价机制、协作个体的社会性等多个方面对协商框架进行了研究。总体来看,协商领域的研究范畴主要包括协商过程中的涉及到的思维状态模型、协商通讯语言、协商交互过程、协商决策框架四个方面。本文则针对这些问题作了的深入的探讨,分析了相关研究工作的特点和不足,并给出了我们的研究成果。 首先,从思维状态模型的角度来看,在MAS系统中的协商是一个多agent之间形成联合承诺的过程,而联合承诺的形成、维持、消解除了受到agent个体自身和其他agent的思维状态的影响之外,还和agent个体自身能力有关。本文扩展了Jenning等人提出的BDI模型,提出一个基于能力算子的多agent意识态度模型,并阐述了能力因子在多agent联合承诺的产生过程中的重要作用。 多agent之间的多议题协商框架也是目前协商研究领域的热点。本文针对限时条件下的两方多议题协商提出了多回合协商框架。框架首先给出了包含协商双方关注的多个与协商命题相关的因子的多议题集合;其次,框架提供了一个agent双方根 J白︸丫!: 据自身和对手的各种信知,交替提议的推理机制,该推理机制综合考虑时间、资源、 对方底价等多方面的因子,提高了协商交互中的效率;在协商决策机制方面,该框 架采用比较多议题向量整合效用值之间曼哈顿距离的算法来进行效用评估,决策是 否达成一致的协定。与其他的研究成果相比,该框架提出了一个多策略整合的交互 推理机制,并且在协商效用评估机制中考虑了各议题之间的相关性,提出了一个多 议题整合的效用评估机制。 为提高复杂环境下的协商中的协商效用,必须解决参与者的信知不完整性和不 精确性问题。本文采用BP神经网络学习算法来更新agent关于环境和其他个体的信 知,从而使agent在协商交互中能够对协商对手的推理策略、保留值等要素动态预 测,从而能够更有效的进行交互推理。与相关的研究成果相比,本文采用的学习算 法通过考虑到历史信知、对方推理策略等多方面的因子,更加适合复杂环境下的多 议题协商交互。 限时条件下的多议题协商中,由于某一个议题没有达到平衡点使得整个协商陷 入僵局是影响协商效用的一个重要因素。为避免协商僵局,本文给出了一个多议题 保留值置换算法,在保证协商参与者整体协商效用的前提下动态放宽某个议题的保 留值,促使协商双方避免协商僵局。在等效置换值向量的选择中采用了强化学习算 法进行优化,提高了置换效率。 基于本文的研究成果,我们设计并实现了一个面向金融业务的交易处理平台一 一SunBridge,并在国内银行业得到应用。该系统的实际应用效果表明了本文的研究 能够有效协调系统资源,高效的完成各种交易处理,满足该系统对并发性和开放性 的要求。 文章最后对本文研究工作作了简短的总结,并提出了本文研究存在的不足和 对将来工作的展望。
【学位授予单位】:浙江大学
【学位级别】:博士
【学位授予年份】:2003
【分类号】:TP18

【相似文献】
中国期刊全文数据库 前10条
1 夏丽丽;;连续状态-连续行动强化学习[J];电脑知识与技术;2011年19期
2 董天策;王君玲;;网络群体性事件研究的进路、议题与视角[J];现代传播(中国传媒大学学报);2011年08期
3 祝宇虹;毛俊鑫;;基于人工情感与Q学习的机器人行为决策[J];机械与电子;2011年07期
4 刘卫红;周义莲;;强化学习方法在Web服务组合中的应用比较研究[J];计算机应用与软件;2011年07期
5 黄付亮;张荣国;陈大川;刘焜;;基于联合博弈的多Agent学习[J];计算机与数字工程;2011年06期
6 肖克艳;金鸣娟;;议程设置在高校生态文明教育中的应用[J];理论界;2011年07期
7 张文柱;邵丽娜;;异构无线网络中基于强化学习的频谱管理算法[J];西安电子科技大学学报;2011年04期
8 李昭阁;;强化学习,更新观念,发挥校园网作用[J];学周刊;2011年12期
9 许培;薛伟;;基于Q-learning的一种多Agent系统结构模型[J];计算机与数字工程;2011年08期
10 韩春阳;;网络媒体舆论议题的特点及发展规律[J];记者摇篮;2011年07期
中国重要会议论文全文数据库 前10条
1 文锋;陈宗海;陈春林;;基于RLS-TD和值梯度的强化学习方法用于LQR控制问题[A];’2004系统仿真技术及其应用学术交流会论文集[C];2004年
2 卓睿;陈宗海;陈春林;;强化学习在移动机器人导航上的应用[A];’2004系统仿真技术及其应用学术交流会论文集[C];2004年
3 张伟;李建更;张家旺;;多智能体强化学习在机器人足球比赛中的应用[A];2005年中国智能自动化会议论文集[C];2005年
4 张家旺;韩光胜;张伟;;基于ASPL模型的多智能体强化学习在RoboCup中的应用[A];2005中国机器人大赛论文集[C];2005年
5 敬斌;田野;;Robocup中的传球策略[A];2005中国机器人大赛论文集[C];2005年
6 陈春林;陈宗海;卓睿;;分层式强化学习的定性空间表达[A];’2004系统仿真技术及其应用学术交流会论文集[C];2004年
7 涂自然;王维;梁以业;禹建丽;;基于强化学习的自适应变步长机器人路径规划算法[A];2003年中国智能自动化会议论文集(上册)[C];2003年
8 叶道年;陈卫东;;机器人团队协作的强化学习[A];2004中国机器人足球比赛暨学术研讨会论文集[C];2004年
9 黄行;;语言与法律研究的三大议题[A];语言与法律研究的新视野——语言与法律首届学术研讨会论文集[C];2002年
10 方宝富;王浩;姚宏亮;杨静;周晋;;Q学习在机器人足球中的应用[A];2004中国机器人足球比赛暨学术研讨会论文集[C];2004年
中国重要报纸全文数据库 前10条
1 记者 刘琰;强化学习 增强本领 扎实工作[N];周口日报;2009年
2 吴定保、林榕;APEC高官会议就多项议题达成共识[N];人民日报;2004年
3 王朝霞;个人议题如何转化为公共议题[N];中华新闻报;2004年
4 特约通讯员马书笔;议军会三十一项议题件件落实[N];解放军报;2003年
5 张伟;关注经济议题[N];中华工商时报;2003年
6 吕晓莉;美大选“淡化”中国议题[N];华夏时报;2004年
7 谭育才;强化学习 克己奉公[N];赤峰日报;2008年
8 章斌、特约记者夏吉龙;8710部队 破解难题强化学习教育效果[N];人民武警;2010年
9 记者蔡小伟、赵鹏;抗旱成为福建省长办公会第一议题[N];人民日报;2003年
10 程亦之 董介 宋伟 王雪;关注亚欧经济合作三大议题[N];国际商报;2003年
中国博士学位论文全文数据库 前10条
1 郭庆;多Agent系统协商中若干关键技术的研究[D];浙江大学;2003年
2 金钊;加速强化学习方法研究[D];云南大学;2010年
3 徐明亮;强化学习及其应用研究[D];江南大学;2010年
4 陈学松;强化学习及其在机器人系统中的应用研究[D];广东工业大学;2011年
5 朱美强;基于谱图理论的强化学习研究[D];中国矿业大学;2012年
6 仲宇;分布式强化学习理论及在多机器人中的应用研究[D];哈尔滨工程大学;2003年
7 李誌;基于视觉听觉语义相干性的强化学习系统的研究[D];太原理工大学;2012年
8 戴朝晖;基于混合抽象机制的多智能体系统动态分层强化学习算法研究[D];中南大学;2012年
9 杨东勇;多机器人协作的学习与进化方法[D];浙江大学;2005年
10 庄晓东;多移动机器人运动控制策略的强化学习研究[D];中国海洋大学;2005年
中国硕士学位论文全文数据库 前10条
1 尹晓虎;多Agent协同的强化学习方法研究[D];国防科学技术大学;2003年
2 宋梅萍;多移动机器人协作任务的分布式决策控制系统[D];哈尔滨工程大学;2003年
3 卢方国;强化学习在个性化信息Agent的应用研究[D];广东工业大学;2004年
4 郭一明;基于强化学习的劣化系统维修策略研究[D];合肥工业大学;2011年
5 钱征;基于强化学习的倒立摆控制研究[D];北京工业大学;2005年
6 王瑞霞;基于强化学习的倒立摆控制[D];北京工业大学;2005年
7 顾鑫;个性化智能信息检索系统研究[D];哈尔滨工程大学;2004年
8 张驰;基于ROBOCUP的多智能体系统设计与实现[D];北京工业大学;2004年
9 袁继彬;大规模Markov系统基于性能势学习的NDP优化方法研究[D];合肥工业大学;2005年
10 汪向利;基于多Agent的生产计划与调度系统研究与开发[D];浙江工业大学;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026