收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

Q-学习在非完备信息机器博弈中的应用

林靖  
【摘要】:完备信息博弈已经有很多比较成功的解决方案。博弈双方根据当前棋局创建一个部分的博弈树,利用估值函数对叶结点进行估值,通过估值的结果来进行搜索,找到一个根结点的最佳走步。这是很多的人工智能程序的核心架构。非完备信息博弈问题的解决技术和完备信息有很大的差异,应用于完备信息的技术不一定能够成功的应用到非完备信息博弈中。在非完备信息博弈中,博弈双方仅拥有当前游戏状态的部分知识。在信息不明了的情况下,随机策略成为一个可行的选择。在随机策略中,对局面估值的准确性提出了更高的要求。 在博弈系统中采用比较普遍的方法是静态估值方法。静态估值法,要求设计人员对下棋方法有较多的了解,能充分判断棋局局面中的某一特征在形势判断中所起的重要程度(即相应的分值),并给整个局面比较准确的评分。但是面对成千上万的局面,即使是大师也不可能一一做出精确的形势判断,特别是在对局的开始阶段,棋局的优劣更难以判断。而且,如果对大量的棋局状态进行存储,就要求有大的存储空间及快速的搜索算法。对此,本文采用Q-学习方法来解决静态估值函数存在的问题。 Q-学习是机器学习领域强化学习技术的一种。传统的学习技术通过预测值和真实结果之间的差值来调整描述状态的各种参数,而Q-学习根据连续的预测之间的差值来调整。对现实生活中的大多数预测问题来说,Q-学习相对于传统方法而言需要更少的内存,更低的计算时间复杂度。Q-学习侧重于对运算效率的提升,结果优于传统学习方法。 本文探讨了Q-学习在非完备信息机器博弈估值函数中的应用,并针对Q-学习存在收敛速度慢和结果容易陷入局部最优这两个特点,结合时序差分预测和模拟退火算法,来加快收敛速度和达到探索结果全局最优,实现了一个具有自学习能力的非完备信息博弈系统。本文的主要研究成果和创新之处在于: 1.针对Q-学习收敛速度慢的特点,结合时序差分预测,并且动态调整参数,来实现初期信息的收集以加快学习,后期加快收敛速度; 2.在Q-学习中,引入模拟退火中的Metropolis准则,对非最优解进行探索,使学习结果全局最优; 3.实现了基于Q-学习的估值函数的非完备信息机器博弈系统,可以动态调整智能体的行为,以获得最优的走步。 4.开发了基于腾讯游戏大厅的四国军棋测试系统,生产大量棋局。并且建立了棋局库,对游戏的初局和后期进行了研究。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 廖家平,舒军,王粟;基于 PDC-PROLOG 自学习机器博弈[J];湖北工学院学报;1997年04期
2 ;“第二届中国机器博弈锦标赛暨2007中国机器博弈学术研讨会”于2007年10月在重庆工学院隆重举行[J];重庆工学院学报(自然科学版);2007年12期
3 徐阳东;刘弘;;遗传算法在机器博弈中的创新应用[J];电脑知识与技术;2008年07期
4 徐长明;南晓斐;王骄;徐心和;;中国象棋机器博弈的时间自适应分配策略研究[J];智能系统学报;2006年02期
5 张小川;陈光年;张世强;孙可均;李祖枢;;六子棋博弈的评估函数[J];重庆理工大学学报(自然科学版);2010年02期
6 王赠凯;吕维先;;机器博弈搜索技术分析[J];软件导刊;2007年03期
7 杨军;张波;;机器博弈游戏在单片机上实现[J];计算机应用;2006年02期
8 张雪峰;连莲;徐心和;;基于有限自动机的“点点连格”机器博弈系统的建模与分析[J];沈阳建筑大学学报(自然科学版);2009年04期
9 徐长明;马宗民;徐心和;李新星;;面向机器博弈的即时差分学习研究[J];计算机科学;2010年08期
10 王书宇;李龙澍;汪群山;;改进的协同进化遗传算法在机器博弈中的应用[J];计算机技术与发展;2008年12期
11 徐长明;马宗民;徐心和;;一种新的连珠棋局面表示法及其在六子棋中的应用[J];东北大学学报(自然科学版);2009年04期
12 徐心和;邓志立;王骄;徐长明;刘纪红;马宗民;;机器博弈研究面临的各种挑战[J];智能系统学报;2008年04期
13 张振;庞海;;机器博弈及其搜索算法的研究[J];软件导刊;2008年07期
14 张振;顾治华;;机器博弈及其搜索算法的研究[J];电脑知识与技术;2008年24期
15 耿双;;中国象棋α-β中剪枝搜索算法的分析与改进[J];宁波大红鹰学院学报;2008年02期
16 张恩海;李彦平;朱俊威;;中国象棋多自动机复合模型及其估值方法研究[J];沈阳大学学报;2011年02期
17 曹慧芳;刘知青;;基于WinCE应用程序的围棋游戏开发[J];软件;2011年01期
18 林健;黄鸿;刘进长;;人工智能烽火点燃中国象棋——记“浪潮杯”首届中国象棋计算机博奕锦标赛暨2006中国机器博奕学术研讨会、“浪潮杯”首届中国象棋人机大战[J];机器人技术与应用;2006年05期
19 谷飙;;计算主义纲领与机器博弈的认知意蕴[J];南开学报(哲学社会科学版);2011年04期
20 王骐;孙建伶;;基于优化迭代的博弈树算法[J];计算机应用与软件;2008年02期
中国重要会议论文全文数据库 前3条
1 朱峰;张雪峰;徐心和;;关于机器博弈中的逐步展开型对策的一点讨论[A];2007中国控制与决策学术年会论文集[C];2007年
2 徐心和;王浩;孔凡禹;;事件对策理论及在棋类游戏中的应用[A];2007年中国智能自动化会议论文集[C];2007年
3 徐心和;石鸿雁;;一个空战实例中的混合对策问题[A];2007中国控制与决策学术年会论文集[C];2007年
中国博士学位论文全文数据库 前1条
1 徐长明;基于连珠模式的六子棋机器博弈关键技术研究[D];东北大学;2010年
中国硕士学位论文全文数据库 前10条
1 张恩海;基于多自动机复合多子类机器博弈及其估值方法研究[D];沈阳大学;2011年
2 林靖;Q-学习在非完备信息机器博弈中的应用[D];哈尔滨工业大学;2009年
3 王小龙;连珠模式棋类博弈的搜索优化[D];安徽大学;2014年
4 连莲;基于Moore自动机的机器博弈系统建模与研究[D];东北大学;2009年
5 唐艳;围棋博弈机器学习算法的研究及应用[D];重庆理工大学;2012年
6 孟凡良;基于学习的九宫问题求解方法及其应用研究[D];国防科学技术大学;2007年
7 王骐;博弈树搜索算法的研究及改进[D];浙江大学;2006年
8 陈光年;基于智能算法的六子棋博弈行为选择的应用研究[D];重庆理工大学;2010年
9 谢国;中国象棋机器博弈数据结构设计与搜索算法研究[D];西安理工大学;2008年
10 张明亮;一种新的博弈树搜索算法及其应用研究[D];苏州大学;2007年
中国重要报纸全文数据库 前2条
1 记者 何鑫 通讯员 张燕霖;高交会“中国象棋人机大战”今开战[N];深圳商报;2009年
2 蒋佑铭;电脑围棋对弈技术的发展趋势[N];围棋报;2009年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978