收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

双人博弈问题中的蒙特卡洛树搜索算法的改进

季辉  
【摘要】:人工智能是现在非常重要的研究领域,不仅仅在计算机领域,各行各业都有着广泛的运用。机器学习是人工智能的重要分支,随着机器学习方法的不断发展,人们对于人工智能的理解也有了更深层次的理解,从指导计算机学习逻辑推理,到教会计算机一些先验知识做成专家系统,到现在让计算机学会自我学习。不仅仅在于处理大数据上,人工智能有着广泛的运用,在指导人类制定策略上也有着更加重要的指导作用。双人博弈游戏中的AI算法就是人工智能的重要的发展方向与运用前景。AlphaGo的出现标志着双人博弈问题上的最大的难题围棋也被攻破,AlphaGo巧妙的将深度学习和蒙特卡洛树搜索算法,卷积神经网络等方法结合在一起,大大提升了围棋AI的计算效率,使得在人类规则下,计算机击败最优秀的职业棋手成为现实。AlphaGo的成功并不意味着现在的算法就是最优的,在研究过程中发现蒙特卡洛树搜索算法中还存在着不少的问题与隐患。蒙特卡洛树搜索(MCTS)是一种针对决策类博弈游戏,运用蒙特卡洛模拟方法进行评估博弈策略的启发式搜索算法。但是,在面对计算机围棋这样复杂的决策过程时,简单的蒙特卡洛树搜索过程往往由于计算量大,导致收敛慢。本文中我们指出,双人博弈游戏中的蒙特卡洛树搜索不能收敛于双人博弈的最佳决策策略;由此我们提出蒙特卡洛树搜索结合极大极小值算法的改进算法,使得搜索结果不会因为蒙特卡洛方法的随机性导致失真。为了进一步提高复杂双人博弈游戏中搜索算法的计算效率,我们还结合了几种常见的剪枝策略。实验测试说明,该新算法显著改进了蒙特卡洛树搜索的准确性和效率。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 何其超,徐廷伟;计算电子光学系统收集效率的蒙特卡洛—数值积分法[J];电子学通讯;1981年04期
2 元丁;;令人惊讶的张冠李戴[J];新闻战线;1992年09期
3 张文明;工作站环境中电路的蒙特卡洛分析[J];计算机应用研究;1997年02期
4 程康萱;;忆访棋王卫冕战——蒙特卡洛琐记[J];新闻三昧;1995年03期
5 董宽;;再见,蒙特卡洛——访申办2000年奥运会决战纪实[J];新闻三昧;1994年01期
6 闵涛;张帆;;参数反演的微分进化蒙特卡洛算法[J];计算机工程与应用;2012年07期
7 葛丽萍;鄂英杰;;运用Crystal Ball & MS Project实现项目进度的蒙特卡洛风险分析[J];电脑编程技巧与维护;2013年08期
8 张建平;张凤莲;陶华;;基于混合蒙特卡洛算法的容差分配研究[J];计算机仿真;2009年10期
9 马北北;;蒙特卡洛:举世瞩目的一天[J];青年记者;1994年01期
10 曲洪权;庞丽萍;李运泽;;序列蒙特卡洛滤波在卫星传热反问题中的应用[J];系统仿真学报;2008年13期
11 钱键民;;雷达虚警概率模拟与重要采样技术[J];火控雷达技术;1984年02期
12 万某峰;赵长胜;;UKF滤波中蒙特卡洛采样策略比较分析[J];测绘通报;2012年12期
13 武二永;项志宇;刘济林;;鲁棒的机器人蒙特卡洛定位算法[J];自动化学报;2008年08期
14 李卫平;王志杰;;隧道地表沉降测量方法研究与仿真[J];计算机仿真;2012年08期
15 吴海民;报业竞争中的博弈问题[J];青年记者;2005年02期
16 张幸儿,潘征宇;面向目标的最佳α—β搜索策略及其在博弈问题中的应用[J];软件学报;1993年04期
17 倪志伟,贾瑞玉,程慧霞;解决一类博弈问题的神经网络系统[J];控制与决策;1996年02期
18 袁天鑫;傅尧青;;中国象棋博弈程序中的树搜索算法[J];上海交通大学学报;1990年04期
19 向垂益;何怡刚;李兵;方葛丰;;动态二进制树搜索算法的改进[J];计算机工程;2010年02期
20 金海,谢卫;A~*树搜索算法代价与误差关系的研究[J];软件学报;1995年03期
中国重要会议论文全文数据库 前4条
1 程磊;房永智;王刚;;蒙特卡洛计算方法与作战毁伤模拟决策分析[A];中国系统工程学会决策科学专业委员会第六届学术年会论文集[C];2005年
2 周永宏;郑大伟;廖新浩;;相关分析显著水平的蒙特卡洛模拟检验[A];中国地球物理学会年刊2002——中国地球物理学会第十八届年会论文集[C];2002年
3 康晓岩;陈永义;;一种改进的蒙特卡洛选择算子[A];中国系统工程学会模糊数学与模糊系统委员会第十一届年会论文选集[C];2002年
4 林元庆;陈加良;;关于博弈学习模型的研究[A];2001年中国管理科学学术会议论文集[C];2001年
中国博士学位论文全文数据库 前3条
1 穆蕊;非零和随机微分博弈及相关的高维倒向随机微分方程[D];山东大学;2015年
2 张剑;不确定条件下多周期库存博弈问题研究[D];北京交通大学;2017年
3 王昭;具有模糊支付的博弈问题及其应用研究[D];北京理工大学;2006年
中国硕士学位论文全文数据库 前10条
1 季辉;双人博弈问题中的蒙特卡洛树搜索算法的改进[D];中国科学技术大学;2017年
2 于永波;基于蒙特卡洛树搜索的计算机围棋博弈研究[D];大连海事大学;2015年
3 祁建娟;CDO信用风险度量的蒙特卡洛算法优化及应用[D];上海交通大学;2015年
4 梁金龙;铀部件质量丰度检测数据采集仿真系统研究[D];西南科技大学;2015年
5 王洋;基于蒙特卡洛理论的基因序列分析与仿真[D];广东工业大学;2016年
6 乔馨慧;磁场对容性及感应耦合等离子体性质影响的数值模拟研究[D];华中科技大学;2014年
7 谭啸;随机分布多孔板拉伸极限强度的蒙特卡洛有限元分析[D];华中科技大学;2015年
8 楚明娟;基于蒙特卡洛序贯仿真的生产模拟算法与应用研究[D];合肥工业大学;2017年
9 周进;面向博物馆的高真实感展示技术研究[D];浙江大学;2017年
10 李杨;基于蒙特卡洛模拟与仿生算法的微电网收益优化研究[D];北京交通大学;2017年
中国重要报纸全文数据库 前5条
1 记者 王庆芳;蒙特卡洛三剑客聚首杂技节[N];石家庄日报;2005年
2 梁丽娟;1993:难忘蒙特卡洛[N];人民日报海外版;2008年
3 宋志坚;天价之中的特权成本[N];福建日报;2007年
4 阳映红 编译;充满挑战的再保业(下)[N];中国保险报;2014年
5 阳映红 编译;充满挑战的再保业(上)[N];中国保险报;2014年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978