收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

监督信号引导的强化学习及其应用

王露  
【摘要】:强化学习是一类学习“做什么”的机器学习算法。它的目标是学习一个策略函数来解决序列决策问题,也就是将环境的一系列状态映射成一个动作序列以最大化整体行为的数值奖赏。不同于监督学习,强化学习的智能体不会被告知要采取哪些动作,而是通过尝试去发现产生最大奖赏的动作。基于探索产生的非最优的行为数据,强化学习可以学习到最优或近似最优的策略。近年来,强化学习陆续在围棋,星际争霸,DOTA等游戏或者仿真环境中战胜了人类世界冠军。但是,由于一系列在实践中不能满足的假设,使得许多强化学习的研究难以在现实世界中应用:(a)不支持在线学习,多数强化学习算法假设智能体可以通过在线与环境交互,并从智能体产生的经验中学习。然而在真实世界中智能体在线产生样本的成本高且风险大,往往只能依靠外部策略产生的历史数据进行离线学习。(b)无指定的奖赏函数,即使依赖专家知识,真实系统也难以清楚地指定一个奖赏函数,例如医生很难直接量化病人的治愈率。(c)高维度动作空间,先进的AI系统往往需要推理大规模的动作空间,例如在药物推荐或者商品推荐场景中,药物和商品的数目成千上万。过去十多年,监督学习方法以数据驱动为核心,利用监督信号在一系列真实世界问题上取得成功。受此启发,针对上述强化学习在真实世界应用中的三个关键挑战,本文运用离线数据,专家数据和领域知识中的监督信号,系统研究了监督信号引导的强化学习技术。并面向三类社会价值导向的应用:医疗,农业和金融对提出的方法进行了验证,因为这三类应用分别存在上述的三个关键挑战。本研究的主要内容包括以下几个方面:1.研究行为策略监督的强化学习方法。在强化学习中,与环境交互的策略被称为行为策略,需要学习的智能体策略被称为目标策略。真实世界的应用往往存在一些外部行为策略产生的历史数据。例如,医生对病人的治疗策略和农场工作者的农作物种植策略。针对难点(a),本文结合提前收集的行为策略数据,在不与环境交互的情况下学习智能体的策略,并研究了两种行为策略引导的强化学习算法:(1)本文首先提出监督强化学习模型,将行为策略的动作与智能体动作的差异作为一种增广的奖赏信号,两类奖赏信号相互协同,提高了离线学习的有效性,并在序列药物推荐场景进行了验证。(2)本文针对稀疏行为策略数据提出带约束的强化学习算法。该方法首先约束智能体策略和行为策略的分布,再基于约束的策略空间搜索出智能体的策略。该方法通过校正日志策略和智能体策略的状态-动作分布偏差,并在农作物生长自动控制任务中进行了验证。(3)最后,为了对智能体策略进行离线评估,本文提出多策略的离线策略评估方法,用于在不和环境交互的情况下,只基于行为策略的数据和智能体策略函数来估计策略的性能,并在理论上证明了所提出的估计方法具有更小的估计偏差。2.研究专家策略监督的强化学习方法。针对难点(b),模仿学习通过直接复现专家的策略轨迹来学习智能体策略,模仿学习的主要分支叫逆强化学习,它首先学习一个使得专家轨迹奖赏最大的奖赏函数,再基于该奖赏函数学习智能体策略。在真实应用场景中,由于专业知识的不同,专家的轨迹往往同时包含正样本(例如:存活病人数据)和负样本(例如:死亡病人数据)(1)本文首先提出将正样本和负样本结合训练的合作对抗模仿学习算法,其中正样本引导智能体学习正确动作,负样本引导智能体避免执行错误动作。本文在理论分析和实验中证明了所学的智能体策略与正样本分布接近同时与负样本分布距离更远。(2)复杂的人类活动通常可以分解为各种简单的子策略为了解决多种子策略混合的模仿学习问题,本文进一步提出层次模仿学习方法,该方法利用上下文感知的赌博机学习一个高阶策略,并利用模仿学习学习一系列子策略来模仿复杂的专家策略。本文在序列药物推荐中验证了以上方法的有效性。3.研究领域知识监督的强化学习方法。针对难点(c),本文将高维动作空间强化学习问题转化为多智能体强化学习问题,将每一维度的动作看作是一个智能体,通过对相似智能体共享策略来解决高维度动作空间的挑战。本文研究了利用领域知识来区分智能体并让相似的智能体共享策略的两类多智能体强化学习方法。(1)本文首先提出了一种层次多智能体强化学习方法,将智能体策略划分为多个类别,其中每个类别共享一个策略。该方法基于智能体的轨迹以及领域知识将整个策略分解为一个管理者策略和多个子策略,让M个智能体共享K个策略,其中K远小于M。从而大大降低智能体过多带来的计算复杂度。为了解决智能体数目不断变化的问题,(2)本文进一步提出了智能体无关的多智能体强化学习模型,它通过领域知识学习以智能体表征为条件的策略。该方法通过智能体的表征来区分不同智能体的策略,从而更好的解决新旧智能体不断交替的问题。本文在腾讯的合约广告平台验证了方法的有效性。综上所述,本文系统地研究了监督信号引导的强化学习方法,以解决强化学习在真实世界应用时面临的三个关键挑战。本文首次在多病症治疗,农作物生长自动控制和合约广告流量分配中验证了强化学习方法的可行性和有效性。部分研究成果已经在荷兰瓦格林根大学真实的温室,以及腾讯的广告平台中取得效益提升。


知网文化
【相似文献】
中国期刊全文数据库 前12条
1 迟妍;邓宏钟;;作战智能体的机动行为模型研究[J];计算机仿真;2009年05期
2 范士雄;刘幸蔚;魏智慧;刘瑞叶;王松岩;于继来;;基于智能体群组强化学习的电网无功电压调控方法[J];电力工程技术;2020年02期
3 陈晨;吴啸尘;陈杰;Panos M.PARDALOS;丁舒忻;;探索与打击任务中异构智能体动态分组策略(英文)[J];Frontiers of Information Technology & Electronic Engineering;2022年01期
4 高晶英;徐旭;何斯日古楞;;具有伪领导者的多智能体系统动态牵制蜂拥控制算法[J];湖北民族大学学报(自然科学版);2021年04期
5 樊友平,黄席樾,柴毅,周欣;基于细胞免疫应答理论重建故障诊断智能体[J];系统仿真学报;2003年01期
6 周瑞朋;秦进;;基于最佳子策略记忆的强化探索策略[J];计算机工程;2022年02期
7 大泽博隆;鲁翠;;人与智能体交互:与人相关的人工智能系统设计[J];装饰;2016年11期
8 辛润勤;罗荣桂;;智能体理论研究述评[J];科技进步与对策;2007年08期
9 贺建民,王元元,闵锐;作战智能体模型研究[J];系统仿真学报;2004年10期
10 安鑫;;共建平安智能体 引领行业新未来——专访华为技术有限公司科学家胡善勇[J];中国安防;2021年11期
11 古天龙;李龙;;伦理智能体及其设计:现状和展望[J];计算机学报;2021年03期
12 南星;;人工智能体有自由意志吗[J];学术月刊;2021年01期
中国重要会议论文全文数据库 前20条
1 景浩;;《类脑智能体伦理道德地位的前瞻性研究》[A];第十八届中国诚信企业家大会论文集[C];2022年
2 刘伟;武钰;;人-智能体协作系统的信任校准[A];2021年无人系统高峰论坛(USS 2021)论文集[C];2021年
3 朱时敏;;人工智能体行为结果的权利归属与责任承担[A];长安金融法学研究(第11卷)[C];2020年
4 陆启韶;;智能体系统的动力学与控制问题[A];第一届全国神经动力学学术会议程序手册 & 论文摘要集[C];2012年
5 陆启韶;;智能体系统的动力学与控制问题[A];第一届全国神经动力学学术会议程序手册 & 论文摘要集[C];2012年
6 仵博;宁志宇;吴敏;;一种基于行为的双层动态智能体结构[A];马斯特杯2003年中国机器人大赛及研讨会论文集[C];2003年
7 高晶英;徐旭;;具有动态网络的多智能体动态牵制蜂拥控制算法[A];第十届动力学与控制学术会议摘要集[C];2016年
8 孙铁利;杨永明;赵晶晶;;营救智能体的研究与开发[A];2005年全国理论计算机科学学术年会论文集[C];2005年
9 王壮;李辉;李晓辉;沈凤;;基于深度强化学习的作战智能体研究[A];第六届中国指挥控制大会论文集(上册)[C];2018年
10 李锋;冯珊;魏莹;周凯波;;基于移动智能体技术的漏洞扫描系统模型[A];西部开发与系统工程——中国系统工程学会第12届年会论文集[C];2002年
11 罗小元;刘丹;;基于势函数的多智能体群集与避障[A];第二十九届中国控制会议论文集[C];2010年
12 李思明;叶华文;;基于多虚拟领导者的多智能体群集编队[A];第26届中国控制与决策会议论文集[C];2014年
13 杨文;汪小帆;;异质影响网络中的一致性问题[A];第三届全国复杂动态网络学术论坛论文集[C];2006年
14 曹江丽;;运行在非结构化环境下自主智能体的智能学习与控制[A];中国造船工程学会电子技术学术委员会2006学术年会论文集(下册)[C];2006年
15 刘杰;王月海;王鸿雁;;基于反思——模仿的多智能体协作策略[A];2007通信理论与技术新发展——第十二届全国青年通信学术会议论文集(上册)[C];2007年
16 任锐;王晓丽;周浔;;基于势函数的多智能体编队控制[A];中国仪器仪表学会第十二届青年学术会议论文集[C];2010年
17 陈宁;谈英姿;许映秋;;多种评价指标下RoboCupRescue救援智能体算法[A];2009年中国智能自动化会议论文集(第五分册)[东南大学学报(增刊)][C];2009年
18 杨一岱;牟婧;;有人/无人智能体协同决策技术研究现状及发展趋势研究[A];第五届航天电子战略研究论坛论文集(微电子专刊)[C];2018年
19 沈杰;梁志伟;刘娟;朱松豪;;RCRSS中的多警察智能体协作[A];第25届中国控制与决策会议论文集[C];2013年
20 刘兴华;张新;;资本市场内部机理模型和智能体建模分析[A];管理科学与系统科学研究新进展——第8届全国青年管理科学与系统科学学术会议论文集[C];2005年
中国博士学位论文全文数据库 前20条
1 王露;监督信号引导的强化学习及其应用[D];华东师范大学;2021年
2 曾凡玉;基于深度强化学习的智能体导航研究[D];电子科技大学;2021年
3 黄利伟;智能协同算法研究及应用[D];电子科技大学;2019年
4 李哲;面向工业应用的智能体控制系统研究[D];西北工业大学;2017年
5 宿云;基于本体的智能体情感识别与情感诱发研究[D];兰州大学;2019年
6 张文旭;基于一致性与事件驱动的强化学习研究[D];西南交通大学;2018年
7 吴刚;面向网络计算的移动智能体研究与实现[D];中国人民解放军国防科学技术大学;2000年
8 刘兴华;证券市场动力机制及智能体建模分析[D];东华大学;2005年
9 吴锋;基于决策理论的多智能体系统规划问题研究[D];中国科学技术大学;2011年
10 苏厚胜;多智能体蜂拥控制问题研究[D];上海交通大学;2008年
11 吴元清;多智能体系统的鲁棒同步控制[D];浙江大学;2016年
12 张灵敏;智能体系统的稳定性分析及在多智能体一致性控制中的应用研究[D];燕山大学;2020年
13 徐啟蕾;未知环境下移动智能体自主导航研究[D];中国海洋大学;2013年
14 吴正平;复杂网络建模与一致性及在多移动智能体中的应用[D];华中科技大学;2007年
15 宁红云;协作智能体环境下虚拟企业自由联盟构建技术研究[D];天津大学;2009年
16 石焕;功率驱动移动智能体网络的同步分析与控制[D];浙江大学;2011年
17 秦政;基于自主和自学习行为智能体的AUV运动规划研究[D];哈尔滨工程大学;2008年
18 李皎洁;具有部分感知能力的多智能体协同避障控制[D];上海交通大学;2015年
19 张连新;基于多智能体技术的机器人遥控焊接系统研究[D];哈尔滨工业大学;2006年
20 胡志刚;基于协同的并行设计环境理论与方法研究[D];中南大学;2002年
中国硕士学位论文全文数据库 前20条
1 王艺深;多智能体深度强化学习的经验回放方法研究[D];苏州大学;2020年
2 陈烨;大规模微型智能体在线任务分配建模及决策算法研究[D];西安电子科技大学;2020年
3 杜娟娟;分布式自治智能体优化算法研究[D];中国石油大学;2009年
4 郭婷;基于强化学习的多智能体围捕策略研究[D];沈阳理工大学;2021年
5 周畅;人工智能体法律主体资格探析[D];东南大学;2020年
6 朱进;基于深度强化学习的单智能体自动驾驶控制研究[D];四川大学;2021年
7 耿聪聪;基于模仿学习的航线管理员决策智能体技术研究[D];北京交通大学;2021年
8 鞠祎;基于智能体模型的高密度人员疏散仿真研究[D];中国矿业大学;2020年
9 史文平;人工智能体刑法行为主体论[D];中南财经政法大学;2019年
10 贾倩雯;基于智能体的海上遇险目标搜索算法研究[D];海南大学;2019年
11 邓悟;基于深度强化学习的智能体避障与路径规划研究与应用[D];电子科技大学;2019年
12 董诗音;基于增强学习的智能体博弈问题研究[D];哈尔滨工业大学;2019年
13 袁野;基于近似投影的异步时间分布式优化算法的设计与研究[D];南京邮电大学;2019年
14 毛建博;基于虚拟自我对局的多人非完备信息机器博弈策略研究[D];哈尔滨工业大学;2018年
15 李明豪;基于深度强化学习的非完备信息3D视频游戏博弈算法研究[D];哈尔滨工业大学;2018年
16 胡丽娟;基于强化学习的2D仿真足球机器人协作机制[D];南京邮电大学;2019年
17 刘润之;多机器人对抗系统的策略研究[D];西安电子科技大学;2019年
18 黄思宇;深度强化学习在围捕逃逸问题中的应用研究[D];华中科技大学;2019年
19 聂小广;多种游戏场景下智能体深度强化学习方法研究[D];北京工业大学;2019年
20 单慧;基于神经调节机理的发育网络设计与应用[D];郑州大学;2019年
中国重要报纸全文数据库 前20条
1 记者 孙鹏飞;不断深化合作发展 努力打造鹰城智能体[N];平顶山日报;2020年
2 深圳商报记者 陈姝 实习生 刘子霖;云天励飞首席科学家王孝宇 未来的深圳就是一个智能体[N];深圳商报;2021年
3 ;构建自进化城市智能体助力大湾区打造国际科创中心[N];21世纪经济报道;2021年
4 记者 张梦然;“自主智能体”能与人类辩论[N];科技日报;2021年
5 记者 孟宪峰;新型城市智能体高端会议在廊坊举行[N];河北日报;2021年
6 记者 孟宪峰;廊坊将打造新型城市智能体[N];河北日报;2021年
7 记者 陈姝;政企联手搭建“鹏城智能体”[N];深圳商报;2020年
8 记者 周雨萌;城市智能体:智慧城市“下一跳”[N];深圳特区报;2020年
9 本报记者 高超;“超级智能体”正走来[N];通信产业报;2017年
10 记者 栾吟之;“城市智能体”在沪发布[N];解放日报;2020年
11 本报记者 邬春阳 实习生 陈思彤;史耀宏:共建“平安智能体” 更好服务民生[N];人民公安报;2020年
12 记者 郑佳洵 郑白;廊坊启动新型城市智能体建设[N];河北经济日报;2021年
13 ;刘丹:城市智能体推动新城建智慧化演进[N];中国建设报;2020年
14 记者 谈燕;让超大城市有机生命体成为“智能体”[N];解放日报;2021年
15 记者 肖虹;深化合作 共建长春城市智能体 数字强市 加快融入新发展格局[N];长春日报;2020年
16 本报记者 张心怡;云天励飞:从“AI打拐”到城市智能体[N];中国电子报;2021年
17 本报记者 华凌;AI能忆起昨天的你了 但触景生情还有点难[N];科技日报;2019年
18 记者 匡丽娜;打造城市智能体 推进城市治理能力升级[N];重庆日报;2020年
19 记者 金叶子;AI赋能城市数字化转型 打造超大城市“智能体”[N];第一财经日报;2021年
20 记者兴科、通讯员杨树兵、杨娜;阿拉山口 公路旅检启用智能体测系统[N];新疆日报(汉);2009年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978