收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于强化学习算法的电梯动态调度策略的研究

邢关生  
【摘要】:本文主要研究了基于强化学习的电梯群组调度。 由于电梯群组系统重要的实际意义,电梯群组的调度问题得到广泛关注。电梯系统是一类在连续时间和空间中运行的离散事件动态系统(DEDS),为探索解决问题的有效方法,首先对DEDS调度方法进行研究。在总结DEDS调度方法及应用领域的基础上,将其归类为传统方法、智能方法和强化学习方法。 强化学习作为动态规划的近似算法起源于人工智能领域,随着强化学习的数学基础取得突破性进展,逐渐引起人工智能、控制理论和运筹学等领域的研究兴趣。论文研究了强化学习原理及发展历史,分析了其框架背景及其避免了在状态空间中做耗尽式搜索而导致的不可计算问题的特点以及环境模型不再是计算要素的特点,并建立强化学习基本模型。另外,论文根据不同的框架背景对强化学习方法做了分类性研究和典型算法阐述,建立了研究强化学习方法解决实际问题的一般步骤,这对后续研究起指导性意义。 强化学习方法作为在与环境的交互过程中学习最优策略的方法,适合于求解电梯群组调度这种大规模动态优化问题。论文在详细分析电梯群组调度领域特点的基础上,总结出电梯群组调度的三大难点,即问题状态空间大、系统运行过程伴随极大的不确定性和重派梯导致的大计算量。以马尔可夫决策过程(MDP)为背景,模型化电梯群组调度问题,根据领域特点定义模型各要素。论文运用随机行为选择策略和前馈神经网络分别解决强化学习在应用中所存在的探索问题和值函数的泛化问题。并将两者与Q-learning的值迭代算法结合,共同构成基于强化学习的电梯群组调度算法。 论文设计了开放的、松耦合的算法软件结构,定义各部分功能函数的接口,方便未来的重用;使用MATLAB作为算法运行的主要环境,提高了算法开发的快速性和调试的高效性。结合电梯群控虚拟仿真环境进行调度算法仿真,共4种不同的交通流条件被用于算法的仿真与训练。实验结果展现了算法较好的学习能力,在与其他调度算法比较中体现了优秀的性能和对不同交通流条件的适应能力。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 李瑞;强化学习主要算法的研究[J];渝西学院学报(自然科学版);2004年03期
2 徐培,金鸿章,王科俊,阎立涛;一种新型的船舶横摇运动实时预报方法[J];中国造船;2002年01期
3 李春贵,刘永信;一种有限时段Markov决策过程的强化学习算法[J];广西工学院学报;2003年01期
4 柳毅;高晓光;卢广山;陈红林;;机载多智能体信息融合决策系统[J];火力与指挥控制;2007年09期
5 王云;韩伟;;一种基于划分和集成思想的多智能体强化学习[J];南京师范大学学报(工程技术版);2008年04期
6 孙方平;符秀辉;;复杂环境下机器人的行为学习研究[J];仪器仪表学报;2006年S3期
7 马耀飞;龚光红;彭晓源;;基于强化学习的航空兵认知行为模型[J];北京航空航天大学学报;2010年04期
8 卞凯;;基于强化学习的城市交通区域协调控制研究[J];电子技术;2011年08期
9 段群杰,张学勇,张铭钧;一种新的水下机器人运动控制方法[J];佳木斯大学学报(自然科学版);2000年04期
10 李冬梅,陈卫东,席裕庚;基于强化学习的多机器人合作行为获取[J];上海交通大学学报;2005年08期
11 程显毅,李淑琴,夏德深;基于主智能体的群体学习算法GLBMA[J];江苏大学学报(自然科学版);2005年05期
12 李志强,胡晓峰,张斌,董忠林;基于强化学习的指挥控制Agent适应性仿真研究[J];系统仿真学报;2005年11期
13 黄炳强;曹广益;王占全;;强化学习原理、算法及应用[J];河北工业大学学报;2006年06期
14 乔俊飞;侯占军;阮晓钢;;基于神经网络的强化学习在避障中的应用[J];清华大学学报(自然科学版);2008年S2期
15 陈玉明;张广明;赵英凯;;基于强化学习的混合智能控制算法研究与分析[J];机床与液压;2010年20期
16 祝宇虹;毛俊鑫;;基于人工情感与Q学习的机器人行为决策[J];机械与电子;2011年07期
17 吴继伟,萧蕴诗,许维胜;基于信度分配函数的Agent强化学习算法[J];同济大学学报(自然科学版);2003年08期
18 王帅;;基于强化学习算法的井下移动机器人路径规划[J];电气技术;2008年08期
19 周济;陈锋;;基于强化神经网络的区域协调控制研究[J];电子技术;2010年09期
20 李佳鹤;姚明海;;基于强化学习的进化神经网络及其在机器人导航中的应用[J];浙江工业大学学报;2010年06期
中国重要会议论文全文数据库 前10条
1 文锋;陈宗海;陈春林;;基于RLS-TD和值梯度的强化学习方法用于LQR控制问题[A];’2004系统仿真技术及其应用学术交流会论文集[C];2004年
2 卓睿;陈宗海;陈春林;;强化学习在移动机器人导航上的应用[A];’2004系统仿真技术及其应用学术交流会论文集[C];2004年
3 曾建潮;;基于遗传算法的DEDS仿真优化方法[A];'99系统仿真技术及其应用学术交流会论文集[C];1999年
4 张伟;李建更;张家旺;;多智能体强化学习在机器人足球比赛中的应用[A];2005年中国智能自动化会议论文集[C];2005年
5 高慧敏;曾建潮;孙国基;;基于矩阵模型的DEDS仿真[A];'2000系统仿真技术及其应用学术交流会论文集[C];2000年
6 陈春林;陈宗海;卓睿;;分层式强化学习的定性空间表达[A];’2004系统仿真技术及其应用学术交流会论文集[C];2004年
7 张家旺;韩光胜;张伟;;基于ASPL模型的多智能体强化学习在RoboCup中的应用[A];2005中国机器人大赛论文集[C];2005年
8 敬斌;田野;;Robocup中的传球策略[A];2005中国机器人大赛论文集[C];2005年
9 戴连贵;徐心和;李彦平;;DEDS的语言稳定性[A];1997年中国控制会议论文集[C];1997年
10 陈文德;;离散事件动态系统的实现理论[A];1992年中国控制与决策学术年会论文集[C];1992年
中国博士学位论文全文数据库 前10条
1 金钊;加速强化学习方法研究[D];云南大学;2010年
2 徐明亮;强化学习及其应用研究[D];江南大学;2010年
3 陈学松;强化学习及其在机器人系统中的应用研究[D];广东工业大学;2011年
4 朱美强;基于谱图理论的强化学习研究[D];中国矿业大学;2012年
5 仲宇;分布式强化学习理论及在多机器人中的应用研究[D];哈尔滨工程大学;2003年
6 李誌;基于视觉听觉语义相干性的强化学习系统的研究[D];太原理工大学;2012年
7 郭庆;多Agent系统协商中若干关键技术的研究[D];浙江大学;2003年
8 戴朝晖;基于混合抽象机制的多智能体系统动态分层强化学习算法研究[D];中南大学;2012年
9 杨东勇;多机器人协作的学习与进化方法[D];浙江大学;2005年
10 庄晓东;多移动机器人运动控制策略的强化学习研究[D];中国海洋大学;2005年
中国硕士学位论文全文数据库 前10条
1 邢关生;基于强化学习算法的电梯动态调度策略的研究[D];天津大学;2005年
2 尹晓虎;多Agent协同的强化学习方法研究[D];国防科学技术大学;2003年
3 宋梅萍;多移动机器人协作任务的分布式决策控制系统[D];哈尔滨工程大学;2003年
4 卢方国;强化学习在个性化信息Agent的应用研究[D];广东工业大学;2004年
5 郭一明;基于强化学习的劣化系统维修策略研究[D];合肥工业大学;2011年
6 钱征;基于强化学习的倒立摆控制研究[D];北京工业大学;2005年
7 王瑞霞;基于强化学习的倒立摆控制[D];北京工业大学;2005年
8 顾鑫;个性化智能信息检索系统研究[D];哈尔滨工程大学;2004年
9 张驰;基于ROBOCUP的多智能体系统设计与实现[D];北京工业大学;2004年
10 袁继彬;大规模Markov系统基于性能势学习的NDP优化方法研究[D];合肥工业大学;2005年
中国重要报纸全文数据库 前10条
1 孙佳宇;强化学习教育 增强服务意识[N];人民公安报;2009年
2 首席记者 朱丽华;强化学习 落实责任 确保取得实效[N];盘锦日报;2009年
3 王良豪 记者 刘伟 龙先华;通过创新工作取得活动效果[N];六盘水日报;2008年
4 书分;解放区审计局强化学习抓作风[N];焦作日报;2006年
5 记者 刘琰;强化学习 增强本领 扎实工作[N];周口日报;2009年
6 谭育才;强化学习 克己奉公[N];赤峰日报;2008年
7 章斌、特约记者夏吉龙;8710部队 破解难题强化学习教育效果[N];人民武警;2010年
8 通讯员 马全有;强化学习 搞好服务 解放思想[N];甘肃法制报;2007年
9 李北川;强化学习 找准问题 着力整改[N];凉山日报(汉);2007年
10 记者 刘莉 实习记者 刘慕欣;兵团党委“保先”教育活动督导组强化学习[N];兵团日报(汉);2005年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978