收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于强化学习的劣化系统维修策略研究

郭一明  
【摘要】:工业生产中,受到运行时间和所处环境的影响,生产系统的状态不断劣化,工作效率和性能都逐渐下降。当下降到无法满足工作要求时,即使系统还能工作,仍将其视为失效,系统失效会造成经济上的巨大损失。事前维修是指利用一种或一系列的维修作业,发现或排除某一隐蔽或潜在故障,使系统保持在良好的工作状态,避免系统失效,这对于减少生产成本以及工业生产有着重要的影响。因此,如何对生产系统的维修进行调配,避免系统在一个生产成本较高的状态下运行,以及对提高系统的可靠性和安全性是一个重要的研究课题。 论文以强化学习为基础,首先针对离散状态下的劣化系统维修问题,建立了连续时间的半马尔可夫决策过程(Semi-Markov Decision Process, SMDP)模型。为了避免结果陷入局部最优值,使用了Q学习与模拟退火(Simulated Annealing, SA)相结合的算法对该问题进行求解,得到系统较优的维修策略。通过仿真得出平均和折扣性能准则下的优化结果,并讨论了检测间隔时间对结果的影响。 同时,论文还考虑了部分可观的劣化系统,也即检测存在误差观测者不能完全确定系统的状态,而只能通过不完整的信息来对系统进行决策的情况,针对离散状态连续时间下的问题建立了部分可观半马尔可夫决策过程(Partially Observed Semi-Markov Decision Process,POSMDP)模型,利用了强化学习中的Sara (λ)学习算法以及NSM算法,分别从无记忆和基于记忆的角度来对问题进行求解,得到了在平均性能准则下的优化结果。同时对检测间隔与平均代价之间的影响进行了讨论,与完全可观下的结果一致。最后,论文还对NSM算法中参数k的取值进行了讨论,与实际情况相符合。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 徐培,金鸿章,王科俊,阎立涛;一种新型的船舶横摇运动实时预报方法[J];中国造船;2002年01期
2 李春贵,刘永信;一种有限时段Markov决策过程的强化学习算法[J];广西工学院学报;2003年01期
3 朴松昊;孙立宁;钟秋波;黄庆成;;动态环境下的多智能体机器人协作模型[J];华中科技大学学报(自然科学版);2008年S1期
4 洪炳镕;朴松昊;;基于冲突消解的群体智能机器人协作研究[J];哈尔滨工业大学学报;2003年09期
5 柳毅;高晓光;卢广山;陈红林;;机载多智能体信息融合决策系统[J];火力与指挥控制;2007年09期
6 王云;韩伟;;一种基于划分和集成思想的多智能体强化学习[J];南京师范大学学报(工程技术版);2008年04期
7 孙方平;符秀辉;;复杂环境下机器人的行为学习研究[J];仪器仪表学报;2006年S3期
8 马耀飞;龚光红;彭晓源;;基于强化学习的航空兵认知行为模型[J];北京航空航天大学学报;2010年04期
9 卞凯;;基于强化学习的城市交通区域协调控制研究[J];电子技术;2011年08期
10 段群杰,张学勇,张铭钧;一种新的水下机器人运动控制方法[J];佳木斯大学学报(自然科学版);2000年04期
11 李冬梅,陈卫东,席裕庚;基于强化学习的多机器人合作行为获取[J];上海交通大学学报;2005年08期
12 程显毅,李淑琴,夏德深;基于主智能体的群体学习算法GLBMA[J];江苏大学学报(自然科学版);2005年05期
13 李志强,胡晓峰,张斌,董忠林;基于强化学习的指挥控制Agent适应性仿真研究[J];系统仿真学报;2005年11期
14 黄炳强;曹广益;王占全;;强化学习原理、算法及应用[J];河北工业大学学报;2006年06期
15 乔俊飞;侯占军;阮晓钢;;基于神经网络的强化学习在避障中的应用[J];清华大学学报(自然科学版);2008年S2期
16 陈玉明;张广明;赵英凯;;基于强化学习的混合智能控制算法研究与分析[J];机床与液压;2010年20期
17 祝宇虹;毛俊鑫;;基于人工情感与Q学习的机器人行为决策[J];机械与电子;2011年07期
18 吴继伟,萧蕴诗,许维胜;基于信度分配函数的Agent强化学习算法[J];同济大学学报(自然科学版);2003年08期
19 王帅;;基于强化学习算法的井下移动机器人路径规划[J];电气技术;2008年08期
20 周济;陈锋;;基于强化神经网络的区域协调控制研究[J];电子技术;2010年09期
中国重要会议论文全文数据库 前10条
1 卓睿;陈宗海;陈春林;;强化学习在移动机器人导航上的应用[A];’2004系统仿真技术及其应用学术交流会论文集[C];2004年
2 文锋;陈宗海;陈春林;;基于RLS-TD和值梯度的强化学习方法用于LQR控制问题[A];’2004系统仿真技术及其应用学术交流会论文集[C];2004年
3 张伟;李建更;张家旺;;多智能体强化学习在机器人足球比赛中的应用[A];2005年中国智能自动化会议论文集[C];2005年
4 陈春林;陈宗海;卓睿;;分层式强化学习的定性空间表达[A];’2004系统仿真技术及其应用学术交流会论文集[C];2004年
5 张家旺;韩光胜;张伟;;基于ASPL模型的多智能体强化学习在RoboCup中的应用[A];2005中国机器人大赛论文集[C];2005年
6 敬斌;田野;;Robocup中的传球策略[A];2005中国机器人大赛论文集[C];2005年
7 涂自然;王维;梁以业;禹建丽;;基于强化学习的自适应变步长机器人路径规划算法[A];2003年中国智能自动化会议论文集(上册)[C];2003年
8 周国华;;探讨中文图书招标折扣的几个问题[A];安徽省高校图工委文献信息委员会2009年学术年会论文集[C];2009年
9 方宝富;王浩;姚宏亮;杨静;周晋;;Q学习在机器人足球中的应用[A];2004中国机器人足球比赛暨学术研讨会论文集[C];2004年
10 叶道年;陈卫东;;机器人团队协作的强化学习[A];2004中国机器人足球比赛暨学术研讨会论文集[C];2004年
中国博士学位论文全文数据库 前10条
1 金钊;加速强化学习方法研究[D];云南大学;2010年
2 徐明亮;强化学习及其应用研究[D];江南大学;2010年
3 陈学松;强化学习及其在机器人系统中的应用研究[D];广东工业大学;2011年
4 仲宇;分布式强化学习理论及在多机器人中的应用研究[D];哈尔滨工程大学;2003年
5 李誌;基于视觉听觉语义相干性的强化学习系统的研究[D];太原理工大学;2012年
6 李敏;复杂机械基于数据的建模与故障诊断[D];太原理工大学;2010年
7 郭庆;多Agent系统协商中若干关键技术的研究[D];浙江大学;2003年
8 郑建祥;基于可靠性和经济性的城市公交车辆维修策略研究[D];江苏大学;2012年
9 戴朝晖;基于混合抽象机制的多智能体系统动态分层强化学习算法研究[D];中南大学;2012年
10 杨东勇;多机器人协作的学习与进化方法[D];浙江大学;2005年
中国硕士学位论文全文数据库 前10条
1 郭一明;基于强化学习的劣化系统维修策略研究[D];合肥工业大学;2011年
2 尹晓虎;多Agent协同的强化学习方法研究[D];国防科学技术大学;2003年
3 宋梅萍;多移动机器人协作任务的分布式决策控制系统[D];哈尔滨工程大学;2003年
4 卢方国;强化学习在个性化信息Agent的应用研究[D];广东工业大学;2004年
5 钱征;基于强化学习的倒立摆控制研究[D];北京工业大学;2005年
6 王瑞霞;基于强化学习的倒立摆控制[D];北京工业大学;2005年
7 顾鑫;个性化智能信息检索系统研究[D];哈尔滨工程大学;2004年
8 张驰;基于ROBOCUP的多智能体系统设计与实现[D];北京工业大学;2004年
9 袁继彬;大规模Markov系统基于性能势学习的NDP优化方法研究[D];合肥工业大学;2005年
10 汪向利;基于多Agent的生产计划与调度系统研究与开发[D];浙江工业大学;2006年
中国重要报纸全文数据库 前10条
1 孙佳宇;强化学习教育 增强服务意识[N];人民公安报;2009年
2 李铎;“小折扣”引来大资本[N];消费日报;2010年
3 本报实习记者 王蕾;商家促销:有多少“折扣”可以相信?[N];山西经济日报;2009年
4 姜剑;品牌折扣或成突围契机[N];温州日报;2009年
5 王青俊 杨华伟;太康工商揭露节前折扣猫腻[N];中国工商报;2011年
6 本报首席记者 陈熙涵;话剧:呼唤良性折扣票务机制[N];文汇报;2011年
7 本报记者 杨楠;“折扣券” 能否撬动宝鸡消费市场?[N];宝鸡日报;2011年
8 本报记者 杨杨;聚尚网:回归“名品折扣”[N];21世纪经济报道;2011年
9 陈军梅;电子商务不是折扣[N];中国质量报;2000年
10 首席记者 朱丽华;强化学习 落实责任 确保取得实效[N];盘锦日报;2009年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978