收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于深度强化学习算法的动态功率控制方法研究

杨贺淞  
【摘要】:如今,人们生活中处处离不开互联网,随着无线通信技术的不断发展和人们对于便携式和舒适性的要求越来越高,使得无线网络的应用变得越来越普及。特别是随着第五代通信技术的问世,可以预见到将来的无线电子设备将呈现爆炸式增长。但是,无线频谱资源是有限的,如果不能合理的利用和管理它,将无法满足人们对于无线资源的需求。因此,如何提高频谱的利用率是目前面临的一个很严峻的问题和挑战,认知无线电是一个很好的解决方案。在认知无线电网络中,认知用户有感知功能,可以感知到当前的频谱环境,从而可以与授权用户共享同一个频谱资源。然而,认知用户在与授权用户进行频谱共享时,必须要保证不能对授权用户的正常通信造成干扰,这就要求认知用户必须要进行有效的功率控制,在不对授权用户造成干扰的情况下,最大化自身的服务质量(Quality of service,Qo S)。因此,需要研究能够根据不断变化的环境、动态地调整认知用户功率控制策略的方法,从而与授权用户共享同一个频谱资源来进行通信。随着认知无线电网络变得越来越复杂,一些智能优化算法要在这种环境下建立数学模型则显得无能为力。强化学习是机器学习算法中的一种无监督学习算法,它能通过不断地与环境进行互动,通过反馈的奖励值去学习和更新网络参数来满足相应的目标函数,且无需对问题建立数学模型。强化学习还可以结合深度学习,提高其对复杂数学计算的能力和性能,称为深度强化学习。因此,本文将应用深度强化学习的算法去解决在认知无线电网络中的频谱资源短缺的问题,主要针对的是频谱共享中的功率控制问题,以提高频谱利用率和用户的服务质量。本文的主要工作为以下几点:1.首先对认知无线电网络进行了概述,包括其网络架构和认知功能,然后重点介绍了动态频谱管理技术,本文主要关注的是主用户与次用户进行频谱共享时的功率控制问题。接着还介绍了本文将要使用的强化学习和深度强化学习算法。2.研究并分析了基于演员评论家(Actor-critic)和深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)深度强化学习算法,在次用户没有任何主用户功率策略的先验信息的前提下,通过不断地与环境互动,来学习相应的功率控制策略,从而在不干扰主用户正常通信的前提下进行频谱共享,以提高频谱的利用率。3.在工作2的基础上,又继续讨论了另一种在[33]中提出的主用户的功率控制策略,其相比于工作2中的功率控制策略要更复杂,对于次用户来说,相当于增加了功率控制的学习难度,相应地,需要次用户使用更复杂的深度强化学习算法的网络结构才能学习到最优的功率分配策略。但是,复杂的网络结构也会增加深度强化学习算法的时间复杂度,本文考虑到功率控制算法的时间复杂度这一指标,又引进了另外两种更先进的异步优势演员评论家(Asynchronous Advantage Actor-critic,A3C)和分布式近端策略优化(Distributed Proximal Policy Optimiztion,DPPO)深度强化学习算法。最后,为了证明本文提出算法优势的普遍性,分别使用工作2和工作3中的主用户功率策略进行实验仿真,对比工作2中的算法,A3C和DPPO可以使用更简单的网络结构达到更优的性能,验证了A3C和DPPO的有效性、优越性和可行性,且DPPO要更优于A3C。


知网文化
【相似文献】
中国期刊全文数据库 前17条
1 包涛;李昊飞;余涛;张孝顺;;考虑市场因素的电力系统供需互动混合博弈强化学习算法[J];控制理论与应用;2020年04期
2 李茹杨;彭慧民;李仁刚;赵坤;;强化学习算法与应用综述[J];计算机系统应用;2020年12期
3 董春利;王莉;;基于粒子滤波的强化学习算法建模研究[J];无线互联科技;2017年01期
4 董春利;王莉;;基于粒子滤波的直接策略搜索强化学习算法研究[J];江苏科技信息;2017年07期
5 倪坤;刘云龙;于丹宁;;基于记忆探索策略的有模型深度强化学习算法[J];微电子学与计算机;2021年04期
6 许杨子;强文;刘俊;孙鸿雁;胡成刚;;基于改进深度强化学习算法的电力市场监测模型研究[J];国外电子测量技术;2020年01期
7 谢光强;陈学松;;一种新的基于蚁群优化的模糊强化学习算法[J];计算机应用研究;2011年04期
8 孙一凫;吕浩宇;陈毅兴;任晓欣;吴若飒;沈启;;基于EnergyPlus-Python联合模拟和强化学习算法的室内环境控制优化[J];建设科技;2019年24期
9 丁志梁;潘毅群;谢建彤;王尉同;黄治钟;;强化学习算法在空调系统运行优化中的应用研究[J];建筑节能;2020年07期
10 郭城;;面向交通信号控制的改进强化学习算法[J];电脑迷;2017年03期
11 黄金红;周晓阳;;基于有限理性的期望强化学习算法在电力市场中的应用[J];应用数学;2007年S1期
12 董春利;王莉;;基于粒子滤波的强化学习算法研究[J];无线互联科技;2016年15期
13 黄浩晖;杨宛璐;陈玮;;基于性能势的A*平均奖赏强化学习算法研究[J];计算机仿真;2014年07期
14 郑宇;罗四维;吕子昂;;基于模型的层次化强化学习算法[J];北京交通大学学报;2006年05期
15 李春贵;多步截断优先扫描强化学习算法[J];计算机工程;2005年11期
16 邢文娜;宁睿;;基于分布式强化学习算法的精准助学数据分析方法研究[J];电子设计工程;2021年10期
17 杨旭东;刘全;李瑾;;一种基于资格迹的并行强化学习算法[J];苏州大学学报(自然科学版);2012年01期
中国重要会议论文全文数据库 前8条
1 刘坤;张婷婷;柴来;;基于强化学习算法的智能体路径寻优[A];2019第七届中国指挥控制大会论文集[C];2019年
2 陈宗海;段家庆;任皴;罗杨宇;李成荣;;针对机器人觅食任务的强化学习算法及其仿真研究[A];'2008系统仿真技术及其应用学术会议论文集[C];2008年
3 孟祥萍;苑全德;皮玉珍;;基于量子理论的多Agent系统强化学习研究[A];'2006系统仿真技术及其应用学术交流会论文集[C];2006年
4 任燚;陈宗海;;一种强化学习算法应用于多移动机器人的觅食实例研究[A];’2004系统仿真技术及其应用学术交流会论文集[C];2004年
5 刘晓雪;郑宝玉;季薇;;认知无线电网络中的一种协作分集机制[A];2010年通信理论与信号处理学术年会论文集[C];2010年
6 李雷;郑宝玉;崔景伍;;一种改进的认知无线电网络用定向L型天线[A];2010年通信理论与信号处理学术年会论文集[C];2010年
7 饶毓;曹志刚;;认知无线电技术的标准化进程[A];2009年全国无线电应用与管理学术会议论文集[C];2009年
8 李俊葶;陈金鹰;刘庆丰;徐广伟;;浅谈认知无线电[A];四川省通信学会2008年学术年会论文集[C];2008年
中国博士学位论文全文数据库 前20条
1 袁银龙;深度强化学习算法及应用研究[D];华南理工大学;2019年
2 尚筱雅;基于改进强化学习算法的终端电网在线等值建模方法及其应用[D];华南理工大学;2018年
3 戴朝晖;基于混合抽象机制的多智能体系统动态分层强化学习算法研究[D];中南大学;2012年
4 陈兴国;基于值函数估计的强化学习算法研究[D];南京大学;2013年
5 郑宇;分层强化学习算法及其应用研究[D];北京交通大学;2009年
6 李奇真;无线网络中基于马尔可夫决策过程的资源管理研究[D];西南交通大学;2019年
7 江昌旭;基于分层协作强化学习的配电网负荷建模研究[D];华南理工大学;2020年
8 黄丽;认知无线电网络中感知策略和频谱共享技术研究[D];华中科技大学;2013年
9 王醒策;基于强化学习和群集智能方法的多机器人协作协调研究[D];哈尔滨工程大学;2005年
10 靳庆庆;认知无线电网络动态资源优化理论研究[D];山东大学;2011年
11 杨尚东;基于任务先验的强化学习探索研究[D];南京大学;2019年
12 汪芳;基于强化学习的植入式脑机接口神经信息解码:算法设计及应用[D];浙江大学;2015年
13 李誌;基于视觉听觉语义相干性的强化学习系统的研究[D];太原理工大学;2012年
14 仲宇;分布式强化学习理论及在多机器人中的应用研究[D];哈尔滨工程大学;2003年
15 姜文浩;认知无线电网络资源分配策略研究[D];重庆大学;2016年
16 张敏;认知无线电网络跨层建模及性能分析[D];华南理工大学;2010年
17 王亮;谱效和能效优化的认知无线电网络资源分配技术[D];西安电子科技大学;2015年
18 李红宁;认知无线电网络安全与隐私保护技术研究[D];西安电子科技大学;2014年
19 张孝顺;电力系统的迁移强化学习优化算法研究[D];华南理工大学;2017年
20 马军;认知无线电网络频谱管理关键技术研究[D];电子科技大学;2016年
中国硕士学位论文全文数据库 前20条
1 杨贺淞;基于深度强化学习算法的动态功率控制方法研究[D];广东工业大学;2020年
2 许瀚;基于深度强化学习算法的卫星姿态控制算法研究[D];哈尔滨工业大学;2019年
3 邹启鸣;面向信息物理系统的高效深度强化学习算法[D];哈尔滨工业大学;2019年
4 李东雨;基于模型控制的深度强化学习算法研究[D];大连理工大学;2019年
5 王雪莹;基于样本评价的逆强化学习算法[D];国防科技大学;2017年
6 杨瑞;多步强化学习算法的理论研究[D];天津大学;2018年
7 陈锐奇;基于强化学习的文本情感分析算法研究[D];北京邮电大学;2019年
8 赵星宇;基于异步方法的强化学习研究[D];中国矿业大学;2019年
9 杨家源;半Markov决策过程强化学习算法研究[D];哈尔滨工业大学;2018年
10 谭传芳;半马氏环境下的逆向强化学习算法研究[D];哈尔滨工业大学;2018年
11 涂浩;游戏人工智能中寻路与行为决策技术研究[D];武汉理工大学;2017年
12 王芳黎;基于高斯过程的强化学习算法的研究及实现[D];武汉理工大学;2016年
13 顾喆旭;聚焦对象的强化学习算法研究[D];东南大学;2018年
14 赵明杰;基于无人机平台的黑广播定位与追踪[D];浙江理工大学;2019年
15 任志鹏;基于自主优先课程学习的深度强化学习算法研究[D];南京大学;2018年
16 赵珊珊;基于强化学习算法的配对交易策略研究[D];安徽大学;2018年
17 包涛;电力系统供需互动的多智能体博弈求解方法[D];华南理工大学;2018年
18 陈松;基于经验重放的深度强化学习算法研究[D];苏州大学;2020年
19 宋超峰;基于平均型强化学习算法的动态调度方法的研究[D];天津大学;2006年
20 邢立波;基于分层强化学习算法的稀疏奖励问题研究[D];华南理工大学;2020年
中国重要报纸全文数据库 前2条
1 本报记者 卢子月;认知无线电让网络不再拥挤[N];通信产业报;2011年
2 黑龙江 王宇宙 编译;认知无线电发展综述[N];电子报;2012年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978