基于多智能体的城市路网交通信号控制研究
【文章页数】:67 页
【学位级别】:硕士
【部分图文】:
图3.10每个步长累积奖赏值
第三章深度强化学习在单交叉口控制中的应用27图3.9一个步长中车辆到达率分布情况SUMO中车辆进入路网的个数和路径都需要人为设定,即仿真前要定义路由文件,路由文件对最终仿真的影响比较大,车流量的不同最终训练的结果差异也很大,本文使用动态交通流对交叉路口进行训练,使得交叉口最终学习....
图4.9三交叉口干道仿真路网仍然采用SUMO作为仿真平台,交叉口分别记为intersection1、intersection2、
第四章区域交通信号协调控制45表4.2NashQ学习算法更新过程NashQ学习算法1:对S×A1×A2中的112(,,)tQsaa和212(,,)tQsaa赋初值2:对所有的Agenti2:设定初始状态S03:交叉口分别选取动作1ta和动作2ta,动作的选取同样遵循ε贪心法,即以....
图4.10每个周期中车辆的到达率分布情况
东南大学硕士学位论文46图4.10每个周期中车辆的到达率分布情况则使用NashQ学习算法实现交叉口控制时,每周期的车辆总体延迟曲线如图4.11所示。图4.11NashQ学习算法与定时控制算法总体延迟时间比较由图可以看出,虽然交叉口intersection1可能并未达到自身状态的最....
图4.11NashQ学习算法与定时控制算法总体延迟时间比较
东南大学硕士学位论文46图4.10每个周期中车辆的到达率分布情况则使用NashQ学习算法实现交叉口控制时,每周期的车辆总体延迟曲线如图4.11所示。图4.11NashQ学习算法与定时控制算法总体延迟时间比较由图可以看出,虽然交叉口intersection1可能并未达到自身状态的最....
本文编号:4049536
本文链接:https://www.wllwen.com/kejilunwen/daoluqiaoliang/4049536.html