当前位置:主页 > 科技论文 > 路桥论文 >

基于多智能体的城市路网交通信号控制研究

发布时间:2025-06-06 00:50
  交通信号控制是缓解交通拥堵、提高出行效率和减少安全事故的重要手段。固定配时方法是交通信号控制系统常用的控制算法,其缺点在于难以根据实时的交通流实现红绿灯信号的自由切换,增加不必要的等待时间。因此寻求更加高效、智能的交通信号控制方法愈加受到研究者的关注。由于交通控制系统是一个复杂的不确定系统,并具有非线性结构,传统的自适应方法虽然颇有成效,但还是难以适应多变的交通流,对交通模型依赖严重。而强化学习方法不需要建立交通模型,而是通过路口控制器与交通环境的不断交互与学习,实现控制方案的改善。本文将交通信号控制系统当成由单个交叉口信号控制器Agent组成的多智能体系统,并引入强化学习方法实现城市路网交通信号控制。对路网的最小控制单元,即单交叉路口的研究是实现区域交通控制的基础。当前科技的迅速发展使得交通数据的收集更加便捷,为了充分使用收集的交通数据,引入深度强化学习算法实现交叉口的实时控制,并提出了一种新的状态空间设计方法。解决了传统强化学习方法难以应用到状态空间较大或连续系统中的弊病。并使用深度强化学习算法在微观交通仿真软件SUMO中对单个路口进行仿真,实验结果验证了该方法的有效性。在单交叉口信...

【文章页数】:67 页

【学位级别】:硕士

【部分图文】:

图3.10每个步长累积奖赏值

图3.10每个步长累积奖赏值

第三章深度强化学习在单交叉口控制中的应用27图3.9一个步长中车辆到达率分布情况SUMO中车辆进入路网的个数和路径都需要人为设定,即仿真前要定义路由文件,路由文件对最终仿真的影响比较大,车流量的不同最终训练的结果差异也很大,本文使用动态交通流对交叉路口进行训练,使得交叉口最终学习....


图4.9三交叉口干道仿真路网仍然采用SUMO作为仿真平台,交叉口分别记为intersection1、intersection2、

图4.9三交叉口干道仿真路网仍然采用SUMO作为仿真平台,交叉口分别记为intersection1、intersection2、

第四章区域交通信号协调控制45表4.2NashQ学习算法更新过程NashQ学习算法1:对S×A1×A2中的112(,,)tQsaa和212(,,)tQsaa赋初值2:对所有的Agenti2:设定初始状态S03:交叉口分别选取动作1ta和动作2ta,动作的选取同样遵循ε贪心法,即以....


图4.10每个周期中车辆的到达率分布情况

图4.10每个周期中车辆的到达率分布情况

东南大学硕士学位论文46图4.10每个周期中车辆的到达率分布情况则使用NashQ学习算法实现交叉口控制时,每周期的车辆总体延迟曲线如图4.11所示。图4.11NashQ学习算法与定时控制算法总体延迟时间比较由图可以看出,虽然交叉口intersection1可能并未达到自身状态的最....


图4.11NashQ学习算法与定时控制算法总体延迟时间比较

图4.11NashQ学习算法与定时控制算法总体延迟时间比较

东南大学硕士学位论文46图4.10每个周期中车辆的到达率分布情况则使用NashQ学习算法实现交叉口控制时,每周期的车辆总体延迟曲线如图4.11所示。图4.11NashQ学习算法与定时控制算法总体延迟时间比较由图可以看出,虽然交叉口intersection1可能并未达到自身状态的最....



本文编号:4049536

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/daoluqiaoliang/4049536.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户a5b68***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com