英语原文共 11 页，剩余内容已隐藏，支付完成后下载完整资料

车载网络中基于深度Q学习网络的交通灯循环控制

摘要——现有的交通灯控制效率低下造成了许多问题，例如长时间的延迟和能量的浪费。为了提高效率，将实时路况信息作为输入并动态调整交通灯持续时间是必要的。在如何动态调整交通信号的持续时间方面，现有的研究要么将交通信号按相等的时间进行分隔，要么从真实数据中提取有限的交通信息。在本文中，我们研究了如何基于从不同地点的传感器所收集的数据以及车辆网络来决定交通信号的持续时间。我们建立了一个深度强化学习模型来控制交通灯，在这个模型中，我们通过收集数据将复杂的交通场景量化为当前状态，并将整个交叉路口分成小的网格。交通灯的变化时刻作为动作，它被视为高维马尔可夫决策过程。将两个周期之间累计的等待时间差作为奖励。为了解出这一模型，使用一个卷积神经网络将奖励与状态相联系。可以通过决斗网络、目标网络、双重Q学习网络和优先经验回放等组件对模型性能进行改善。我们通过在城市交通模拟（SUMO）中进行模拟车辆网络，仿真结果表明了我们控制交通灯模型的有效性。

索引词——强化学习，深度学习，交通灯控制，车辆网络

介绍

道路交叉口的管理是通过交通信号灯完成的，控制效率低下会导致许多问题，例如旅客的长时间延误和巨大的能源浪费，更糟糕的是可能会造成车辆事故。现有的交通信号灯控制要么是部署的固定程序，没有考虑实时交通，要么就是在一个非常有限的程度上考虑交通情况。固定的程序所设置的交通信号每个周期的持续时间相等，或是根据历史信息而有所不同。一些控制程序是从地下感应回路等传感器获取信息，以检测是否有车辆出现在交通灯前方，然而对于确定红灯/路灯的持续时间来说这是一种十分粗糙的方式。

在某些情况下，现有的交通信号灯控制系统可以正常工作，尽管它的效率很低，然而在许多其他情况下，比如足球比赛或是更常见的交通繁忙场景，这种时候交通灯控制系统就会瘫痪。相反，我们经常能看到一名交警通过手势来直接指挥交叉路口处的交通。在交通繁忙的情况下，操作员通过观察交叉路口处的实时交通状况并使用他的长期经验以及对于交叉路口的理解来合理地确定每个方向上允许通过的时长，这是非常有效的。这种观察促使我们去提出智能路口交通灯管理系统，可以将实时交通状况作为输入并学习如何像人类操作者一样管理交叉路口。要实施这样的系统，我们需要“眼睛”来观看实时路况和“大脑”对其进行处理。对于前者，传感器和网络技术的最新进展可以将实时路况信息作为输入，例如车辆数量、车辆位置及其等待时间。对于“大脑”部分，强化学习作为一种机器学习技术，是解决这种问题的一种很被看好的方法。强化学习系统的目标是让行动的代理了解通过与环境互动以换取最大奖励的最佳策略。例如，我们的交叉路口控制情景中的最短等待时间，它通常包含三个部分：环境中的状态，代理的行动空间，以及对与每一个动作的奖励。强化学习的著名应用是AlphaGo，包括AlphaGo Zero。 AlphaGo作为围棋游戏（环境）中的代理，首先观察到棋盘的当前图像（状态），并拍摄图像作为强化学习模型的输入，以确定下一部将棋子（动作）放置的位置。它的最终奖励是比赛获胜或输掉比赛。因此，奖励在游玩的过程中可能并不明显，但是在游戏结束后会很明确。当把强化学习应用到交通灯上时，关键点就是定义交叉路口处的三个分量，并且将他们进行量化使其可以被计算。

一些研究人员尝试动态控制那些使用了强化学习的交通信号灯，早期的一些研究比如通过等待的车辆数量或者等待的队列来定义状态。但是实际交通情况不能通过等待的车辆数量或者等待的队列来准确的捕获。随着车辆网络以及摄像头的普及，更多的有关道路的信息可以通过网络提取和传输，例如车辆的速度和等待时间。但是，更多信息导致状态的数量急剧增加。当状态数增加时，传统强化学习系统中的复杂度呈指数增长。随着深度学习的快速发展，深度神经网络已经被用于去解决多状态问题，它们构成了深度强化学习模型。一些最近的研究中已经把深度强化学习应用于交通信号灯，但是目前有两个主要的限制：（1）交通信号通常分为固定时间间隔，并且绿/红灯的持续时间只能是定长间隔的倍数，这在许多情况下效率并不高；（2）交通信号灯被设计为随机变化，这对与司机来说并不是一种安全和舒适的方式。在这篇论文中，我们研究通过提取车辆网络的信息来将交通灯信号控制在一个周期内。

我们的总体思路是模仿有经验的操作员，通过从车辆网络收集信息来控制每个周期信号的持续时间。为了实施这样的想法，将有经验的操作员转化成一个马尔可夫决策过程模型（MDP）。MDP是一个高维模型，它包含每个阶段的持续时间，系统基于MDP通过在深度强化学习模型上的不断试验学习控制策略。为了适应深度强化学习模型，我们将整个交叉路口变成网格并建立矩阵，每个元素是由车辆网络从相应网格中提取或有图像处理功能的照相机收集到的车辆信息。把矩阵定义为状态，两个周期累计等待时间的差异就作为奖励。在我们的模型中，卷积神经网络用于比较当前状态与预期奖励之间的差异。需要注意的是，每一个由我们模型产生的交通灯的动作受环境影响。当交通流动态变化使环境就变得不可预测，为了解决这个问题,我们在模型中采用了一系列可以改善性能的新技术，包括决斗网络、目标网络、双重Q学习网络以及优先经验回放。

在本文中，我们的贡献包括：1）我们是第一个结合决斗网络、目标网络、双重Q网络以及优先经验回放到一个框架中像轻松解决其他问题那样解决交通信号灯控制问题。2）我们是第一个提出用于决定整个周期阶段持续时间而不是将时间分为几个部分的系统的人。3）我们的模型在城市交通模拟（SUMO）这款交通微模拟器上通过广泛的实验展现了它的有效性。

本文的提示安排如下。文献综述详见第二节，第四节介绍模型以及问题声明，第三节介绍强化学习的背景，第五节展示有关于车辆网络交通灯控制系统的强化学习模型的细节，第六节将强化学习模型扩展为深度学习模型来处理我们系统中的复杂问题，第七节对模型进行了评估，最后论文在第八节结束。

文献综述

以前的工作已经可以动态控制自适应交通信号灯，但是由于仿真工具和算力有限，早期的研究重点是解决模糊逻辑、线性规划等问题，在这些研究中，道路交通是以有限的信息为模型的，无法大规模应用。

随着人工智能中深度学习的成功，越来越多的研究人员使用深度学习来解决运输问题。深度学习包括监督学习，无监督学习和强化学习，已经作为流量预测和路由应用于网络流量控制中。在交通灯控制问题中，因为没有足够的标记可以使用，而且交通场景受一系列动作的影响，强化学习是一种解决问题的很好方法，并且已经自1990年代起应用于交通信号灯控制。坦塔维（El-Tantawy）等人总结了1997年至2010年中使用使用强化学习来控制交通灯时长的方法，在这一时期里强化学习技术局限于表格Q学习，通常使用线性函数估计Q值。由于技术限制，在强化学习中，他们通常会做一个小型的状态空间，例如等待车辆的数量和流量统计。信号控制系统在[24]中提出。作者使用队列长度和当前的亮灯时间作为状态，并使用线性函数近似得到Q值。在中[25]提出了基于强化学习的协同交通信号灯控制系统。作者建议对车辆进行聚类并使用线性函数用于近似出Q值。然而只把对列信息用于状态，一个复杂的交通系统不能通过这些有限的信息进行准确的呈现。当更多有用的相关信息在有限的状态下被省略，似乎无法在交通信号灯控制中发挥其最佳作用。

随着深度学习和强化学习的发展，他们结合在一起作为深度强化学习用于估计Q值。一些研究人员应用深度强化学习来控制无线通信，但是系统直接用于交通信号灯场景，因为动作和状态有所不同。在[28]中提出了基于游戏的方法来管理无人机的无线通信（UAV），并在[29]中提出了一种Q学习方法，在多个UA中有效分配通信资源。我们在表一中总结了将基于价值的深度强化学习用于控制值交通信号灯的近期研究，这些先前的研究有三个局限，首先，他们大多数在一个简单的仅有直通交通的十字形交叉点中测试他们的模型。其次，这些先前的研究都没有将交通灯信号确定在一个时间周期内。第三，深度强化学习是一个快速发展的过程，这两年提出了许多新的想法，例如对决深度Q网络，但是它们没有被应用于交通控制。在本文中，我们做了进一步的研究，首先，我们的交叉路口场景包含多个阶段，它们相当于一个周期内的高维动作空间。其次，我们的模型能够保证交通信号的时间能够在两个相邻动作之间平稳变化，这在MDP模型中已被完全定义。第三，我们在基于价值的强化学习算法中采用了最新技术，能够通过仿真评估，实现其良好的性能

深度强化学习的背景

强化学习是机器学习的一种，它通过与环境互动反复试验后学习到一种能够使目标奖励最大的方法。在强化学习中，代理是行动的执行者，采取一步行动后环境会返回一个根据当前状态与动作得出的奖励数值。四元组lt;S; A; R; T gt;可以被用于定义一个强化学习的模型

S:可能的状态空间。s是特定状态；

A:可能的行动空间。a是一个动作；

R:奖励空间。rs;a是状态为s是采取行动a所能得到的奖励；

T:在所有状态之间的传递函数空间，指的是一个状态转换为另一个状态的可能性。

在确定性模型中，通常会省略T。

策略由一系列后续操作组成，强化学习的目标就是学习到一种从初始状态开始，使累积的期望奖励最大的最佳策略，一般来说，代理处于一种特定状态s，并采取了一个动作a达到了状态srsquo;并且得到了奖励r，用lt;s; a; r; srsquo;gt;来进行表示。让t代表政策pi;中的第t步。在状态s处采取行动a后的未来累计奖励由Q(s; a)表示。

在公式中，gamma;是折现因子，通常为在[0; 1)。这意味着最近的奖励比未来的奖励更加有价值。

最佳行动策略pi;*可以通过递归来获得，如果代理知道下一状态的最好Q值，，那么最佳策略就是选择获得最高累计奖励的行动。因此，最佳Q（s；a）就是根据下一状态的最佳Q值计算得到的，它可以用贝尔曼最优方程Qpi;lowast;（s; a）计算并表示。

直观上来看累计奖励与直接奖励加上这之后的最佳未来奖励相等，如果可以获得预计的最佳未来奖励，从这开始的累计奖励就可以计算了。这个方程可以通过动态编程来解决，但是这需要状态的数量是有限的，使计算的复杂程度在可控范围之内。当状态数量变多时，需要一个函数theta;来近似Q值。

问题描述

本文旨在控制十字路口处的交通信号灯，十字路口处的交通灯有三种信号绿色、黄色和红色。当有车辆出现在十字路口的多个方向上，一个信号灯可能不足以去管理所有的车辆，这时就需要多个交通灯在这路口上共同进行管理。所有交通灯的红色和绿色的合理组合就被定义为一个状态，在这里忽略黄灯。在一个十字路口，交通信号灯会通过更改他们亮灯的颜色来引导车辆进入一个非冲突的方向。这段保持同一状态的时间就称为一个阶段，这些阶段的数量由十字路口上的合理的状态数所决定。所有阶段都以固定顺序循环变化来引导车辆通过十字路口。当阶段重复一次时就称为一个周期。一个周期内的阶段的顺序是固定的，但是每个阶段的持续时间根据当前的交通状况自适应。当一个阶段需要被跳过时，它的持续时间就被设为0秒。我们的课题就是动态调整每个阶段的持续时间来解决一个十字路口上的不同交通情况从而达到最小延迟。

我们的课题是让交通灯从历史经验中进行学习然后动态调整每个阶段的时长从而优化十字路口的效率。一个阶段的时间应该在通过该方向上的车辆数量增多时进行策略性地延长。在这篇文章中，我们建立了一个深度Q学习网络，学习每个阶段的计时策略来优化交通灯的管理。我们的网络通过不断接收环境中的状态和奖励来进行自我更新。模型在Fig. 1中展示，左侧为交通信号灯中的结构，交通信号灯首先根据车辆网络或其他工具来收集路况信息，这些在图中用紫色虚线表示。交通信号灯处理数据以获得交通状态和奖励，这在之前的研究中都是被假定的。交通灯基于当前的状态和奖励，通过使用右侧所示深度神经网络来选择下一个动作。在左边是强化学习部分在右侧是深度学习部分。

我们的强化学习模型

在这个部分，我们定义了我们RL模型的三个组成部分：状态、行为以及奖励。

状态

我们根据交叉路口车辆的位置与速度定义状态，通过车辆网络或其他工具，车辆的位置和速度都可以得到。交通信号灯可以提取当前路口车辆的虚拟快照图像。整个路口被分为尺寸相同的正方形小方格，网格长度c应保证在该区域内不能同时容纳两辆车，并且每个方格都能容纳一辆完整的车，这样可以减少计算量。在每个方格，状态值是一个根据内部车辆而设定的二值向量lt;位置，速度gt;，位置维度是一个二进制值，表示是否网格中有一辆车。如果网格中有车辆，则网格中的值为1；否则为0。速度维度是一个整数值，表示车辆的当前速度

剩余内容已隐藏，支付完成后下载完整资料

资料编号：[238246]，资料为PDF文档或Word文档，PDF文档可免费转换为Word

原文和译文剩余内容已隐藏，您需要先支付 30元 才能查看原文和译文全部内容！立即支付

以上是毕业论文外文翻译，课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。

注册

找回密码

车载网络中基于深度Q学习网络的交通灯循环控制外文翻译资料

车载网络中基于深度Q学习网络的交通灯循环控制

您可能感兴趣的文章

登录

车载网络中基于深度Q学习网络的交通灯循环控制

您可能感兴趣的文章