OnPL算法在自动化集装箱码头自适应调度AGV中的应用外文翻译资料

 2022-04-30 10:04

英语原文共 14 页,剩余内容已隐藏,支付完成后下载完整资料


OnPL算法在自动化集装箱码头自适应调度AGV中的应用

Ri Choea, Jeongmin Kimb, Kwang Ryel Ryu

摘要

本文提出了一种名为OnPL的在线偏好学习算法,该算法可以动态调整AGV的调度策略,以适应自动化集装箱码头中不断变化的情况。该政策基于成对偏好功能,可以重复应用于多个候选人职位,以找出最佳职位。因此,通过更新该偏好功能来对策略进行调整。在每次调度决策之后,所有考虑用于决策的候选工作都将通过运行一个短视超前视界的模拟来评估。然后,最好的工作与每一个剩余的工作配对,以形成正面偏好的训练实例,并且这些对的反转每个都用于产生负面偏好的例子。这些新的训练样例,连同储备池中的一些其他新近例子,用于重新学习由人工神经网络实现的偏好功能。实验结果表明,OnPL可以实时重新学习它的策略,从而可以无缝地适应变化的情况。与OnPL相比,其他方法由于需要非常长的计算时间而不能很好地适应或不能实时应用。

关键字

车辆调度,自动化的容器terminal Machine学习,遗传算法,人工神经网络

1.介绍

自动化集装箱码头中的自动导引车辆(AGV)在码头边的码头起重机(QC)和堆场的自动堆垛起重机(ASC)之间运输集装箱,以支持卸货和装载作业。在卸货操作中,通过QC从容器中取出入库容器并将其交给AGV。然后集装箱由AGV提供给一个ASC在院子里的一个存储区,在那里堆放和储存,直到它被要求进行道路运输。集装箱在装载作业中移动的方向是相反的。首先,ASC从它所在的区域拾取要装载到船上的出站集装箱。接下来,将其交给AGV,然后交付给服务目标船只的目的地QC。为了最大限度地提高终端的生产率,应该有效地执行卸载和装载操作,以使每个容器的周转时间最小化。影响码头生产力的关键因素之一是程度AGV和起重机即QC之间的同步先进的结构陶瓷。如果AGV能够以这种方式与起重机协作起重机不需要等待AGV,装载和卸载操作可以毫无延迟地无缝执行。简单地增加这种合作并不容易实现这种合作由于发生交通拥堵导致的AGV数量导致交货延迟。需要的是一个好的调度该方案允许更有效地安排AGV。

AGV调度可由车辆或工作启动。对于车辆发起的调度,刚完成其先前任务的车辆选择要完成的工作。对于工作启动的调度,尚未分配车辆的最紧急工作是选择车辆。在本文中,我们提出了一种车辆发起的AGV调度方法。很多以前的AGV调度工作都是针对制造系统的自动化。已经提出了各种方法,从采用简单的启发式规则到使用马尔可夫决策过程,模糊逻辑和神经网络。由于其制造系统环境中的路径布局相对简单且AGV数量较少,所以诸如最近工作中心优先规则的简单启发式和修改后的第一先到先服规则的变化已经表现出良好的性能。尽管并不多,但以前有关于自动化集装箱码头AGV调度问题的研究。这些工作不仅提出了使用简单的基于规则的方法,而且提出了基于数学规划的优化方法。

我们在本文中讨论的调度问题自动化集装箱码头中的AGV有两个目标。一个是以最大限度地提高QC生产力,另一个就是最小化排放量。减少了二氧化碳的排放量最近由于环境问题更多的关注可以通过减少AGV的空行程距离来实现。虽然减小空行程可能会提高效率,AGV操作的效率,从而有助于减少质量控制延迟,对空行程减少非常强烈导致对QC的服务牺牲,从而导致QC的增加延迟。通过将空行程减少作为一个明确的目标,我们准备交换QC生产力以减少排放量。请注意,简单的基于规则的方法由于其简单性而在实现多个目标方面表现出一种限制做决定的过程。Kim等人通过解决这个问题引入多标准评分函数来评估和选择候选人工作。他们的评分函数通过基于评估的加权总和来计算可以完成任务的分数各种标准。每个标准都旨在评估工作状态从QC生产率或空行程的角度来看距离。由于得到的分数取决于这些的权重标准,因此不同的权重向量带来不同最佳候选者,权重向量被视为调度策略。追求在各种条件下运作良好的最佳政策,Kim等人的方法在政策空间中进行搜索以找到一个当使用一组模拟进行模拟时,它显示出最佳平均性能各种训练场景。但是,由此获得的政策失败了以在应用于场景时显示最佳性能这与他们接受的培训不同。此外,他们的政策搜索需要数小时的CPU时间,使其无法调整他们的政策实时适应新情况。将我们的工作与以前的工作区分开来的另一个方面是,我们的调度策略旨在在不确定和动态的环境中工作。集装箱码头的工作进度往往偏离对不可预测的理由的期望。将容器装载到船上所用的时间取决于QC操作员的技能水平和/或天气条件。如果其他容器堆叠在目标容器的顶部,ASC从容器中取出容器的时间可以延长。 AGV的旅行时间不仅取决于行驶距离,还取决于它可能面临的交通堵塞。在这种情况下,终端的定位随着时间而不断变化,因此我们实际上面临着无数种不同的情况。应当指出的是基于简单启发式或静态优化方法的调度策略在这种类型的环境下不会轻易实现AGV和起重机之间的同步。然而,本文提出的调度方法能够通过实时学习和调整调度策略来适应变化的情况。本文提出的AGV调度方法使用一个优先函数,它返回一个实数作为优先值对于给定的一对候选人。当给予k个候选人时,最好可以通过将这种成对的偏好函数应用于每个可能的对来对其进行排序。如果不同的偏好有冲突任何,都可以使用Cohen等人开发的启发式方法来解决。为了将AGV分派到其适当的交付工作中,优先功能由一组属性表示其价值是通过评估基于候选职位而获得的关于实现这两个目标的各种标准如上所述。其中一些标准包括紧急情况候选作业,到目标容器的空行程距离,以及作业所需的加载行程距离。我们的方法的关键特征之一是,为了适应不断变化的现场情况,偏好功能在每次调度之后被重新学习行动。在准备学习的过程中,每个候选人的工作都被看到了通过短期模拟来评估决策的时间超前视界。然后生成一组训练实例从这些候选人的工作。每个培训示例都是一对工作,其中第一个比第二个更适合积极考试,反之亦然。减轻效果嘈杂的例子,可能会导致偏好冲突,例子根据不同的程度,权重会有所不同每个示例中的一对作业之间的偏好。多少更好的一项工作比另一项工作更好仿真结果。实验结果表明我们的在线学习方法可以真正使调度适应变化的情况。其他方法比较不能很好地适应或者由于需要非常长的计算时间而不能实时应用。虽然似乎不适应当AGV的工作量不是太重时,它是必不可少的有所作为,特别是在工作量很高的情况下时可用的AGV数量不足。

本文的其余部分安排如下。下一节将通过一个自动化集装箱码头的布局图来详细描述AGV调度问题。第3节回顾了AGV调度问题的先前工作。第4节介绍了我们的在线偏好学习算法。第5章通过一系列实验从与其他算法的比较中评估所提出算法的性能。最后,第6节提供了总结和一些结论性意见。

  1. 自动化集装箱码头中的AGV操作

图1显示了自动化集装箱码头的布局,其中AGV在停机坪区域四处移动,以便在码头和堆场之间运送集装箱。内陆地区是外部通道进出的地方,以便将集装箱运往/来自内陆目的地/来源。堆垛场地由许多集装箱堆垛组成,每个集装箱堆垛都有一对ASC用于集装箱堆垛和取回。在堆场内的每个区块前面有几个切换点(HP),其中AGV和ASC之间的集装箱转移发生。外部卡车和ASC之间的集装箱转运发生在每个区块后面的HP处。在每个QC的后面还有一个HP,用于从AGV出发的集装箱转运。不允许AGV在QC下的任何HP处闲置。他们可以留在惠普的一个街区前,也可以留在街区和码头区之间的停机坪中间的等候区。图中垂直方向上显示的一些AGV处于等待状态。

用于船舶的集装箱的装载和卸载均按照预先确定的顺序执行,所述顺序通过考虑各种约束和条件来仔细预先计划。构建装载顺序尤其复杂,因为集装箱的重量,它们的目的地端口以及他们在院子里的堆放状态应该全部同时考虑。重量较大的容器应装在较轻的容器之前,以便容器的重量平衡。那些到较远的目的地应该先装到那些较近的地方以避免重新处理。图2(a)显示容器中的容器堆放在沿纵向排列的隔间中。QC通常从海湾开始工作,并按顺序移动到下一个海湾,以最小化龙门行程。船舱内的集装箱根据其目的地港口分组存储,如图2(b)中的A,B和C所示。装卸计划是在这个装载计划在船舱内施加的限制下建造的。另一方面考虑到堆场中堆放在较高位置的那些集装箱应尽可能装载在堆放在较低位置上的集装箱,以尽量减少从堆场取回时所需的重新处理。由于任何单个作业的延迟都会扰乱整个过程,因此终端运营商会尽力使装载操作顺利进行,这对于整个终端的生产力至关重要。应避免由AGV延迟到达导致的QC或ASC延迟,以最大限度地提高生产率。考虑到并行进行的集装箱装载和卸载顺序,AGV的调度以确定下一步要完成的交付工作以及哪些AGV直接影响起重机的生产力和AGV的运营成本。

AGV的交付工作由四个步骤组成:空到惠普集装箱接收,接收(或取件)集装箱,装载到目的地惠普,并释放(或丢弃)的容器。假设AGV被分配了一个装载作业权完成之前的工作后。它首先必须向要装载的目标容器的块上的HP中的一个进行空行程。然后在那里等待块的ASC检索和把容器放在上面。容器装上后,它开始一个加载的旅行到HP下的QC应该是将容器装载到目标容器上。一旦容器由QC接收,AGV移动到等待区域下一份工作分配。如果将空转AGV分配给卸货作业,则它将根据应该卸货的QC传送给HP目标容器。收到QC的容器后,加载的AGV行进到容器所在区域的HP计划被堆叠。在顶部的容器被拾起后该块的ASC,AGV在那里等待下一个作业。

在向ASC或QC发布容器后完成工作后,如果AGV从下一次交付工作中从同一台起重机接收到另一个集装箱,它可以完成这项工作,而无需任何空行程。这种所谓的双循环运行有助于减少运行中的一组AGV的空行程。现代集装箱码头的许多运营商试图建立一个可以最大化双周期的装载和卸载计划,因为AGV的有效使用导致起重机等待AGV的时间减少。但是,减少空行程的努力有时会导致更长的起重机延误。作为一个考试,假设一个区块的ASC需要将一个出口集装箱放到一个AGV上,以便交付给QC以装载到船上。如果刚刚从其工作中释放的AGV远离ASC,并且在HP的另一个AGV处,仍然忙于其当前工作,则该第二AGV可能是用于减少空行程距离的更好的候选者。但是,如果第二AGV到ASC的预期到达时间晚于第一AGV的预期到达时间,则ASC不得不等待AGV的较短空行程距离的好处。ASC等待更长时间会导致更长的QC延迟。选择取决于两个目标的相对重要性,即提高QC生产力或减少AGV的空行程距离。

图1.自动化集装箱码头的布局

图2.船舱(a)和海湾的装载计划(b)

  1. 相关工作

以前AGV调度的大部分工作都集中在制造系统或物流中心的自动化上。这种方法大致可以分为两类:一类基于简单的启发式调度规则,另一个基于最优方案。模拟启发式规则对于实时应用程序是有利的,因为它们不需要太多计算。然而,由于他们决策的狭隘性和短视性,其对提高运营效率的有效性有限。除了目前的工作之外,构建最优计划的方法可以通过预测未来工作来做出更好的决策,但是计划需求随着计划的工作量而呈指数增长。另一个需要指出的方面是,如果环境在不确定情况下动态变化,那么最优方案就没有多大用处,因为任何方案在这样的环境中执行后不久就会过时。

滚动时域方法试图通过在一个相对较短的时间范围内()迭代地重新调整当前和未来的工作来克服这个问题。然而,随着连续重新安排之间的间隔变短以应对更高程度的不确定性或动态性,由于实时约束较困难(因为没有足够的时间来计算新的工作时间表),因此地平线的长度应相应缩短。这不可避免地导致生成的时间表或计划的质量的牺牲。 Briskorn等人基于库存的分配方法将启发式算法与最优化方法相结合,以减少在一个地平线上安排工作所需的计算量,从而可以安排合理长度的地平线。但是,这里的主要目标是提高QCs的生产率。减少空行程的数量并不是他们明确的目标,只是为了帮助加快QC处理。

其他以前关于AGV调度的着作主张使用a政策。政策可以被看作是从一组国家到国家的映射一系列行动。在AGV调度的情况下,状态是给定的终端的工作情况,并且一个动作对应于任一直接从候选职位中选择一个职位或者申请一份职位调度规则以及其他可选规则。使用这样的政策的一个优点是它可以通过用一组相关特征来表示状态来考虑各方面的决策。另一个优点是,在任何特定情况下应用策略时,通常都需要很少的计算时间,尽管时间比简单的启发式规则还要长。获得良好政策的方法采取了几种不同的方法。一种这样的方法通过使用模拟退火或遗传算法直接搜索策略空间中的良好策略。在这方法,每个候选人政策通过应用来评估通过模拟和观察结果表现的各种情况。这种方法的一个问题是,搜索算法只能找到一个策略,该策略显示为所提供的一组仿真场景显示最佳平均性能的策略搜索过程中的评估。虽然它可能是可能的通过提供某种特定情况来获得政策搜索算法仅适用于特定情况下的情景,因此不可能先验地推导出各种策略几乎无限的情况。另一种方法脱机监督学习从一系列决策中获得一个好的策略?在各种情况下收集实例。这种方法也遭受无限数量的问题的情况。

另一个可行的获取政策的方法是应用强化学习方法。强化学习的任务是通过反映观察到的奖励来学习最优策略在执行一系列操作后反馈回来。学习时下棋,例如,每个个人行为的好处或坏处在游戏中间都没有清楚地看到。只有当游戏结束后会获得某些积极或消极的回报可用。在这样的环境下,强化学习就是只有从经验中学习的可行方法。的早期应用试图强化学习来解决小规模的问题非常规化的问题,例如玩具游戏或机器人控制,其中状态和动作的数量都很小。最近的作品已经报道了应用于更大规模的真实世界的问题,其中的研究是通过Zeng等人与我们自己特别相关。在这个研究中,使用称为Q学习的强化学习算法学习常规集装箱码头中的堆场起重机和堆场尾部优化调度政策。状态或情况是简单地由一个单一的属性来表示,这是一个数字等待拖车调度的QC和起重机调度的等待追踪者数量。一项行动不是选择一项工作分配但是选择要在其间应用的调度规则三个给定的启发式规则。虽然这样过分简化导致比我们更糟糕的表现,强化学习本身似乎是在不确定和动态环境中学习政策的好选择,因为

全文共29962字,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[12935],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。