一种基于时空一体化的无人驾驶汽车的自动视觉导航外文翻译资料

 2022-08-02 02:08

英语原文共 12 页,剩余内容已隐藏,支付完成后下载完整资料


原文翻译:

一种基于时空一体化的无人驾驶汽车的自动视觉导航

E. D. DICKMANNS, B. MYSLIWETZ, AND T. CHRISTIANS

摘要:将卡尔曼滤波方法应用于大规模物体运动的动态模型,将其推广到图像序列处理中。这使得图像处理仅限于序列的最后一帧,并且通过平滑预测误差的积分来导出包括空间速度分量的直接空间解释。本文给出了高速下道路车辆运动的结果,包括障碍物检测和单目相对空间和状态检测。讨论了相应的数据处理体系结构;该系统已在MIMD并行处理系统上实现,可以证明速度高达100 km/h。

一、引言

移动的持续发展是实时了解这一移动的先决条件。每秒显示25或30帧而暂时被压缩成视频速率的幻灯片放映不会被人类察觉。由此可见,动态场景分析比快速静态图像处理更具优势。空间和时间的连续性条件支配着对现实世界中发生的过程的理解。

视频速率的定义使得人类观察者(通常上)不会注意到运动中存在的间隔,即便它们确实存在。人类视觉系统区分两个时间的时间需要两个事件相隔约30ms[16]。另一方面,如果位移不太大,以10赫兹显示的运动会看起来很平滑。这些事实使我们明确了在10到30赫兹的频率下,如果在人类视觉范围内的动态行为的理想的图像处理速率。图像处理速率最好为50或60hz的全视频半帧速率,以减少从一帧到下一帧的特征搜索空间。这意味着,图像序列处理和待处理的图像序列可以以2到6的因子以不同的循环时间运行。

在自然科学中,时间连续性条件用微分方程描述。参考文献[11]对这些所谓的动态模型进行了改进,以实现递归最小二乘状态估计,给定噪声损坏的测量,即使未测量所有变量,也能给出相对长度单位的轮胎状态变量集的最佳估计。这一著名的原理,最初是针对线性系统发展的,已经扩展到非线性原理。在我们的机器视觉方法中,该方法被进一步扩展到包含三维形状描述和透视投影,作为从目标状态到图像序列中被测量特征的基本转换。

现代控制理论中使用的动力学模型包括状态转移分量(时间连续性)和综合控制驱动效应的控制分量。这些特性对于车辆的自主导航至关重要。可以建立期望值为在何处查找感兴趣的特性以及何时从一组特性切换到另一组特性的视觉过程提供信息。从时间的角度来看,主动感知也被认为是必要的:大规模系统和测量过程会受到相位偏移(延迟)的影响,而相位偏移(延迟)可以被超前信号抵消,而超前信号又很容易从动力学模型中推导出。

该方法已成功地应用于四个不同的问题领域:

  1. 电动小车上倒立摆的平衡[14];
  2. 卫星模型设备的交会对接[19],[20];
  3. 模拟喷气式飞机的自主着陆进近,图像处理硬件处于实时循环中[7];
  4. 高速道路车辆引导[21]。

文献[4]综述了一般方法及其四种应用。

最后一个应用领域将在本文的后半部分详细讨论。将使用相同的基本“4-D方法”讨论相对于道路和另一物体的Ego状态估计。甚至可以使用相同的方法递归地估计道路曲率参数。它在数值上是有效的,并且允许用今天标准的十几个微处理器来达到所要求的循环时间。

二、时空一体化方法

我们发现三维时空框架非常适合对日常环境科学中机械过程的可靠描述。对象在该环境中定义为具有特殊属性或功能的单位。为了简单起见,我们目前只限于刚性物体,这些物体可以是具有固定形状的单位随着时间推移而移动(例如车辆、障碍物)或是环境的静态部件(道路、建筑物、设施等)。每个对象在相对于观察者的框架中都有空间形状(三维)、位置和角度方向。根据目标的流动性对目标进行分类:1)环境物体固定在环境中,确定其视觉形态,如道路、路肩、树木和建筑物;2) 静态对象当前处于静止状态,他们可能被移动,甚至可能属于上一级;3) 能够自主运动的物体。在[3]中,如果该类成员根据通过传感器收集的有关环境的信息控制其运动,则最后一类被称为表现对象。这似乎是合理的,因为要预测他们的运动行为信息,他们内在的“心理”状态必须知道或被假设出来。

观察者是第三类的一个对象,它的模型是让它的运动能力和一些基本的几何特性是已知的。这涉及激活控件的因果关系和随时间的状态转换,以及视觉传感器相对于与环境交互的身体部位(例如,轴距)的位置和方向。

在刚体力学中,物体的运动通常分为重心平移和重心旋转。这些运动由常微分方程描述,包括控制输入的影响。挖让用已知的方法导出了控制、转移矩阵和控制效果矩阵。车身形状的特点是易于提取的视觉特征及其与假设对象的相对位置。目前,只能实时处理基于不同方向的线元素(大致切线)的粗糙形状描述。

通过前向透视投影实现了从三维形状到可感知特征的转换,并考虑了对整个空间车辆状态的实际最佳估计。同时,计算标称值的雅可比矩阵(即特征位置和方向相对于所有时空状态分量的偏导数矩阵)。然后,基于预测特征位置和测量特征位置之间的差异,使用该丰富信息以最小二乘方式递归地调整状态估计。该方法基于时空世界模型(4d模型)中的连续性条件,避免了透视投影的非均匀反演(详见[4]。)

这种方法有以下几个非常重要的实用优点。

  1. 作为解释过程的中间步骤,不需要存储和检索先前的图像来计算图像中的光流或速度分量;
  2. 在更高层次知识的基础上,结合时空方面的4-D世界模型,以非常直接的方式实现了从信号(图像中的像素数据)到符号(对象的时空运动状态)的转换;
  3. 允许将有限的计算机资源集中到已知携带有意义信息的感兴趣区域,智能非均匀图像分析将成为可能;
  4. 观察方向控制可以直接以面向对象的方式进行,
  5. 计算机的图像处理功能架构可根据空间对象的内部表示进行设计。

图1示出了基于这些原理的视觉系统的结果整体框图。在左边,真实的世界是由一个方块显示的;对自己车辆的控制输入可能通过改变观察方向或通过自我运动导致世界视觉外观的变化。物体及其在世界上的相对位置随着时间的推移而不断变化,这是由CCD传感器阵列(显示为从“真实世界1”(左上角)到右下角的汇聚线,象征着从三维到二维的数据缩减)。它们以固定的采样率记录来自某一视野的入射光强度。通过这种成像过程,信息流以几种方式离散化:图像平面的空间分辨率有限,速度离散化为16 2/3或20 ms,通常包括一些随时间的平均值。

图1 基于预测误差最小化的4D图像序列理解基本方案

为了理解三维场景,我们选择了一种通过综合分析的不同方法,而不是试图反转该图像序列。根据人类以往的经验,三维世界中物体的一般模型在解释过程中被假定为已知的。这包括三维形状(通过给定纵横比条件的某些特征聚合可识别)和随时间变化的运动行为。在初始化阶段,从由低级像素处理(bv2,图1中的左下角)提取的特征集合开始,必须生成包括纵横比条件和空间中的运动行为(转移矩阵)的对象假设(左上角)。它们被安装在一个内部的“心理”世界中,意在复制外部的真实世界。哲学家K.波普尔有时称之为“世界2”,而不是真实世界1

一旦在世界2中实例化了对象的聚合,利用动力学模型,就可以预测下一次测量的时间点的对象状态。通过将前向透视投影应用于那些将非常可见的特征,使用与TV传感器相同的映射条件,可以生成一个模型图像,如果正确地理解了情况,则该模型图像应该复制测量图像。因此,情况是“想象中的”(图1中的右下角)。这种方法的最大优点是,由于内部四维模型不仅可以确定当前的实际情况,而且可以确定特征位置对状态变化的灵敏度矩阵,即所谓的雅可比矩阵(右中上角,右下角)。利用这些丰富的信息,通过特征预测误差的反馈,通过递推最小二乘滤波绕过透视反演。不过本文篇幅限制,不能讨论更多细节。
如果预测误差随着时间的推移而减小并保持较小,则认为该过程是可识别的。注意,在这种方法中,收敛同时发生在空间状态变量和时间上。因此,它被称为四维方法。如果测量图像中的某些特征不能与实例化的模型相匹配,则必须生成新的假设,因为这可能表明出现了新的情况。由于测量噪声在现实世界中无处不在,这种新的假设过程只有在这些非匹配特征反复一致出现之后才开始。

三、系统组件及概述

实验装置的主要组成部分是用于自主移动和计算机视觉的试验台车辆(称为“瓦莫尔斯”)和用于实时图像序列分析和解释的专用实验性多处理器视觉系统。

瓦莫尔斯(图2)是一款转换后的5吨van,配备了所有必要的执行器,接口和车载发电机等,在计算机控制下自主驱动,并作为“滚场实验室”,用于计算机视觉研究。

图2 用于自主移动和计算机视觉的试验台车辆“VaMoRs”

一个机电云台,带有两个CCD摄像机,安装在前风屏蔽后面仪表板的中间,提供快速的2轴观察方向控制(图3)。其控制处理器是视觉系统的一部分。因此,图像分析和主动观看方向控制的互补视觉功能紧密耦合。配备有不同焦距的透镜,可以在广角图像中分析场景以获得全局特征(例如道路边界),并且在放大图像中具有更多细节(例如,用于聚焦于前面的物体或障碍物)。

图3 车内摄像头云台

相机指向功能允许主动场景搜索和跟踪,例如,用于初始自定向,减少模糊和驾驶时的连续道路跟踪。由于显而易见的原因,当车辆改变航向或进入紧密曲线时,我们不希望从相机的视野中失去道路,尤其是对于障碍物识别,所以必须使摄像机主动集中感兴趣的潜在障碍物的场景部分。

用于实时场景分析和车辆控制的所有车载处理由一个特殊的实验多处理器系统BVV2[8],[15]和一个IBM 7532(IBM AT的工业版本)作为其主机处理。MIMD类型的多处理器系统由13台商用标准多总线1型单片机组成(完整配置),性能可以达到从8086到80386的范围。

这种多处理器视觉系统的关键功能是直接参与图像操作的所有CPU的物理分布式,因此真正并行的图像访问功能。这克服了通用机器常见的I/O瓶颈,其中通常只有一个处理器(如果有的话)具有直接的图像访问。这里,不存在中央帧存储。通过视频总线接口接口(VBI)任何链接到视频总线接口的任何处理器都可以同时访问和处理数字化256 x 244x8位/像素灰度图像的子段(窗口)。VBI基本上是标准单板计算机的硬件附件,包含窗口选择逻辑和两个快速窗口缓冲器,每个缓冲器存储4k像素。在软件控制下,多个窗口可以独立定位或改变尺寸,形状和采样密度。

应该注意的是(VBI除外)此实验系统中没有使用定制硬件和专用图像处理设备。恰恰相反,应用易于编程的标准微处理器的优点对于作为研究工具的系统的适用性和效率是重要的。

另一个关键点是基于消息传递的灵活的处理器间通信方案,形成一个只需要适度的总线带宽的松散耦合系统。使用分布式操作系统内核的通信服务,可以通过可下载的应用软件完全定义所需的处理结构。因此,可以形成特定于任务的协作处理器集群。通常,这样的CPU组由几个低层次级别的“并行图像处理器(PP)”组成,它们在窗口上执行本地特征提取操作。一组的并行图像处理器可以由更高层次的“通用处理器”(GPP)协调,其解释并行图像处理器的特征数据并控制或指导其并行图像处理器组的活动(也参见图4)。

图4 “道路视觉模块”(M1)和“障碍物视觉模块”(M2)的自主车辆引导处理结构。两者都可以与观察方向控制单元(M3)并与车辆导航模块(M4)通信

主机用于大规模存储,实时数据记录和软件开发。

四、信息处理

该系统只包含很少的层次结构级别。垂直处理结构可以大致由四层定义。

LI:特征提取(像素操作)。

L2:单对象解释(时间和空间中的特征组)。

L3:情况评估(任务环境中的几个对象)。

L4:车辆引导“反身”式反馈控制动作)。

第1,2和4层已经相当完善;第3层是更复杂场景中增长潜力最大的层。

在每个级别处理的相应数据类型如下(随着抽象级别的增加)。

T1:原始,数字化图像强度值(信号做主)。

T2:特征描述(即时平面中的二维边/角)。

T3:物理对象属性包括3D形状和状态向量(位置/方向/时间速度)。

应该注意的是,仅需要两个处理级别即可将原始信号转换为特征描述,并将其转换为面向问题的表示(对象状态)。

由面向对象的子任务构成,有四个主要功能模块:

Ml:道路参数和相对横向状态估计。

M2:障碍物检测/跟踪和相对状态估计。

M3:观看方向控制。

M4:车辆指导。

发现如图4所示的树状通信方案最适合我们的算法和机器能力。右侧子树(A/l)专用于道路边界跟踪(“道路视觉模块”),而左侧程序组(M2)用于障碍物检测/跟踪(“障碍物视觉模块”)。根据情况,Ml或M2命令摄像机的查看方向・ 重刑。基于来自两个视觉模块的信息,在主机计算机上处理车辆引导(M4)。

该处理方案的效率也反映在通过处理级别所实现的显着数据速率降低中:

给定每像素256x244x8位的数字化图像,并且以60Hz视频帧速率的每隔一帧拍摄导致大约2Mbyte/s(每摄像机)的数据速率。将注意力(和处理资源)限制在例如8个窗口(大小为

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[267364],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。