跟踪一切:限制在线多目标识别中的先验知识外文翻译资料

 2021-12-30 10:12

英语原文共 15 页,剩余内容已隐藏,支付完成后下载完整资料


跟踪一切:限制在线多目标识别中的先验知识

摘要:本文研究了图像序列中多个目标的在线跟踪和分类问题。我们提出的解决方案是首先跟踪场景中的所有对象,而不依赖于对象特定的先验知识,在其他系统中,先验知识可以采用手工制作的特性或基于用户的跟踪初始化的形式。然后利用基于浅层卷积神经网络结构的快速学习图像分类器对被跟踪对象进行分类,并结合跟踪算法得到的目标状态信息对目标进行识别。我们认为,通过将先验知识从检测和跟踪阶段转移到分类阶段,我们可以设计出一个健壮的、通用的、能够检测和跟踪各种对象类型的对象识别系统。我们描述了受生物学启发的实现,该实现自适应地学习跟踪对象的形状和运动,并将其应用于包含多种对象类型的Neovision2 Tower基准数据集。实验评估表明,我们的方法与最先进的视频对象识别系统相比是有竞争力的,该系统在检测和跟踪中确实利用了对象特定的先验知识,同时由于其通用性提供了额外的实际优势。

索引项-目标识别,图像分类,视觉跟踪,多目标跟踪。

  1. 绪论

我们报告了一种自动化视觉系统的设计,它可以准确定位和识别多种类型的对象。在线物体识别系统的目标是在物体运动或外观发生变化时,对其进行连续的检测和正确的分类。此外,该系统应该具有抗分散或遮挡杂乱的健壮性。我们针对这些挑战提出的解决方案是一种自适应多目标跟踪(MOT)算法,该算法跟踪场景中的所有对象,并将任何关于感兴趣的对象的决策推迟到单独的分类阶段。然后,对象识别涉及将这些类预测与对象跟踪提供的状态信息结合起来。这种方法模拟灵长类视觉[1]中独立的“什么(what)”和“在哪里(where)”处理流,并且允许在不依赖对象特定的先验知识的情况下执行跟踪过程。

在设计在线对象识别系统时,一个重要的实际考虑因素是用于训练的标记和注释数据的数量是有限的。当稀缺时,由于过拟合会降低分类性能,降低高调谐目标检测器的检测概率。即使有更大的数据集,这些数据集也可能存在偏差,导致它们的图像统计数据不能准确地反映系统在运行时[2]遇到的数据。在基于分类器的对象识别[3]和检测[4]的情况下,使用比原始图像更高层次的对象表示特征,可以通过提供不同数据集之间的一定程度的不变性来缓解这些问题。在跟踪和目标检测算法的情况下,可以通过减少跟踪器和检测器设计的领域特异性来解决相同的挑战。在我们的系统中,这是通过使用自适应跟踪(例如,[5],[6])和使用检测前跟踪[7]方法来实现的,该方法将对特定对象先验知识的要求从检测延迟到识别。

我们注意到,存在一些商业和安全视频分析应用程序,在这些应用程序中,用户可能不具备关于以前未见过的新对象的特定知识。例如,用户可能没有访问信息的一组目标对象的外观,但可能仍然希望跟踪这些目标为了积累一个特定领域的数据集。此外,它可能是不切实际的用户初始化系统在多个目标,尤其是当多个对象预计将进入视野,或长时间是静止的。因此,在最初没有很好地定义系统需求的应用程序中,有用的第一步是系统自动检测和跟踪所有(移动和静止的)对象,包括那些最初可能不被认为是感兴趣的对象。

考虑到这些目标和现实世界的需求,我们提出了一种新的在线对象识别方法,其核心思想是跟踪场景中所有突出的对象。我们认为,这种“跟踪一切”的方法可以通过限制先验知识的显式使用来实现,并通过同时学习关于每个对象的特征和空间信息以及为系统轨道分配新的度量来实现。以下观点支持这一论点:

bull;一种新的物体形状学习算法,形状估计滤波器(SEF)及其多目标对应物,使用形状(CACTuS)[8]的竞争注意力相关跟踪器;

bull;特征学习(FL)算法与形状学习算法[9]的集成;

bull;CACTuS-FL: 第一个不需要特定对象先验知识[10]就能自动检测和跟踪视频序列中的多个对象的算法;

bull;在线对象识别系统,采用单隐层前馈网络(SLFNs)集成,将多目标跟踪算法(CACTuS-FL)的状态信息与图像分类器浅层卷积神经网络(S-CNN)的输出相结合。

本文的其余部分组织如下。第二节概述了多目标跟踪、图像分类和目标识别系统领域的主要最新进展。第三节对我们的系统进行了概述,第四至第六节对此进行了扩展。我们在第七节中使用Neovision2基准数据演示和检验了我们的方法的有效性。最后,第八部分总结了本文的研究结果。

  1. 相关工作

我们回顾了在线多目标检测与跟踪、目标识别和评估这些系统的基准等领域的相关工作。

  1. 在线监测与跟踪

最近最先进的在线多目标跟踪器(如[11]-[15])采用逐检测跟踪方法,在每一帧中独立检测感兴趣的对象,然后与前一帧中的系统跟踪唯一关联。在线这个术语意味着底层算法可能只使用到当前帧为止收集的信息。上述例子依赖于专门的人员检测器,但城市跟踪器[15]除外,它使用背景减法来检测所有类型的交通,假设只有移动的对象是感兴趣的。这个运动的假设也可以用来形成轨迹[16],基本的轨迹碎片,它们可以聚集在一起(通常以离线的方式)形成完整的轨迹。虽然逐检测跟踪算法是最先进的,但有一个限制来自于噪声或漏检,这可能导致不完整的系统跟踪。新系统通常旨在通过更可靠的目标检测器设计和/或更好的数据关联技术来缓解这个问题。例如,Breitenstein等人通过将检测置信度映射与基于在线学习分类器的关联方案耦合来处理遮挡。Bae和Yoon[14]使用tracklet置信度来解决不可靠的检测,而他们的数据关联阶段是基于在线的外貌识别学习。与前面的示例不同,我们的系统依赖于检测前跟踪范例[7],它不太容易丢失弱检测。在这种方法下,跟踪过程指导检测过程,以关联多个帧上的检测。

  1. 识别

我们的目标识别方法的动机是图像分类任务的深度学习的成功(参见[17]最近的回顾)。这通常涉及到深度(多层)层次模型的训练,如深度信念网络(DBNs)[18]和卷积神经网络(CNNs)[19]。通过训练具有大量数据的复杂模型,CNNs近年来通过AlexNet[20]、OverFeat[21]、VGGNet[22]等模型建立了新的图像分类基准。然而,我们的系统并不依赖于这样的深度架构,而是使用浅层CNN[23]执行对象识别,该[23]将学习限制在单层。它在标准图像分类数据集[24]上取得了具有竞争力的结果,同时训练速度快(与标准深度学习方法相比),并且保持了较低的实现复杂性(可调元参数很少)。

  1. 基准数据

我们系统的第三个关键组成部分是特定领域的图像序列数据,具有足够的对象类标记的例子,以允许对S-CNNs进行监督训练。如前所述,大多数公共多对象跟踪数据集,包括为最近的MOT Challenge[25]收集的数据集,只包含一个(行人)目标类。最近发布的数据MOT16[26]强调了这种对人员跟踪的关注,其中ground truth对象类被分为三大类:Target(行人、自行车、溜冰者)、(平躺/坐着的人、反射、干扰器)、Other (car、motorbike、occluder、bicycle)。DARPA的Neovision2[27]项目提供了一个包含多种对象类型的图像序列数据集。收集该数据集是为了对神经形态视觉算法[28]-[31]进行训练和评估,[28]-[31]是一类由生物视觉传感器[32]和处理硬件(如[33])的出现所驱动的目标识别算法。

  1. 先验知识

如前所述,在一种逐检测跟踪方法中,[11]-[14]将特定于对象的先验知识嵌入到检测器模型中。另一个常见的先验假设是,只有移动的物体才会引起兴趣,这导致通过背景减[15]进行检测,或者通过tracklets[16]进行轨迹形成。这些假设将跟踪限制在特定的一组对象,或者只跟踪移动的对象。此外,离线跟踪器不仅利用了对象的先验知识,还结合了未来帧的知识,因此无法在流媒体视频上运行。对于使用CNN[22]进行对象识别,[24]先验知识通过大的训练数据集被强嵌入到这些模型中。因此,在文献中有足够的范围来研究将先验知识从检测和跟踪转移到识别的在线系统设计。

图1.我们的在线对象识别系统概述,包括where(CACTuS-FL)和what(S-CNN和SLFN集合)处理流。 SLFN还组合来自where流的对象状态信息。

  1. 概述

本节概述了我们的在线对象识别系统,如图1所示,以及本文使用的符号。

  1. 路线图

第四节描述了处理流使用的通用特征提取阶段。where处理流(第五节)寻找场景中的突出对象,并引导what处理流(第六节)注意这些对象。where流由自主多目标跟踪算法CACTuS-FL [10]处理。what处理流依赖于S-CNN架构[23],[23]之后是SLFNs[24]的集合,它将S-CNN输出与来自where处理流的对象状态信息结合起来。对S-CNN和单个SLFNs进行离线训练,然后部署到与系统轨迹相关的图像区域(或补丁)的在线分类中。

  1. 符号

概率质量函数(PMFs)用大写字母表示。下标p、m、s分别表示预测PMFs、测量PMFs和后验PMFs,下标0表示先验常数。上标t和t-1分别表示当前和以前的时间帧。为简洁起见,方程只能在当前帧不包括上标t。对于直方图的所有二进制u进行归一化以形成PMF的符号缩写为1 /εu以避免额外的索引变量。

  1. 共性特征提取

好的特征是那些提供区分感兴趣对象的响应并且对场景中的变化不变的特征。在这里,我们需要一组有利于检测和识别的共性特征。此外,对于我们的跟踪,所有的东西接近每个候选对象(包括杂乱和静止的对象)都应该被跟踪,因此是有意义的。

我们的跟踪器CACTuS-FL可以对任意一组特征进行操作,包括手工制作的特征[10],但是,最近的实验证据表明,通过CNNs学习的卷积滤波器可以产生用于在线视觉跟踪的良好特征,增强了最先进的性能[34],[35]。此外,虽然运动为显着物体的存在提供了强烈的视觉提示,这些物体可以形成图像特征[36]或约束外观模型[37],但这种类型的提示本身不能检测静止物体。

对于物体识别,CNN滤波器组的无序池也可以提供最先进的性能[38],尽管早先有相反的证据[39]。

因此,我们选择运动历史图像(MHI)特征[36],因为移动(以及静止)对象是感兴趣的,并且生物学启发的卷积滤波器组[40]以生成方式学习以封装整个场景。

  1. 运动历史图像

MHI [36]将对象移动信息组合在图像子序列上。为了满足在线跟踪的要求,我们避免了向后MHI并仅实现了前向MHI。该候选特征是从当前图像和历史图像(通过马尔可夫链)之间的帧差异获得的,其突出显示累积的对象运动,其中渐变轨迹逐渐消失。

  1. 卷积过滤器

如图2所示,24个卷积滤波器是通过使用卷积限制玻尔兹曼机(CRBM)[41]从Neovision2 Tower训练图像序列010-024的第一帧以无人监督的方式学习的。每个灰度滤镜的尺寸为16times;16像素,这是根据经验选择的[40]。在训练生成CRBM模型时,首先将RGB输入图像下采样两倍(大小为960times;540像素),以匹配在线对象识别系统中使用的输入图像的分辨率。训练图像通过转换为灰度进行预处理,应用Olshausen&Field [42]使用的白化函数,减去图像均值并按照均方根(rms)对结果进行归一化,如图3所示。函数应用具有形式的频率响应的组合白化和低通滤波器,其中f0是200个周期/图像的截止频率。在这些过滤器的在线应用期间,每个新输入图像也经历这些预处理步骤。

图2.使用卷积限制玻尔兹曼机(CRBM)[41]学习的24个16times;16像素生成滤波器组。 使用Neovision2 Tower训练序列的第一帧进行无监督训练。 所有训练图像首先转换为灰度和预处理(有关详细信息,请参阅正文)。

图3.样本RGB(顶部)和预处理(底部)输入图像,示出来自Neovision2 [27]塔图像序列001的帧61,其首先被下采样到960times;540像素的大小。图像预处理涉及应用Olshausen&Field [42]使用的白化函数,减去图像均值并通过其均方根(rms)对结果进行归一化。

  1. WHERE:目标检测与跟踪

需要多目标跟踪算法来维持所有对象的时间上一致的轨迹(状态信息)并且将新观察与每个轨迹唯一地关联。我们设计中的另一个要求是轨道能够通过自动收敛到时间一致性和空间相关性的局部显着性区域来自我初始化。为此,我们将跟踪前检测范式与自适应跟踪方法结合起来(例如[5],[6]),以便递归地学习对象形状和运动的状态模型能够指导未来的检测。。 通过将多个子跟踪器与新观察结果正确关联,可以保留多个对象的唯一标识。这是通过在整个场景中彼此竞争操作这些子跟踪器来实现的。

  1. 特征选择

我们首先解决自主单目标检测的问题。视觉跟踪中的典型对象检测器使用特定于应用的知识,例如硬编码描述特定对象或对象类型的固定特征集。相比之下,本文遵循Collins等人提出的自适应方法。 [43],它将特征子集的在线选择(来自更大的集合)构建为演化的“对象与本地背景”两类分类问题。这种判别式跟踪方法类似于生物视觉[44]中发现的注意力和显着性的中心环绕机制,并能够实现自动跟踪启动。每个候选特征nisin;1,hellip;,25(MHI特征和来自第IV节的24个卷积特征)用于计算特征图Znt(i),其是在每个像素位置i处的特征响应方面的帧t处的图像的表示。在[43]之后,基于它们的类条件特征响应分布Fnt(u)和Bnt(u)的分离来选择辨别特征,其是分别从对象前景和局部背景区域为每个特征提取的1D直方图。在这里uisin;1,hellip;, 64是特征响应值的直方图的索引。为了提取目标特征响应分布,我们使用由Eq

全文共18180字,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[2870]

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。