英语原文共 23 页，剩余内容已隐藏，支付完成后下载完整资料

实时视频中的目标检测和跟踪

ChristianR.Llano

迈阿密大学工业工程系，科勒尔盖布尔斯，FL33134，

NazrulI.Shaikh^*

迈阿密大学工业工程系，科勒尔盖布尔斯，FL33134，

n.shaikh@miami.edu

摘要

流媒体视频中的对象和人工跟踪是视觉计算中最具挑战性的问题之一。在这项工作中，我们回顾了一些相关的机器学习算法和技术，用于人识别和跟踪视频。我们提供了计算机视觉文献中用于监测的度量和方法的详细信息，并提出了目标跟踪问题的状态空间表示。并给出了利用粒子滤波器进行状态空间目标跟踪的概念实现的证明。该方法支持在视频中跟踪对象人，包括用于目标运动检测的前背景分离。

关键词:视觉对象跟踪，背景排除，OpenCV。

介绍

可以说，现代计算机科学最重要的进步之一与计算机视觉和视觉目标跟踪(VOT)技术的发展有关(Szeliski，2011年)。处理器、服务器和云解决方案不断增长的存储容量使得几乎所有活动和环境中的视频数据都可以读取、存储和分析。据一些在线消息人士称，主要的视频共享网站之一拥有约1.325亿用户，每分钟上传300小时的视频，4950050百万个视频，而超过90%的移动观众共享视频和52个视频移动流量的百分比是对视频的搜索。

在视频数据分析中，VOT关注的是通过基于模型的快速计算机视觉和图像理解技术，利用成像设备中的信息，实时对一个或多个对象进行实时顺序本地化(Panin2011)。人工智能和机器学习等领域的进步带来了与人眼有关的类似工作的技术(Lu和Tang，2015年)。然而，处理时间保持了研究人员对追求高效、可靠的视频识别和跟踪模型的兴趣。

VOT应用无处不在，不仅与人类识别有关。介绍了在监测和安全系统、交通监测、调查跟踪方面的一些重要应用，这些应用可用于汽车跟踪、医疗诊断系统(Kim等人，2010年)。本文在户外环境中对人体进行视频监控的基础上，定义了一个问题。它构成了我们愿意面对的一些问题的框架，但也是计算机视觉基本概念的起点。在整个工作过程中，我们将相机视为视频信息的来源。

视频被认为是一系列图像或帧，而这些图像或帧又被认为是数据视频信息的基本要素。我们认为作为预先存在的对象，自然特征和环境围绕着给定的框架。我们假设一个室外监视区域很好地定义，如果在当前帧中所有预先存在的对象都被识别。有时，在视频中的人体跟踪也是预定义的一小群人，他们在监控区域被称为授权。

一个典型的人的监视VOT问题路线包括(a)识别一个人或人群的运动；(b)将人类从周围环境中区分开来，认识到并排除可能的干扰；(c)在监视期间遵循已确定目标的道路。其中，任务(a)在文献中被称为识别任务。它涉及寻找目标(个人或群体)的特征，以及他们与周边环境的区别。在这一阶段，关于目标的先验输入知识(信息)以及培训过程或学习技术至关重要。此外，还需要对分类过程进行人力控制，例如，在监视过程中给要区分的个人贴上标签。这个过程通常被迭代到算法可以识别和获得反馈的点。这个过程使用了上升学习机器方法的各个方面。

作为一个多任务问题，它要求连续同时执行许多操作。具体而言，我们的任务包括：

确定该地区是否有任何人或群体；
确定人数；
识别入侵者，即不允许的个人；
确定人的活动；
识别不寻常的人的活动；

任务(b)和其他作为周围环境的影响，遮挡，视角，和不自信和间歇性沟通渠道的存在被称为杂乱。杂乱无章通过引入噪音干扰识别任务。针对这一问题，采用了组合特征提取的方法。同样，在混凝土中，我们将(a)在不同的天气条件下区分人类，(b)在不同的光照条件下区分人类；和(c)区分人类和类似人类的物体。

任务(c)称为跟踪任务。在确认后，需要对目标的实际位置、轨迹和未来可能的位置进行监测。在不同的时间或条件下，场景中可能会出现多个目标。这要求与上一个识别任务a)连接，该任务在跟踪期间同时完成。在这一阶段通常使用空时模型。最后，考虑到一些预定义的条件，在该地区存在入侵者的情况下，系统将返回警报。

若要考虑定义问题的可用解决方案，文档的其余部分按如下方式进行组织。在第2节中，我们回顾了在视觉对象跟踪中应用的几种方法，第2.1节侧重于机器学习的基本概念，并特别关注深度学习方法，第2.2节向读者介绍了概率假设密度(PHD)多目标跟踪及其基本公式，最后介绍了一些新的方法。我们在第3节中提供了问题的状态空间表示形式。在第4节中，我们将从2015年多目标跟踪基准数据集中使用视频示例中的可用工具进行人的识别，以了解具体的应用。我们使用MATLAB和Python OpenCV中的函数。第五部分用于结论和未来的工作。

文献参考

在VOT的常规方法中，我们采用了均值移位方法、过滤框架、基于相关的模板匹配和基于运动检测的跟踪算法(Ahmad等人，2016年)。

时移方法随机选择大量像素作为群集中心。然后，在每个聚类中心构造一个多维椭球体，在它移动到位于椭球内的数据平均值之后。对所有群集重复类似的过程。均值是迭代计算的，群集中心也相应地移动，直到平均值没有变化。根据给定的应用程序类型和用户标准，在迭代过程中融合了封闭区域，从而导致比迭代开始时更少的集群。平均移位向量由

给出，g(.)是一个内核函数，x是中心点，并且x_i是数据点。使用均值移位方法的主要问题是，均值移位在当地收敛；由于模板模型的全局性质，它不能处理阻塞(即使它是部分的)具有很好的精度。

在滤波框架中，卡尔曼滤波(KF)是一种专门为离散时间系统设计的统计参数递归算法。在VOT中，KF与其他算法一起使用，用于跟踪目的，以及在跟踪过程中处理遮挡。KF是基于线性动态系统的运动模型；因此，它要求其状态空间表示如下:

在表示状态向量的地方，表示状态转换矩阵，表示系统噪声向量，是观测噪声矢量，是测量向量，并显示观测矩阵。KF估计了动态系统在噪声测量(高斯噪声)存在下的状态和动态系统模型中的不确定性。KF根据观测到的状态纠正其预测状态，并更新其增益矩阵，以获得更好的未来预测。

KF用于预测给出的观测测量值的下一个目标坐标，以定义具有最佳的搜索窗口，在遮挡过程中，它忽略了测量值，并将其预测值用于下一个状态预测。

在基于相关的模板匹配中，该过程从在第一个帧(称为模板)中手动(或使用自动目标检测系统)选择目标开始，然后通过在每次迭代中与视频帧关联来分配，获得了相关性得分最高的新目标位置。跟踪应用中常用的相似度度量相关指标有:标准相关(SC)相位相关(PC)、归一化相关(NC)和归一化相关(NCC)。

运动探测中使用了几种方法，最显著的是背景减法、时间差、背景建模和光流。

在背景减法中，场景中感兴趣的目标或区域称为前景，图像的其余部分称为背景。背景减法或前景检测可用于两个目的:初始化跟踪和检测从帧到帧感兴趣的目标。
时间差异是指从当前帧中减去以前的帧，以检测场景中的任何变化或移动的对象。
光学流研究场景图像的运动模式，这些运动与场景中所有对象之间的相对运动有关，而相机则假设场景中相应像素之间的亮度一致性。

在表1和表2中，我们引用(Ahmad等人，2016年)，指出了一些方法，以及VOT中关于具体任务的问题，即:单一目标或多个目标；遮挡(O)，即当对象被其他(s)隐藏时；高光照变化(四)；目标速度(SV)的突然和大的变化；相对于相机(或检测源)(SC)缩放或改变物体的视角。

表1(Ahmad等人，2016年)中的平均转移方法算法摘要

与上述相同，但与KF的方法，其中最佳搜索(OS)，遮挡(o)，大目标运动(LM)，速度的突然变化(SV)

表2(Ahmad等人，2016年)的KF算法总括

机器学习

(Mohri、Rostamizadeh和Talwar2012)将机器学习(ML)定义为使用经验来提高性能或做出准确预测的计算方法。经验被理解为通常具有形式或电子数据的过去信息。ML中的数据是以标记训练集、传感器信息(类似cv应用的相机)或通过与环境交互观察到的其他信息的形式构想的。此外，这些信息的质量和大小在ML算法所做的预测的成功中发挥着重要作用。ML处理的一些问题与分类、回归、排名、聚类和维数约简有关。

区分不同类型的机器学习很重要。首先，考虑监督学习，其中输入信息包含以培训数据形式标记的示例，目的是预测即将到来的(而不是以前观察到的)数据点。另一方面，在无监督学习中，输入由未标记的训练数据组成，再次目标是预测新的未观察点；考虑到训练数据中没有标签，在无人监督的学习中尝试对信息进行分组或分类，以便从训练数据中获得常见的'集群'，以后将用于预测。半监督学习是前两种方法的组合，因此训练信息包含标记和未标记的数据点，目标也是预测新的信息。在线学习包括多个实例与培训和测试发生，在这种类型的学习的目的是减少损失获得。在VOT中广泛使用的ML的一个例子是所谓的深度学习算法。

深度学习

深度学习(DL)方法探索相对容易通过人工任务来解决的解决方案，例如识别和识别人群或模糊环境中的人员。这个问题当然对计算机提出了挑战，主要原因是缺乏一个正式的数学描述模型，大脑过程参与了图像的识别及其与人类视觉过程的关系。虽然计算机快速进行了困难的计算，但它却付出了巨大的努力，使处理器能够快速识别和区分人脸(Lu和Tang 2015)，这相当于人脑瞬间处理的东西

继（Lewis2016）之后，深度学习的主要任务是通过多层机器学习从数据中进行监督(或不受监督)的学习。事实上，这是一个机器学习领域，它产生于神经网络、人工智能、图形建模、优化、模式识别和信号处理的交叉。深度学习模型在从原始数据输入到信息最终分类的过程中吸收信息并学习特征层次结构，使每一层都能从前一层的结果中获得最相关的特征。

深度在深度学习中的内涵是指两个关键方面((Deng and Yu 2014)。DL是包含多层非线性信息处理的模型，DL是连续较高层特征表示的监督或非监督学习方法。

多层神经网络(NN)是最相关的深度学习算法之一。最简单的深NN形式包含至少两层隐藏神经元，其中每个附加层处理来自上一层的输出作为输入。NN通过迭代更改关联权重来训练网络，直到系统交付的结果与考虑的收益率之间的误差低于预先确定的边缘(Lewis 2016)。'学习'过程可浓缩为以下步骤:

步骤1。初始化:初始权重需要确定；它们被初始化为随机值。

步骤2。前馈:要将信息从输入阶段传递到隐藏和输出图层，NN使用激活函数，即输入加权和的有界(高于和下)可微函数，例如双曲切线函数。

步骤3。错误评估:将NN的输出与已知输出进行比较。当它们之间的错误低于预先指定的级别时，算法就结束了。

步骤4。传播:使用输出处的错误更正权重。当NN通过网络向后扩展误差时，它计算了有关权重值(梯度)变化的误差变化率。

第5步。调整:每个神经元的权重和偏差由一个基于激活函数导数、网络输出与实际目标结果和神经元输出之间的差异的因子进行调整(这实质上可以解释为'学习'过程)。

这个模型的主要目标是让计算机从经验中学习，了解世界上关于概念层次结构的知识，以及定义的关于概念与简单概念的关系的每个概念。此外，(古德费罗、本乔和库尔维尔2016)考虑深入学习，以防止人类的需求远离计算机需要学习的东西。相反，正是上述层次结构允许计算机基于简单的预定义概念构建某种知识。

概率假设密度

多目标滤波，即在传输(检测)噪声环境下或周围空间下跟踪多个目标，是视觉目标跟踪中最困难的任务之一。第一种情况包括几个目标在每次更多的目标离开现场或新目标出现时改变其位置。概率假设密度(PHD)滤波器是多跟踪问题中常用的，让我们简要回顾一下PHD算法是如何开发的。

PHD滤波器与随机集(Mahler1994)的概念相关联，用于处理多目标滤波器。马勒后来的工作还考虑了所谓的有限集统计(FISST)和贝叶斯多目标滤波。最后，方法是np难题。2000年，马勒通过所谓的多目标状态概率假设密度(PHD)对其进行了重新考虑，这种方法是在卡尔曼滤波器传播后单对象状态均值的过程中激发的。

随后，广义FISST提供了FISST的实际应用。(Vo、Singh和Doucet2003)建立了FISST集合导数和随机有限集的概率密度与贝叶斯滤波器的顺序蒙特卡罗(SMC-PHD)实现之间的联系。(Ikoma、Uchino和Maeda2004)考虑了用于序列中的点跟踪的SMC-PHD和用于视频跟踪的SMC-PHD(Maggio等人，2007年)。

线性高斯多目标模型的PHD递归的闭式解承认线性高斯假设下的解，以及高斯混合实现(GMPHD)(Vo和Ma2006)，其中线性和轻度非线性多目标模型是考虑。结果表明，虽然GMPHD滤波器的复杂度为立方，但其性能优于Np--hadmjpda滤波器。

中介绍了基于PHD的滤波器(Maggio等人，2007年)，它由多目标跟踪器组成，它倾向于减少图像和视频帧中常见对象的杂波和噪声。改进的k均值聚类用于检测密度的峰值。聚类的中心是数据关联算法的输入，该算法是在两分区图的最大路径覆盖上构造的。作者提出了一种在不增加复杂度的情况下消除非持久性杂波、过滤误检测、平滑轨迹、克服短期遮挡的算法。这项工作将视频跟踪的研究转移到了一个

剩余内容已隐藏，支付完成后下载完整资料

资料编号：[441885]，资料为PDF文档或Word文档，PDF文档可免费转换为Word

原文和译文剩余内容已隐藏，您需要先支付 30元 才能查看原文和译文全部内容！立即支付

免费ai写开题、写任务书：免费Ai开题 | 免费Ai任务书 | 免费降AI率 | 免费降重复率 | 论文免费排版

注册

找回密码

实时视频中的目标检测和跟踪外文翻译资料

机器学习

您可能感兴趣的文章

登录

注册

找回密码

机器学习

您可能感兴趣的文章