英语原文共 12 页

视频监控的发展：综述

尼尔斯·海林·P·特·L·威尼斯人·艾伦·利普顿

摘要在过去的10年里，计算机视觉研究已经十分成熟。虽然一些核心问题，如物体识别和形状估计还远未得到解决，但许多应用已经取得了相当大的进展。视频监控就是这种应用的一个蓬勃发展的例子。一方面，全球摄像机数量预计将继续呈指数级增长，政府、企业和私营部门的安全预算也相应增加。另一方面，在目标检测、跟踪、分类和行为分析方面的技术进步提高了准确性和可靠性。简单的视频监控系统通过无线视频服务器将摄像头连接到家用电脑上，提供简单的运动检测功能，在硬件和消费电子商店以低于300美元的价格出售。这些先进的视频监控技术的影响是普遍存在的。技术和安全出版物反映了此技术的进步，工业和媒体大肆宣传并夸大了其能力，电影和政治美化了其利益，渲染了其危险。这种曝光反过来又使视频监控系统这一词汇得以扩展，为更一般的自动化视频分析铺平了道路。

关键词 对象识别，视频目标分割，视频监控，视觉跟踪，监视系统，场景分割，目标检测，视觉系统

1 谁需要自动视频监控？

视频监控需求的原因是有争议的。然而，不管原因如何，政府、企业、公共服务和私人公民都在边境、关键的基础设施、公共交通、购物中心、办公楼、停车场和住宅等设施的保护方面投入了越来越多的资金。而且，根据目前的市场研究，在安防行业中，到2009年这一趋势将加速到36.9%左右的年度增长。

因此，更多的站点部署了更多的闭路电视（CCTV）系统。这导致了监控危机。持续不断的视频流提供数据，但没有可操作的信息，如图1所示。监测是疲劳的、昂贵的和无效的。例如，监控25个24times;7规格的摄像头每年将耗费观测者15万美元。此外，美国能源部在桑迪亚国家实验室进行的实验发现：“hellip;hellip;这样的任务，即使被分配给一个有献身精神和善意的人，也不会支持有效的安全系统。仅仅20分钟后，人类对视频监视器的注意力退化到一个不可接受的水平”，见图1。因此，实践解决方案自动化了监控过程，并使用人员对检测到的事件进行评估和响应。

这种方法和当前视频监控系统的许多概念都是在DARPA的IUBA计划的VSAM（视频监控和监控）部分下原型化的。除了VSAM之外，世界其他地区的研发项目还提供了相关技术。在日本，合作分布式视觉（CDV）项目[CDV1970]和欧盟的色度学和棱镜图就是这样的项目。许多VSAM的设计决策都反映在ObjectVideo的视频预警（VEW）产品中，如第2部分和第3部分所述。最近DARPA的CZTS（所见作战区）项目在可部署、可靠、基于COTS的多传感器系统中的应用中结合了VSAM技术。许多多传感器、多模态、校准、鲁棒性和已解决的可视化问题CZTS都反映在ObjectVideo的VEW系统中（参见第4部分）。

迄今为止，处理自动视频监控的计算机视觉技术在许多垂直应用中都取得了显著的商业成功。该技术的主要关注点是物理安全应用，主要涉及关键基础设施保护[11]。但在法律执行、交通管理、零售损失预防、市场数据、通用机器视觉等方面还有其他应用。

图1 闭路电视摄像机的普及导致视频信息过载

2 设计问题

随着自动化视频监控的迅速普及，低维护系统变得越来越重要。如果一个系统必须定期重新配置，或者如果训练有素的专家需要花时间安装每一个系统，安装和维护成本将很快变得令人望而却步。为了将这些成本降到最低，终极智能视频监控系统应允许用户简单地向系统提供视频馈送，在设置过程中只需要最少的额外信息。错误的用户配置可能造成严重的后果：错误的警报可能会导致用户忽略警告，尽管如果是由于错误的配置，错误的警报至少会指出问题所在。而漏检是一个更大的问题，因为这些问题发现之时，为时已晚。因此，理想的系统应该能够验证用户配置是否合理。在本节中，我们将介绍不同的视频分析方法，在后面的章节中，我们将讨论解决上述问题的一些方法。

图2 如果校准不可用，指定物体近场和远场最小和最大允许尺寸的尺寸过滤器有助于消除几个错误警报。

由于目前还没有这种理想的、完全自主的监视系统，因此有几种设计权衡。以下段落将讨论其中的一些权衡利弊、ObjectVideo采用的方法以及这些决策背后的推理。

2.1 传感器校准

最大的问题之一是是否需要校准。将校准信息与站点地图或站点模型（即使是简单的地平面模型）结合起来，系统可以使用被检测对象的绝对大小和速度，这有助于减少错误警报。另一方面，校准系统中的每一个摄像头都是劳动密集型的，这使得安装更加耗时和昂贵。不正确的校准（由用户错误或校准后摄像机移动引起）甚至会损害系统性能。

ObjectVideo VEWreg;系统在无需重新校准的情况下工作。这大大降低了使用者的成本。为了补偿校准摄像头的损失，系统允许用户定义简单的尺寸过滤器：这些可选过滤器告诉系统有效对象的最小和最大尺寸，如图2所示。它们通常在系统生成错误警报时应用。

2.2 系统或组件

视频分析系统通常作为综合安全装置的一部分安装，集成视频存储、警报服务、不同传感器、地图、摄像头控件等。

图3 常见相机类型：彩色、近红外、全向和热

以计算机视觉处理对象视频为背景，ObjectVideo将重点放在智能视频监控功能上，而不是为所有组件提供普通的解决方案。这种方法简化了与现有安全系统的集成。为了支持合作伙伴集成，ObjectVideo系统包括一个完整的客户端SDK，允许合作伙伴定义规则、配置系统和接收警报。

2.3 支持的摄像头类型

集成到现有系统导致的结果是，视频监控系统必须支持广泛的摄像机类型，见图3，无配置或最小配置。最常用的摄像机类型是常规彩色闭路电视摄像机，但该系统也可以处理黑白、红外、热或全向摄像机。分辨率仅受处理要求的限制。大多数安装仍然使用320times;240分辨率。

不太流行的全向和IP摄像机处理高达1000times;1000像素。

2.4 特定与一般情况

理想的自动化监视系统是真正通用的，能够检测所有环境中感兴趣的事件。但是，某些环境会导致需要处理的特殊挑战，通常以仅适用于这些环境的方式处理。水就是这样一种特殊的环境。水的基本特征与土地有很大的不同，存在着一些特殊的问题。例如，当监测海岸线时，白波通常被检测为物体，这些波经常被跟踪很长时间，从而愚弄凸度滤波器。特殊性也经常引起问题。对于这两个问题，重要的是要检测它们并将它们排除在考虑之外，如图4所示。

图4 活动推断目标跟踪目标检测后台维护目标分类检测消除水问题

图5 视频分析引擎主要功能部件的静态目标检测与监控

2.5 系统功能

第一代自动化视频监控系统是运动检测器，检测摄像机视图中的任何运动。用户可以选择指定感兴趣的区域或不感兴趣的区域。这种基本的功能已经为人工监控视频提供了显著的改进，但由于阴影、树叶或小动物等现象造成的极高的错误警报率，它的实用性大大降低。进化过程的下一步是基于对象的视频分析。检测和跟踪对象允许更复杂的过滤功能，从而降低错误警报率，并在定义感兴趣的事件方面为用户提供更大的灵活性。图5说明了典型的基于对象的视频分析系统的主要组件。这样的系统能构建并维护动态背景模型[15,16]。偏离背景模型统计的像素被标记为前景。这些像素被组合成空间斑点[1]，然后跟踪[10,2,3,8,9]，从而创建时空对象。最后，这些物体可分为不同层次，如人、车辆、动物、移动或静止等。这些物体已向保安提供有用的信息，吸引他/她注意任何合法的移动目标。

通过允许用户预先定义描述感兴趣事件的规则，可以进一步提高系统的可用性[6,7]。此类事件可能包括虚拟TripWires（如果对象按预定方向穿过TripWire，则发出警报）、具有相关操作的感兴趣区域（例如，对象进入、退出、进入、出现、消失、留在该区域中）。本规则可连同使用诸如对象分类、对象大小或速度或感兴趣的时间等过滤器。更复杂的规则可能具有分析行为的能力，例如，如果一个人摔倒、偷东西、打架等等。

随着视频分析系统进一步发展，该系统甚至可以在没有用户定义确切规则的情况下运行。一个典型的监视系统连续几个月或几年监视同一个视图。这使系统能够推断出什么是正常行为，并对任何偏离正常的行为发出警报。

检测到的事件（警报）以多种方式提供给用户。它可以显示在监视器上，也可以选择使用可定制的音频信号，它可以通过电子邮件发送，可以直接转发到PDA，它可以自动激活附加的安全措施，例如使用干触点继电器锁定一些门。所有这些不同的响应类型都可以根据规则进行定制，因此可以只在监视器上显示一些响应类型，而将其他响应类型发送到PDA。警报还可能迫使警卫确认，从而消除警卫不注意警报的可能性。警报包含安全人员了解威胁并采取行动所需的所有信息。这包括一些快照，显示违反的规则和违反规则的对象，以及与警报相关的所有属性。如果在地图上知道摄像机的位置，警报可能会在地图上显示，带有肇事者的轨迹。从警报开始的视频也可以按需显示（由于潜在的带宽限制，这不是自动的）。警报也存储在数据库中，以允许在事实发生后对其进行查看和搜索。

ObjectVideo VEWreg;系统的当前版本要求用户定义感兴趣的事件。然而，相关的活动推断是独立于对象检测的一个组件。这种分离可以实现额外的功能：高效的刑侦分析。目标检测的结果用视频描述元数据表示。此元数据可以直接馈送到活动馈送组件，允许实时事件检测。为了支持活动推断，元数据应该包含推断过程所需的所有信息。对于跟踪对象，元数据可以包括轨迹、大小、颜色、分类、纹理、刚度等。此外，此元数据还可以存档到外部存储中。规则稍后可以脱机应用于元数据，并且可以检测到事件。在取证模式下，实时进行时间序列视频分析，因此取证分析只依赖于存储的元数据。这种元数据可以很快地进行分析，并且消除了为后期处理存储高质量视频的需要。由于多种原因，外汇分析是一种强有力的工具。其主要目的是减少数据存储，加快离线处理速度。但是它也可以用来提高实时监控系统的性能：用户可以在元数据上尝试不同的规则和系统设置，从而快速找到最有效的设置，而不必多次进行场景划分。系统架构如图6所示。

图6 ObjectVideo VEWreg;系统结构

2.6 视频元数据和事件语言

视频元数据可以被认为是存储在数据库中的数据。为了检测其中的事件，需要一种有效的查询语言。此事件规范语言如下所述。

传统的关系数据库查询模式通常遵循布尔二叉树结构，允许用户对各种类型的存储数据创建灵活的查询。叶节点通常采用“属性关系值”的形式，其中属性是数据的一些关键特征（如时间或名称）；关系通常是数字运算符（“gt;”，“lt;”，“=”等）；值是该属性的有效状态。分支节点通常表示一元或二元布尔逻辑运算符，如“and”、“or”和“not”。

这些结构可以构成活动查询公式架构的基础。属性可以是视频流中检测到的对象的特征，例如大小、速度、颜色或分类。我们的系统以两种不同的方式扩展这个模式：

（1）使用描述场景中空间活动的活动检测器对基本叶节点进行增强；（2）使用指定空间、时间和对象相互关系的修改器对布尔运算符分支节点进行增强。

活动检测器对应于与视频场景区域相关的行为。它们描述了对象如何与场景中的某个位置交互。它们可以检测到一些动作，比如穿过虚拟的绊网，进入感兴趣的区域，人物摔倒。这些活动检测器可以使用一个简单的布尔“and”运算符与属性查询相结合。

系统将查询与修改后的布尔运算符（组合器）结合在一起，进一步提高了灵活性。支持的修改器包括空间修改器、时间修改器、对象修改器和计数器修改器。

空间修改器使布尔运算符仅在场景中近邻/非近邻的子节点活动时运行。例如，“and – within 50 pixels of”表示“and”仅适用于活动之间的距离小于50像素的情况。

时间修饰符使布尔运算符仅对发生在彼此的指定时间间隔内、在此类时间段之外或在某个时间范围内的子节点活动执行操作。时间修饰符还可以指定事件的时间顺序。例如，“and–first within 10 second of second”表示“and”仅适用于第二个子活动发生在第一个子活动之后不超过10秒的情况。

对象修饰符使布尔运算符仅对涉及相同或不同对象的子活动执行操作率。例如，“and – involving the same object”意味着“and”仅在两个子活动涉及同一特定对象时适用。

计数器修饰符使布尔运算符仅在满足指定次数的条件时被触发。计数器修饰符通常包括数字关系，例如“至少n次”、“精确n次”、

原文和译文剩余内容已隐藏，您需要先支付 30元 才能查看原文和译文全部内容！立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可： Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版

注册

找回密码

视频监控的发展：综述外文翻译资料

尼尔斯·海林·P·特·L·威尼斯人·艾伦·利普顿

1 谁需要自动视频监控？

2 设计问题

您可能感兴趣的文章

登录

注册

找回密码

尼尔斯·海林·P·特·L·威尼斯人·艾伦·利普顿

1 谁需要自动视频监控？

2 设计问题

您可能感兴趣的文章