广西壮族自治区信息中心 - http://gxxxzx.gxzf.gov.cn/
当前位置:首页 > 公共应用技术支撑

跨摄像头图像学习追踪技术研究

2023-06-29 18:20     来源:大数据应用处
分享 微信
头条
微博 空间 qq
【字体: 打印

随着人工智能的快速发展,跨镜头多目标追踪的研究也取得了一定的进步,逐步应用于目标追踪跨镜头的多目标追踪会利用行人或者车辆重识别以及不同摄像头之间的轨迹关联等技术将在不同镜头的目标进行关联起来,以达到在多个镜头内多目标进行检测和追踪的目的。

一、跨摄像头多目标追踪的概念简介

要想了解跨镜头多目标追踪,需要对单镜头单目标追踪(SOT)和单镜头多目标追踪(MOT)有一定的了解。因此我们需要对这二者有一定的了解,才能很好的去了解跨镜头多目标追踪的相关概念。

对于单目标追踪任务来说,需要根据视频第一帧的信息作为先验信息,来确定需要追踪的目标,最终在视频后续的所有帧中都能跟踪出我们在第一帧中框定的目标,达到长时间跟踪的目的可能在第一帧场景变化小,但是如果切换到视频的一百帧甚至三百帧,场景变化大,此时能够根据在第一帧的认为先验信息来跟踪所有帧中乃至于不同视频中的目标是一个非常具有挑战性的任务。

而对于多目标追踪来说,则是有一点不同,多目标追踪的流程是先给定视频的原始帧对运行对象检测以获得对象的边界框;然后对于每个检测到的物体,计算出不同的特征,通常是视觉和运动特征;之后,相似度计算步骤计算两个对象属于同一目标的概率;最后,关联步骤为每个对象分配数字ID

而对于跨镜头多目标追踪来说,其工作流程如图1,它是单镜头多目标追踪的延,因此是在单镜头多目标追踪的基础上,解决目标从一个镜头到另一个镜头时,行人ID的重新识别和轨迹的关联问题对于ID的重新识别,目前可以使用卷积神经网络(CNN)来进行对目标的重新识别,而不同镜头的轨迹的关联问题,则可以通过不同距离的加权聚合来进行关联。对于跨镜头多目标追踪的工作来说,解决目标重新识别和不同镜头的轨迹关联是最要的步骤因此,下一节将具体介绍行人的重新识和轨迹关联的相关工作。

图1跨镜头多目标追踪流程

二、目标重识别和轨迹关联

对于跨镜头多目标追踪任务来说,目标的重新识别(re-ID)和不同镜头的轨迹关联是非常重要的子任务,因此下面对目标重识别和轨迹关联进行简单介绍。

当目标受到遮挡或者从一个镜头到另一个镜头时,需要对目标进行重新识别,行人重识别(Person Re-identification)又被称为行人再识别,如今被视为图像检索的一类关键子问题。它是利用计算机视觉算法对跨设备的行人图像或视频进行匹配,即给定一个查询图像,在不同监控设备的图像库检索出同一个行人。行人重识别的研究面临着诸如图像分辨率低、视角变化、姿态变化、光线变化以及遮挡等带来的诸多挑战,具体如图2所示。当前行人重识别的挑战主要有以下几种。

图2重识别面临的挑战

1.基于表征学习的ReID方法: 基于表征学习Representation learning)的方法是一类非常常用的行人重识别方法。这主要得益于深度学习,尤其是卷积神经网络(Convolutional neural network, CNN)的快速发展。由于CNN可以自动从原始的图像数据中根据任务需求自动提取出表征特征(Representation),所以有些研究者把行人重识别问题看作分类(Classification/Identification)问题或者验证(Verification)问题。

2.基于度量学习的Re-ID方法:度量学习(Metric learning)是广泛用于图像检索领域的一种方法。不同于特征学习,度量学习旨在通过网络学习出两张图片的相似度。在行人重识别问题上,具体为同一行人的不同图片相似度大于不同行人的不同图片。最后网络的损失函数使得相同行人图片(正样本对)的距离尽可能小,不同行人图片(负样本对)的距离尽可能大。常用的度量学习损失方法有对比损失(Contrastive loss)、三元组损失(Triplet loss)、 四元组损失(Quadruplet loss)、难样本采样三元组损失(Triplet hard loss with batch hard mining, TriHard loss)

3.基于视频序列的Re-ID方法:目前单帧的ReID研究还是主流,因为相对来说数据集比较小,哪怕一个单GPUPC做一次实验也不会花太长时间。但是通常单帧图像的信息是有限的,因此有很多工作集中在利用视频序列来进行行人重识别方法的研究。基于视频序列的方法最主要的不同点就是这类方法不仅考虑了图像的内容信息,还考虑了帧与帧之间的运动信息等。

4.基于局部特征的Re-ID方法:早期的Re-ID研究大家还主要关注点在全局的global feature上,就是用整图得到一个特征向量进行图像检索。但是后来大家逐渐发现全局特征遇到了瓶颈,于是开始渐渐研究起局部的local feature。常用的提取局部特征的思路主要有图像切块、利用骨架关键点定位以及姿态矫正等等。

而对于轨迹关联来说,主要是定义一系列距离,并且利用这些距离进行加权聚合,形成跨镜头的轨迹,下面是各种距离的介绍。

1.单镜头时间限制,单摄像机时间限制利用了这样一个事实:一个人不能同时出现在同一摄像机的多个轨道上。因此如果有目标不符合这个事实,就不会连接这两个目标。

2.多相机时间约束:多摄像机时间约束利用了在不重叠的两个摄像机的视图中不可能同时看到人。同样,只有在不符合条件的情况下才会对轨迹进行集群化。

3.单应性匹配距离:单应性匹配距离利用了这样一个事实:一个人走过重叠的摄像机视图区域时,同时在两个摄像机中产生轨迹。这些轨迹显然不是由单一的相机跟踪器连接的,尽管它们实际上属于同一个轨迹。为了得到它们的从属关系,使用了两个摄像头可见的精确的轨迹位置信息。首先,检查边框中心是否在重叠区域内。这是通过使用凸包已经计算多相机的时间约束。如果是这种情况,边框的中心将从一个摄像机转换到另一个。如果变换后的位置在对应的时间点接近本相机的轨迹检测,则计算投影轨迹位置为匹配。

4.线性预测的偏差:在目标追踪任务中存在一个大问题,就是在目标的轨迹被外部因素干扰而中断,可以由例如遮挡或缺失检测引起。为了纠正这样的错误并连接相应的轨迹,我们利用了人经常以恒定速度沿着直线行走的原则。这意味着可以用线性预测模型估计一个人在一段时间后可能在哪里。在这些假设下,根据两个轨道的时差和轨道的估计速度,估计一个轨道是另一个轨道延续的概率。因为只有当两个输入轨迹都来自同一个摄像机时,才能计算出所描述属性的值,但并非所有轨迹对都是如此,所以我们将其构造为折扣值。

5.外表特征的距离:外观特征距离基于CNN网络的嵌入,对轨迹的所有边界框提取特征向量。由于轨道上人的姿态和光照的变化,人的轨迹外观由整个轨道上的平均特征向量表示。

三、跨镜头图像研究的典型应用场景

跨镜头多目标追踪被广泛使用于智慧安防、自动驾驶、智慧城市等场景,这些领域共同的需求体现在:

●全面化:需要利用摄像头对涉及的区域进行全时监控;

●智能化:对已经监控好的视频能主动识别目标并且进行制动追踪

●确定时延:工业现场毫秒级的确定时延;

●高计算能力:基于图像分析的AI推理能力、图像渲染需要的计算能力;

●可信:由于要涉及数据的处理,企业对算力处理有可信性,价值可量化、可交易的需求。

目前已经出现的场景,园区智慧安防系统。

企业建设5G园区的主要驱动力来自视频类业务的驱动力,包含监控、智能生产、园区自动驾驶等需要更大带宽和更高实时处理的业务需求。智慧园区系统架构如下图3为了能够更好的保证园区的安全,园区智慧安防系统具有以下特点:

1.集成物联网的监控摄像机:公共场所必须保证其安全性,例如开放式公园、购物中心、又或是通过城镇的主要道路。无论是从危险的驾驶员到恐怖袭击,还是从街道上的小规模犯罪到备受关注的银行抢劫,具有集成IoT和云技术的新型监控摄像头可以以某种方式帮助快速响应,甚至在某些情况下可以预防最严重事件的发生。

2.智能监控系统:将跨镜头的目标追踪、目标识别、以及目标行为分析等技术应用到智慧安防领域,能够让园区的环境变得更安全,借助互联网、物联网、人工智能和大数据分析,通过人脸识别、视频结构化分析、图像深度学习等实时提取和分析园区海量的数据,实现对人、车、物、空间的整体场景的实时感知、动态控制和信息服务。

3.基于云端的技术:基于云的技术提供了克服传统安全系统局限性所需的互操作性、可伸缩性和自动化。借助这些,智慧城市可以开发出完全开放的系统架构,该架构可以与本地和其他远程开放系统进行互操作。随着技术的发展,云系统的智能不仅可以继续提供更多见解,而且可以以最少的基础架构投资来实现。

(作者:大数据应用处课题组)

文件下载:

关联文件: