跟踪可简单地定义为估计物体围绕一个场景运动时在图像平面中轨迹, 即一个跟踪系统给同一个视频中不同帧的跟踪目标分配相一致的标签。跟踪技术一直是计算机视觉研究领域中的热点之一,其在军事侦察、精确制导、火力打击、战场评估以及安防监控等诸多方面均有广泛的应用前景。
概念介绍
目标跟踪技术一直是
计算机视觉研究领域中的热点之一,其在军事侦察、精确制导、火力打击、战场评估以及安防监控等诸多方面均有广泛的应用前景。目标的不定向运动改变了目标和场景的外观模式、非刚性目标结构、目标间及目标与场景间的遮挡、摄像机的运动等情况使目标跟踪任务变得更加困难。跟踪常应用于那些需要了解目标每帧的位置及形状的应用环境中, 并常用假设来约束特定应用环境中的跟踪问题。
跟踪可简单地定义为估计物体围绕一个场景运动时在
图像平面中轨迹, 即一个跟踪系统给同一个视频中不同帧的跟踪目标分配相一致的标签。目标跟踪是一个颇具挑战性的问题。在计算机视觉领域目标跟踪是一项重要工作。随着高性能计算机的增多,物美价廉摄影机的普及,对自动视频分析与日俱增的需求引起人们对目标跟踪算法浓厚兴趣。
应用
目标跟踪应用于以下相关工作中:
(1)
智能视频监控:基于运动识别(基于步法的人类识别, 自动物体检测等) , 自动化监测(监视一个场景以检测可疑行为);交通监视(实时收集交通数据用来指挥交通流动)。
(2)
人机交互:传统人机交互是通过
计算机键盘和鼠标进行的。而人们期望计算机更智能地以自然方式与人交流。实现这一目标的方式之一是使计算机具有识别和理解人的姿态、动作、手势等能力,跟踪是完成这些任务的关键一步。
(3)机器人视觉导航:
视觉传感器是
智能机器人一种重要的信息源,为能自主运动,智能机器人须认识和跟踪环境中的物体。在机器人手眼应用中,跟踪技术用安装在机器人手上的摄像机拍摄物体, 计算其运动轨迹, 选择最佳姿态抓取物体。
(4)
虚拟现实:虚拟环境中
3D交互和虚拟角色动作模拟直接得益于视频人体运动分析的研究成果,可给参与者提供更加丰富的交互形式。从视频中获取人体运动数据, 用新的虚拟人物或具有类似关节模型的物体替换原视频中的人物, 以得到意想不到的特殊效果。其关键技术是人体运动跟踪分析。
(5)医学诊断:
超声波和
核磁共振技术已被广泛应用于病情诊断。跟踪技术在超声波和核磁序列图像的自动分析中有广泛应用。由于超声波图像中的
噪声经常会淹没单帧图像有用信息, 使静态分析十分困难, 如果利用序列图像中目标在几何上的连续性和时间上的相关性, 则得到的结果将更加准确。
研究现状
目标跟踪的目的是定位目标在每帧视频图像中的位置, 产生目标运动轨迹。跟踪器能得到目标在每帧中的图像区域。目标跟踪可以依据目标类型分为点目标跟踪和对于目标占有一定区域有纹理、轮廓等特征的目标跟踪两种情况。
点目标跟踪
跟踪可以表述为不同帧中检测目标间的通信。在目标阻塞、误检测、进入和退出情况下, 点通信是复杂问题。其可分为两大类:
(1)通信的确定性方法
定性方法使用定性运动启发法来约束
通信问题,其定义了用运动约束将 t - 1 帧中的目标与t 帧中的目标结合起来的成本。通信成本最小化是组合优化问题。Shafique提出了一种多帧方法来保持速度和位置的当前一致性, 将通信表示成一个用曲线图表示的理论问题。多帧通信是为了发现到达每个点最好的唯一路径。对于误检测或阻塞目标, 路径将包含相应帧的失踪位置。产生定向图表, 然后通过贪婪算法建立通信。
(2)通信的统计学方法
概率统计方法进行目标测量, 其通过在目标状态估计中考虑测量和模型不确定性来解决跟踪问题。
统计学通信方法使用状态空间方法对目标性能(如位置、速度和加速度)进行建模。对于单个目标且初始状态和噪音是高斯分布, 则可以用滤波器进行理想状态估算。滤波分预测和改正。如果不是
线性函数, 可用 Taylor 展开来得到扩展
滤波器,从而使其线性化。当使用卡尔曼或质点滤波器跟踪多重目标时, 须将特定目标最可能的测量与目标状态连接起来, 即在这些滤波器应用前需解决通信问题。但是如果目标彼此距离太近,往往会导致通信不准确。联合概率数据关联(JPDAF)和多假设跟踪(MHT)是两种广泛应用于数据关联技术的方法。
基于帧差法
通过找出构造的背景模型中每帧差异进行跟踪。背景模型中图像区域的任何显著变化都可能是运动物体。为进一步处理, 对区域中正在变化的像素点做标记, 用相关联算法来获得与目标相一致的关联区域,这个过程为背景减法。Wren用 3D(YUV 空间)
高斯算法对静态背景中各像素点颜色建模。标记背景模型中偏离的像素点为显
著像素点。但单
高斯分布不适合用于户外场景,因为在某一坐标点上由于重复的物体运动、阴影或反射可能会观察到多重颜色。通过使用多统计模型来描述每个像素的背景颜色使背景模型获得很大改善。
Elgammal使用无参数内核密度估计来对各像素背景建模。减法过程中当前像素点不仅与背景模型中相应像素点匹配, 还和邻近
像素坐标位置相匹配,可以处理背景中的照相机抖动或微小运动。Rittscher用隐式马尔科夫模型( HMM) 按照像素属于背景、前景或阴影进行图像分块。Stenger使用 HMMs 对光源时亮时暗的事物进行背景相减。HMMs 优势是用训练样本获得某些用无监督背景建模方法很难精确建模的事物。Oliver不是根据单个像素的差值建模, 而提出使用特征空间分解的一种整体方法。背景由
特征矢量描述,实现视角( FOV) 中所有可能的光照。因此,该方法对光照更不敏感。通过当前图像到特征空间并发现重建图像和实际图像的不同来检测前景目标。
Monnet和 Zhong提出的方法可处理随时间变化的背景, 其图像区域采用自回归运动平均( ARMA) 进行建模, 可以预测场景中的运动模式。
基于分割思想
图像分割算法的目的是有感知地将图像分成相似的区域。每个分割算法都强调了一个好的分割标准和获得有效分割的方法。本文在这个部分将讨论近代与目标跟踪相关的分割技术。
(1)Mean-Shift 聚集
对于图像分割问题, Comaniciu提出 meanshift方法用以发现空间和颜色交接点的空间中的簇[l,u,v,x,y],其中[l,u,v]表示颜色,[x,y]表示空间位置。mean-shift 矢量迭代计算直到簇中心的位置不再改变。在 mean-shift 迭代期间, 一些簇可能发生合并。基于分割的 Mean-shift 算法各参数(如颜色选择、空间内核带宽和区域最小化阈值)对分割结果有很大影响。
(2)使用Graph-Cuts 的图像分割
图像分割也可表达成一个图表分割问题, 通过修剪图表
权重边缘将其分解成N个分离子图表。两个子图之间的修剪边缘权重总和成为切口。权重通过两个节点间的颜色、亮度或纹理相似性计算出。使用最小化切口标准实现切口最小分割方式。最小化切口的局限性在于它的斜纹朝向图像切割的上部分。这种效果是因为随着横跨两个切割块的边缘的增加,切口的成本增加。
(3)主动轮廓
该结构中,可通过将封闭轮廓演变成目标边界, 将轮廓紧紧围绕目标区域, 从而获得目标分割。轮廓演变由轮廓对于假定目标区域的合适性决定。
基于轮廓方法的一个重要问题是轮廓
初始化;另一个是选择正确轮廓表示法。目标轮廓 Γ可明确地用控制点 V 或含蓄地用等值面 表示。明确表示法, 控制点间的关系定义成曲线等式。含蓄法定义成等值面网格的 0 交叉口。含蓄法比明确法的优势是能灵活适应拓扑变化(分离和合并)。
发展方向
近年来目标跟踪技术发展取得了很大进步。研发出了多个性能优良的
跟踪器, 可以在简单场景中实时跟踪目标。应用假设可以使跟踪的问题简单化(如平滑的运动、少量阻塞、光照恒定性、高对比度背景等), 但这些假设在现实场景中是不存在的, 限制了其在自动化监控、人机交互、视频检索、交通监控、车辆导航等应用领域的
应用。跟踪的难点在于:
(1)目标外观随时间而变化, 如尺度变化、旋转、超平面旋转、光照变化引起的目标颜色剧烈及不均匀变化、非刚体形变、视角变化引起的外观变化等;
(2)背景复杂多变, 使
建模难度增加且目标容易淹没在背景中;
(4)由于相机不稳、相机帧频、传感器等原因造成高速运动目标的模糊;
(5)完全遮挡或丢失后造成的时间不连续,而后目标重新出现;
发展不受约束、长期稳定的目标跟踪算法是未来的发展趋势也是挑战。因此, 研究更有效的目标表示方法以及目标相似性度量方法以适应目标的外观变化是重要的研究方向。同时对于基于学习的
智能算法仍需研究并引入以应对目标随时间的变化,监督学习需要大量人工干预,半监督学习近年来已被众多学者所研究并在目标跟踪方面有很高的研究和应用价值。另外, 无论是基于检测思想的还是基于时间关联性跟踪的方法, 对于目标的有效搜索都是一个关键问题, 基于
粒子滤波、
均值漂移、金字塔搜索等跟踪算法仍有进一步研究的价值,同时对于其他学科中 np 问题的解法等也可以引入跟踪搜索, 以提高算法效率和执行速度,针对特定的场景利用一些附加信息,进行上下情景信息的融合,可以使跟踪更有效。