运动补偿是一种描述相邻帧(相邻在这里表示在编码关系上相邻,在播放顺序上两帧未必相邻)差别的方法,具体来说是描述前面一帧的每个小块怎样移动到当前帧中的某个位置去。这种方法经常被视频压缩/
视频编解码器用来减少视频序列中的空域冗余。它也可以用来进行去交织(deinterlacing)与以及运动插值(motion interpolation)的操作。
研究目的
一个视频序列包含一定数量的图片,通常称为帧(frame)。相邻的帧通常很相似,也就是说,包含了很多冗余。使用运动补偿的目的是通过消除这种冗余,来提高压缩比。
运动补偿的起源
最早的运动补偿的设计只是简单的从当前帧中减去
参考帧残差解码器可以通过简单的加法完全恢复编码帧。
一个稍微复杂一点的设计是估计一下整帧场景的移动和场景中物体的移动,并将这些运动通过一定的参数编码到码流中去。这样预测帧上的像素值就是由参考帧上具有一定位移的相应像素值而生成的。这样的方法比简单的相减可以获得能量更小的残差,从而获得更好的压缩比--当然,用来描述运动的参数不能在码流中占据太大的部分,否则就会抵消复杂的
运动估计带来的好处。
通常,图像帧是一组一组进行处理的。每组的第一帧(通常是第一帧)在编码的时候不使用运动估计的办法,这种帧称为
帧内编码帧(Intra frame)或者
I帧。该组中的其它帧使用帧间编码帧(Inter frame),通常是
P帧。这种编码方式通常被称为IPPPP,表示编码的时候第一帧是I帧,其它帧是P帧。
在进行预测的时候,不仅仅可以从过去的帧来预测当前帧,还可以使用未来的帧来预测当前帧。当然在编码的时候,未来的帧必须比当前帧更早的编码,也就是说,编码的顺序和播放的顺序是不同的。通常这样的当前帧是使用过去和未来的I帧或者P帧同时进行预测,被称为双向预测帧,即
B帧。这种编码方式的编码顺序的一个例子为 IBBPBBPBBPBB。
分类
包括全局运动补偿和分块运动补偿以及其变种可变分块运动补偿三类。
全局运动补偿
在全局运动补偿中,运动模型基本上就是反映摄像机的各种运动,包括平移,旋转,变焦等等。这种模型特别适合对没有运动物体的静止场景的编码。它有下面的一些优点:
1)该模型仅仅使用少数的参数对全局的运行进行描述,参数所占用的码率基本上可以忽略不计。
2)该方法不对帧进行分区编码,这避免了分区造成的
块效应。
3)在时间方向的一条直线的点如果在空间方向具有相等的间隔,就对应了在实际空间中连续移动的点。其它的
运动估计算法通常会在时间方向引入非连续性。
但是,缺点是,如果场景中有运动物体的话,全局运动补偿就不足以表示了。这时候应该选用其它的方法。
分块运动补偿
每帧被分为若干像素块(在大多数
视频编码标准,如MPEG中,是分为16x16的像素块)。从
参考帧的某个位置的等大小的块对当前块进行预测,预测的过程中只有平移,平移的大小被称为运动矢量。
对分块运动补偿来说,运动矢量是模型的必要参数,必须一起编码加入码流中。由于运动矢量之间并不是独立的(例如属于同一个运动物体的相邻两块通常运动的相关性很大),通常使用
差分编码来降低码率。这意味着在相邻的运动矢量编码之前对它们作差,只对差分的部分进行编码。使用
熵编码对运动矢量的成分进行编码可以进一步消除运动矢量的统计冗余(通常运动矢量的差分集中于0矢量附近)。
运动矢量的值可以是非整数的,此时的运动补偿被称为
亚像素精度的运动补偿。这是通过对
参考帧像素值进行亚像素级插值,而后进行运动补偿做到的。最简单的亚像素精度运动补偿使用半像素精度,也有使用1/4像素和1/8像素精度的运动补偿算法。更高的亚像素精度可以提高运动补偿的
精确度,但是大量的插值操作大大增加了计算
复杂度。
可变分块运动补偿
可变分块运动补偿(VBSMC,全称Variable Block Size Motion Compensation)是BMC的变种,编码器可以动态选择分块大小。进行视频编码时,使用大的分块可以减少表征运动向量所需的比特数,使用小的分块则可以在编码时产生更少的预测余量信息。较老的设计,像H.261和MPEG-1视频编码,典型的使用了固定分块,而较新的设计,像H.263、MPEG-4 Part 2、H.264/MPEG-4 AVC和VC-1则赋予了编码器动态选择何种分块来表征运动图像的能力。
缺点
分块运动补偿的一个大缺点在于在块之间引入的非连续性,通常称为
块效应。当块效应严重时,解码图像看起来会有像马赛克一样的效果,严重影响
视觉质量。另外一个缺点是,当
高频分量较大时,会引起
振铃效应。关于高频分量,请参见对运动补偿后的
残差进行变换的方法:
变换编码。