April 1st, 2017 original post at hetaodie.github.io

视频理论

视频冗余种类

空间冗余：图像相邻像素之间有较强的相关性
时间冗余：视频序列的相邻图像之间内容相似
编码冗余：不同像素值出现的概率不同
视觉冗余：人的视觉系统对某些细节不敏感
知识冗余：规律性的结构可由先验知识和背景知识得到

视频编码中的关键技术

预测：通过帧内预测和帧间预测降低视频图像的空间冗余和时间冗余。
变换：通过从时域到频域的变换，去除相邻数据之间的相关性，即去除空间冗余。
量化：通过用更粗糙的数据表示精细的数据来降低编码的数据量，或者通过去除人眼不敏感的信息来降低编码数据量。
扫描：将二维变换量化数据重新组织成一维的数据序列。
熵编码：根据待编码数据的概率特性减少编码冗余。

图像的帧和场

一帧图像包括两场——顶场，底场：

逐行图像是指：一帧图像的两场在同一时间得到，ttop=tbot。
隔行图像是指：一帧图像的两场在不同时间得到， ttop≠tbot。

具体的视频码流结构

预测技术的作用

目的是去除空间冗余和时间冗余。因为视频存在大量的空间冗余和时间冗余，包括空间冗余、时间冗余，预测后得到去除大部分空间或时间冗余的残差。

空间冗余

图像空间相邻像素具有很强的相关性，帧内预测技术去除空间冗余。

亮度预测模式

色度预测模式

时间冗余

视频图像在时间上有较强的相关性，即存在时间冗余。去除时间冗余的编码技术有：运动估计（Motion Estimation，ME）、运动补偿（Motion Compensation，MC）。

运动模型

匹配准则

运动估计

目的是去除视频图像的时间冗余。运动估计在搜索范围内为当前块寻找匹配最好的预测块，全搜索方式的运动估计计算复杂度高。

快速运动估计算法种类

在保持预测精度的同时减少运动估计的搜索次数，典型算法有：

三步搜索（Three Step Search，TSS）
二维Log搜索（2D Logarithmic Search，2DLOG）
正交搜索（Orthogonal Search Algorithm，OSA）
十字搜索（Cross Search Algorithm，CSA）
新三步搜索（New Three Step Search，NTSS）
四步搜索（Four Step Search，FSS）
共轭方向搜索（Conjugate Direction Search，CDS）
梯度下降搜索（Gradient Descent Search，GDS）
层次块搜索（Hierarchical Block Matching Algorithm，HBMA） 搜索算法复杂度比较

分像素运动估计与运动补偿

时域运动位置更可能在整象素之间，即分像素上。利用相邻的整象素可以估计出分象素的值：常用线性或双线性插值得到分象素的值。分象素运动估计有更高的预测精度，但复杂度也更高：1/2分象素运动估计，图像存储空间增加4倍，运动矢量需要放大2倍，1/4分象素运动估计，图像存储空间增加16倍，运动矢量需要放大4倍，计算复杂度也成倍增加

分像素插值

多参考帧预测

有更多的候选图像，搜索更精确的预测块。

图像分块编码

视频内容的运动非常复杂，图像分块编码可以更好的提高运动预测精度，提高压缩效率。要在编码块大小和附信息（MV，Mode）编码比特数之间权衡，小的编码块大小会有更好的预测但有更多的附信息比特数。

双向预测编码

B帧有更好的编码效率

新出现的对象参考将来的帧有更好的预测效果，前后两个预测的平均值可以减少预测方差。

全局运动估计

H264

H264的优点

将每个视频帧分离成由像素组成的块，因此视频帧的编码处理的过程可以达到块的级别。
采用空间冗余的方法，对视频帧的一些原始块进行空间预测、转换、优化和熵编码（可变长编码）。
对连续帧的不同块采用临时存放的方法，这样，只需对连续帧中有改变的部分进行编码。该算法采用运动预测和运动补偿来完成。对某些特定的块，在一个或多个已经进行了编码的帧执行搜索来决定块的运动向量，并由此在后面的编码和解码中预测主块。
采用剩余空间冗余技术，对视频帧里的残留块进行编码。例如：对于源块和相应预测块的不同，再次采用转换、优化和熵编码

H264标准的关键技术

帧内预测编码

帧内编码用来缩减图像的空间冗余。为了提高H.264帧内编码的效率，在给定帧中充分利用相邻宏块的空间相关性，相邻的宏块通常含有相似的属性。因此，在对一给定宏块编码时，首先可以根据周围的宏块预测（典型的是根据左上角的宏块，因为此宏块已经被编码处理），然后对预测值与实际值的差值进行编码，这样，相对于直接对该帧编码而言，可以大大减小码率。

帧间预测编码

帧间预测编码利用连续帧中的时间冗余来进行运动估计和补偿。H.264的运动补偿支持以往的视频编码标准中的大部分关键特性，而且灵活地添加了更多的功能，除了支持P帧、B帧外，H.264还支持一种新的流间传送帧——SP帧，如图3所示。码流中包含SP帧后，能在有类似内容但有不同码率的码流之间快速切换，同时支持随机接入和快速回放模式。

整数变换

在变换方面，H.264使用了基于4×4像素块的类似于DCT的变换，但使用的是以整数为基础的空间变换，不存在反变换，因为取舍而存在误差的问题，变换矩阵如图5所示。与浮点运算相比，整数DCT变换会引起一些额外的误差，但因为DCT变换后的量化也存在量化误差，与之相比，整数DCT变换引起的量化误差影响并不大。此外，整数DCT变换还具有减少运算量和复杂度，有利于向定点DSP移植的优点。

量化

H.264中可选32种不同的量化步长，这与H.263中有31个量化步长很相似，但是在H.264中，步长是以12.5%的复合率递进的，而不是一个固定常数。

在H.264中，变换系数的读出方式也有两种：之字形（Zigzag）扫描和双扫描，如图6所示。大多数情况下使用简单的之字形扫描；双扫描仅用于使用较小量化级的块内，有助于提高编码效率。

熵编码

视频编码处理的最后一步就是熵编码，在H.264中采用了两种不同的熵编码方法：通用可变长编码（UVLC）和基于文本的自适应二进制算术编码（CABAC）。

在H.263等标准中，根据要编码的数据类型如变换系数、运动矢量等，采用不同的VLC码表。H.264中的UVLC码表提供了一个简单的方法，不管符号表述什么类型的数据，都使用统一变字长编码表。其优点是简单；缺点是单一的码表是从概率统计分布模型得出的，没有考虑编码符号间的相关性，在中高码率时效果不是很好。

因此，H.264中还提供了可选的CABAC方法。算术编码使编码和解码两边都能使用所有句法元素（变换系数、运动矢量）的概率模型。为了提高算术编码的效率，通过内容建模的过程，使基本概率模型能适应随视频帧而改变的统计特性。内容建模提供了编码符号的条件概率估计，利用合适的内容模型，存在于符号间的相关性可以通过选择目前要编码符号邻近的已编码符号的相应概率模型来去除，不同的句法元素通常保持不同的模型。

音频

基本概念

比特率：表示经过编码（压缩）后的音频数据每秒钟需要用多少个比特来表示，单位常为kbps。
采样和采样率：采样是把连续的时间信号，变成离散的数字信号。采样率是指每秒钟采集多少个样本。

如果觉得我的文章对您有用，请随意打赏。您的支持将鼓励我继续创作！

webrtc (4)

webrtc video audio (4)

hetaodie
Mobile development

简单，深入的研究移动客户端开发技术"

即时通讯音视频开发笔记（1）