第14章多媒体数据压缩编码技术(7)

书签收藏评论目录封面

H.261标准规定采用的视频编码格式为CIF（CommonIntermediateFormat）和QCIF（QuarterCommonIntermediateFormat）。两种格式的最大画面传输速率为29.97fps（帧每秒），其具体编码格式如表39所示。

2．编码算法

对于上述分辨率的视频信号，不要说30fps，就是10fps，其数据量也是很大的，而且在P较小的可视电话或电视会议系统中，要求有很大的数据压缩比。为此，就需要采用前面所提到的压缩方法，而且，为提高压缩比，还要将多种压缩编码方法混合使用。

H.261编码流程可用图332来表示。当然，图332只是说明了H.261编码过程的大致流程，为的是给读者一个比较容易理解的编码思路。

1）分块

源图像经变换后按4∶2∶2进行采集，并对采集的图像数据进行分块。分块是逐层进行的。首先，将一幅CIF图像分成12个块组（GroupofBlock，GOB），一幅QCIF图像分为3个块组。每个块组又是由3×11=33个宏块（MacroBlock，MB）组成。每个宏块又由4个8×8的亮度（Y）图块、一个8×8的色差（CB）图块和一个8×8的色差（CR）图块构成。这样，一幅图像最后就被分成了若干8×8的图块。

2）源编码

接下来是对分块的源图像信号进行源编码。这种编码方法采用有失真压缩，目的是从时间上和空间上去除冗余信息。

源编码采用帧内编码和帧间编码。帧内编码采用前面已介绍过的快速余弦变换（DCT）的变换压缩方法。在编码过程中，将DCT系数量化后再进行逆处理，恢复原始图像并放在一个缓冲器中，再用此图像与下一帧图像进行帧间预测编码和运动补偿。其做法就是在进行运动补偿的基础上，对当前帧的每一个亮度宏块与预测帧宏块求差，当两者之差小于某一门限时，就不需要传送此宏块数据了。反之，若差值大于某一规定的门限，就对其差进行DCT变换和量化编码，从而完成源编码的部分工作。

量化编码产生的数据进入量化器缓冲区，并且按照量化器缓冲区的大小对量化器的量化阶进行自适应调节。当缓冲区的剩余空间大时，就减小量化阶的大小，这可提高图像的质量；反之，若缓冲区的剩余空间很小，为防止溢出，可加大量化阶的大小，保证缓冲区不至于溢出。

3）熵编码

为了进一步提高压缩比，在源图像编码的基础上，再进一步进行熵（无失真）编码。在H.261标准中对DCT系数等5种参数进行无失真变字长编码，编码后的数据进入输出缓冲器。适当地选择缓冲器的容量，通过控制线性量化器的步长，使压缩图像的bit流保持恒定速率并保证缓冲器既不溢出又不致取空。

3．H.261标准的视频数据结构

H.261标准详细地规定了视频数据的结构，这也是很容易理解的。只有大家都遵守某种标准，在图像被大幅度压缩之后传送到接收端，接收端才能依据数据结构对数据进行解压缩，从而恢复原来的图像。有一种大家共同参照的标准，恢复原始图像才能进行。

CCITT（现在改名为ITUTSS）规定数据结构为层次结构，它们分别是图像层、块组层、宏块层和图块层，如图333所示。

由图333可以看到，一幅图像数据由图像头开始，图像头由编码00010H引导，后面跟着本幅图像的帧编号、编码格式（是CIF还是QCIF）和其他信息。从中可以提取一幅（帧）图像的起始地址和其他识别信息。

图像由图像头和块组构成，而块组由块组头和宏块组成。块组头分别由起始编码、量化信息及其他信息组成。依次类推，宏块由宏块头和图块组成，图块由DCT系数组成，最后是结束标志EOB。

4．视频会议的实现

以上内容讲述了视频会议（电视会议）统一技术规范的H.261标准。实际上，它是CCITT制定的H.320系列标准中的图像数据编码标准。除H.261外，尚有系统控制规程结构标准H.221、系统控制规程的通信过程标准H.242、多点桥接控制标准H.231、监控与显示标准H.230等各种有关视频及音频的标准。在这些标准的规范下，可实现视频会议所要求的各项技术。H.320标准中的语音编码采用G.711、G.722和G.728标准。一台典型的视频会议系统的结构框图如图334所示。

在图334中，微型机就是一个多媒体微型机。它可以是专用的，由厂家专门生产；也可以在现在市场上流行的微型机基础上，增加一些板卡来实现。图334主要体现了这种思想，即在当前最流行的、价格比较低的微型机的基础上构成的视频会议系统的应用平台。

为此，首先要配置CODEC（即Coder/Decoder），它的功能如同上面所介绍的：将视频图像以CIF或QCIF格式进行压缩编码，以一定数据结构输出串行压缩图像数据bit流。通信接口卡将视频会议系统的视频信号和音频信号进行汇集，通过调制解调器（MODEM）将信号送往通信网络，发往接收方。

图334所示的视频会议系统可运行于各种网络环境之下。目前，以PC机为基础构成的系统可运行于综合业务数字网（ISDN）、局域网或广域网（LANorWAN）和电话网上。

目前，运行于ISDN环境下的产品非常多，在此仅以Intel公司的PV200（ProshareVideoSystem200）为例简单加以说明。PV200包括插在486PC机上的两块卡：CODEC卡和ISDN卡。其中，CODEC卡与摄像机相连接，完成对摄像机送来的图像信号的放大、采集和压缩编码；ISDN卡要完成对麦克风输入声音信号的采集、压缩及编码，还将汇集由CODEC来的已压缩视频信号并以ISDN规定的格式将数据送往ISDN。

运行在LAN上的视频会议产品，由于网上各站共享网络的信道，故信道争用在所难免，这对于利用LAN传送动态图像十分不利。为保证视频会议的图像质量，就需要实时监测网络的负载情况，以便自动调整视频信号。工作在PC机基础上的LAN视频会议产品有多种，其中PictureTel公司的LiveLAN具有一定的代表性。该产品由三个模块组成，用于实现视频会议功能和免提电话功能。通过路由器可实现网际的信息传送。

显然，视频会议系统是多媒体计算机与多媒体技术相结合的产物，要有专用的或通用的传输速率高的通信网络来支持。但是，在国内这样的网络尚不普及，如果急需视频会议（电视电话），可暂时利用国内的电话网来实现。

利用电话线路实现视频会议系统，主要的问题是电话线上的数据传送速率比较低，这就导致视频图像的连续性差一些。但因这种选择方便、简单，当前仍有一定的竞争力。一种可与电话线相连的产品是Creative公司的ShareVisionPC3000。该产品包括插在PC上的两块卡，用于音频和视频的处理，通过调制解调器（MODEM）与电话线相连。在声卡、视卡的支持下，可在320×200或160×120的窗口中对视频图像进行捕获、压缩并回放。ShareVisionPC3000可在PC机的CRT上开辟两个窗口，在电视电话中，窗口中可分别放出通话双方的图像。

在PC机及视频会议产品价格不断降低以及电话已比较普及的情况下，以PC机为基础的视频会议系统不仅可以很快进入各企事业单位，而且正逐步进入家庭。

3.6.3MPEG动态图像标准

MPEG是动态图像专家组（MovingPictureExpertsGroup）的英文缩写。该组织首先制定了“数字存储媒体在1.5Mbps以下的动态图像和伴随声音的编码”标准。这就是今天人们常说的MPEG1。该标准可以把数字图像信号压缩到每个像素0.5～1bit，将分辨率为352×240，30fps的图像，数据率由61Mbps压缩为1.2Mbps。经解压缩恢复的彩色电视图像的质量与VHS录像机的图像质量差不多。

在MPEG1标准于1993年公布后，MPEG又开发了下一个标准，叫做“动态图像及伴随声音信息的通用编码”，这就是MPEG2标准。它的主要出发点是针对广播电视事业及高清晰度电视。

MPEG还在继续做工作，已经制定了MPEG1、MPEG2、MPEG3、MPEG4、MPEG7、MPEG21等多个标准。这里，仅对MPEG1和MPEG2作一些简要的介绍。1．MPEG1标准

MPEG1标准主要由三部分组成：MPEG图像、MPEG声音和MPEG系统。

1）MPEG图像

该部分的主要功能是把352×240，30fps的图像或352×288，25fps的图像压缩为传送速率为1.2Mbps的串行数据，采用MPEG所规定的算法达到此目的。相反，还必须保证利用MPEG所获得的压缩电视数据能够经解压缩恢复为原始图像。也就是说，必须很方便地将传送来的或记录在媒体上的MPEG数据进行回放，而且从回放功能或图像质量上都应比一般家用录像机好。

（1）图像压缩方法

MPEG对电视图像信号的Y、CB、CR采用4∶2∶2的格式进行采集。图像压缩算法包括前面已描述过的预测编码，即利用帧内预测值与实际值之差进行DCT编码。MPEG采用运动补偿方法减少失真，提高压缩比和图像质量；采用在JPEG中使用的DCT方法；采用熵编码，利用可变码长的编码方法对出现概率大的数据用小码长，对出现频率低的数据采用位数多的码字来表示。

同时，在MPEG中采用帧间预测技术来减少图像信号的时间冗余度，从而提高数据压缩比。但值得提到的是，前面描述的是前向帧间预测，即只用过去的帧来预测本帧。而在MPEG给出的算法中，采用双向帧间预测，也就是说本帧图像既要用过去的帧还要用将来的帧进行预测。这样可以更好地消除时间冗余，提高编码效率。

（2）图像码流的数据结构

MPEG1的简化的图像编码器框图如图335所示，在图中大致表示了动态图像的编码过程。动态图像经编码由缓冲器输出。缓冲器是进行自适应调节的，以便保证缓冲器既不溢出又不取空。压缩数据输出的格式是由MPEG标准规定的，具体的数据流格式如图336所示。

由编码器的缓冲器输出的数据流是一种输出的基本码流，为后续部分使用。从图336中可以看到，这是一种分层的结构。整个图像序列由序列的头尾标志来标识，它们中间是一个或多个图像组。图像组由图像组头标志开始，包括一幅或多幅图像。利用图像组头标志，便于对图像随机存取。一副图像由一片或多片宏块片（MicroBlockSlice）组成，而一片宏块片又由许多宏块构成。有关宏块的定义在前面已经提及，在这里用图表示，如图337所示。

图337宏块的结构

由图337可以看到，宏块由16×16像素构成，经采集后，这16×16像素点分成6个8×8的图块，其中4个8×8的亮度图块，一个8×8的CB色差图块和一个8×8的CR色差图块。如前所述，图像的处理是以8×8图块为基础的。

对于所给定的宏块，具体的编码过程与前面所介绍的JPEG标准十分类似。同样，对压缩数据的译码解压缩自然也与JPEG类似。

2）MPEG声音

这一部分是有关声音的数据压缩技术。标准规定声音的采样率为48kHz，44.1kHz，32kHz，每个样本的精度为16位。若用44.1kHz采样双声道立体声信号，则数据速率可达1.4112Mbps。采用声音压缩算法，可将速率减至192kbps或更低，并且还原后的音质没有明显下降。与图像相比，声音的数据量要小一些，处理起来也相对容易一些。3）MPEG系统

这一部分是MPEG对同步和多路复合技术的规定。在前两部分中，对动态图像和声音分别进行了压缩编码，形成各自的输出基本码流。但是，对于动态电视图像来说，只有上述两部分信号是不够的，还应当有必要的定时同步信号。

第14章 多媒体数据压缩编码技术(7)

第14章多媒体数据压缩编码技术(7)