H.261标准规定采用的视频编码格式为CIF(CommonIntermediateFormat)和QCIF(QuarterCommonIntermediateFormat)。两种格式的最大画面传输速率为29.97fps(帧每秒),其具体编码格式如表39所示。
2.编码算法
对于上述分辨率的视频信号,不要说30fps,就是10fps,其数据量也是很大的,而且在P较小的可视电话或电视会议系统中,要求有很大的数据压缩比。为此,就需要采用前面所提到的压缩方法,而且,为提高压缩比,还要将多种压缩编码方法混合使用。
H.261编码流程可用图332来表示。当然,图332只是说明了H.261编码过程的大致流程,为的是给读者一个比较容易理解的编码思路。
1)分块
源图像经变换后按4∶2∶2进行采集,并对采集的图像数据进行分块。分块是逐层进行的。首先,将一幅CIF图像分成12个块组(GroupofBlock,GOB),一幅QCIF图像分为3个块组。每个块组又是由3×11=33个宏块(MacroBlock,MB)组成。每个宏块又由4个8×8的亮度(Y)图块、一个8×8的色差(CB)图块和一个8×8的色差(CR)图块构成。这样,一幅图像最后就被分成了若干8×8的图块。
2)源编码
接下来是对分块的源图像信号进行源编码。这种编码方法采用有失真压缩,目的是从时间上和空间上去除冗余信息。
源编码采用帧内编码和帧间编码。帧内编码采用前面已介绍过的快速余弦变换(DCT)的变换压缩方法。在编码过程中,将DCT系数量化后再进行逆处理,恢复原始图像并放在一个缓冲器中,再用此图像与下一帧图像进行帧间预测编码和运动补偿。其做法就是在进行运动补偿的基础上,对当前帧的每一个亮度宏块与预测帧宏块求差,当两者之差小于某一门限时,就不需要传送此宏块数据了。反之,若差值大于某一规定的门限,就对其差进行DCT变换和量化编码,从而完成源编码的部分工作。
量化编码产生的数据进入量化器缓冲区,并且按照量化器缓冲区的大小对量化器的量化阶进行自适应调节。当缓冲区的剩余空间大时,就减小量化阶的大小,这可提高图像的质量;反之,若缓冲区的剩余空间很小,为防止溢出,可加大量化阶的大小,保证缓冲区不至于溢出。
3)熵编码
为了进一步提高压缩比,在源图像编码的基础上,再进一步进行熵(无失真)编码。在H.261标准中对DCT系数等5种参数进行无失真变字长编码,编码后的数据进入输出缓冲器。适当地选择缓冲器的容量,通过控制线性量化器的步长,使压缩图像的bit流保持恒定速率并保证缓冲器既不溢出又不致取空。
3.H.261标准的视频数据结构
H.261标准详细地规定了视频数据的结构,这也是很容易理解的。只有大家都遵守某种标准,在图像被大幅度压缩之后传送到接收端,接收端才能依据数据结构对数据进行解压缩,从而恢复原来的图像。有一种大家共同参照的标准,恢复原始图像才能进行。
CCITT(现在改名为ITUTSS)规定数据结构为层次结构,它们分别是图像层、块组层、宏块层和图块层,如图333所示。
由图333可以看到,一幅图像数据由图像头开始,图像头由编码00010H引导,后面跟着本幅图像的帧编号、编码格式(是CIF还是QCIF)和其他信息。从中可以提取一幅(帧)图像的起始地址和其他识别信息。
图像由图像头和块组构成,而块组由块组头和宏块组成。块组头分别由起始编码、量化信息及其他信息组成。依次类推,宏块由宏块头和图块组成,图块由DCT系数组成,最后是结束标志EOB。
4.视频会议的实现
以上内容讲述了视频会议(电视会议)统一技术规范的H.261标准。实际上,它是CCITT制定的H.320系列标准中的图像数据编码标准。除H.261外,尚有系统控制规程结构标准H.221、系统控制规程的通信过程标准H.242、多点桥接控制标准H.231、监控与显示标准H.230等各种有关视频及音频的标准。在这些标准的规范下,可实现视频会议所要求的各项技术。H.320标准中的语音编码采用G.711、G.722和G.728标准。一台典型的视频会议系统的结构框图如图334所示。
在图334中,微型机就是一个多媒体微型机。它可以是专用的,由厂家专门生产;也可以在现在市场上流行的微型机基础上,增加一些板卡来实现。图334主要体现了这种思想,即在当前最流行的、价格比较低的微型机的基础上构成的视频会议系统的应用平台。
为此,首先要配置CODEC(即Coder/Decoder),它的功能如同上面所介绍的:将视频图像以CIF或QCIF格式进行压缩编码,以一定数据结构输出串行压缩图像数据bit流。通信接口卡将视频会议系统的视频信号和音频信号进行汇集,通过调制解调器(MODEM)将信号送往通信网络,发往接收方。
图334所示的视频会议系统可运行于各种网络环境之下。目前,以PC机为基础构成的系统可运行于综合业务数字网(ISDN)、局域网或广域网(LANorWAN)和电话网上。
目前,运行于ISDN环境下的产品非常多,在此仅以Intel公司的PV200(ProshareVideoSystem200)为例简单加以说明。PV200包括插在486PC机上的两块卡:CODEC卡和ISDN卡。其中,CODEC卡与摄像机相连接,完成对摄像机送来的图像信号的放大、采集和压缩编码;ISDN卡要完成对麦克风输入声音信号的采集、压缩及编码,还将汇集由CODEC来的已压缩视频信号并以ISDN规定的格式将数据送往ISDN。
运行在LAN上的视频会议产品,由于网上各站共享网络的信道,故信道争用在所难免,这对于利用LAN传送动态图像十分不利。为保证视频会议的图像质量,就需要实时监测网络的负载情况,以便自动调整视频信号。工作在PC机基础上的LAN视频会议产品有多种,其中PictureTel公司的LiveLAN具有一定的代表性。该产品由三个模块组成,用于实现视频会议功能和免提电话功能。通过路由器可实现网际的信息传送。
显然,视频会议系统是多媒体计算机与多媒体技术相结合的产物,要有专用的或通用的传输速率高的通信网络来支持。但是,在国内这样的网络尚不普及,如果急需视频会议(电视电话),可暂时利用国内的电话网来实现。
利用电话线路实现视频会议系统,主要的问题是电话线上的数据传送速率比较低,这就导致视频图像的连续性差一些。但因这种选择方便、简单,当前仍有一定的竞争力。一种可与电话线相连的产品是Creative公司的ShareVisionPC3000。该产品包括插在PC上的两块卡,用于音频和视频的处理,通过调制解调器(MODEM)与电话线相连。在声卡、视卡的支持下,可在320×200或160×120的窗口中对视频图像进行捕获、压缩并回放。ShareVisionPC3000可在PC机的CRT上开辟两个窗口,在电视电话中,窗口中可分别放出通话双方的图像。
在PC机及视频会议产品价格不断降低以及电话已比较普及的情况下,以PC机为基础的视频会议系统不仅可以很快进入各企事业单位,而且正逐步进入家庭。
3.6.3MPEG动态图像标准
MPEG是动态图像专家组(MovingPictureExpertsGroup)的英文缩写。该组织首先制定了“数字存储媒体在1.5Mbps以下的动态图像和伴随声音的编码”标准。这就是今天人们常说的MPEG1。该标准可以把数字图像信号压缩到每个像素0.5~1bit,将分辨率为352×240,30fps的图像,数据率由61Mbps压缩为1.2Mbps。经解压缩恢复的彩色电视图像的质量与VHS录像机的图像质量差不多。
在MPEG1标准于1993年公布后,MPEG又开发了下一个标准,叫做“动态图像及伴随声音信息的通用编码”,这就是MPEG2标准。它的主要出发点是针对广播电视事业及高清晰度电视。
MPEG还在继续做工作,已经制定了MPEG1、MPEG2、MPEG3、MPEG4、MPEG7、MPEG21等多个标准。这里,仅对MPEG1和MPEG2作一些简要的介绍。1.MPEG1标准
MPEG1标准主要由三部分组成:MPEG图像、MPEG声音和MPEG系统。
1)MPEG图像
该部分的主要功能是把352×240,30fps的图像或352×288,25fps的图像压缩为传送速率为1.2Mbps的串行数据,采用MPEG所规定的算法达到此目的。相反,还必须保证利用MPEG所获得的压缩电视数据能够经解压缩恢复为原始图像。也就是说,必须很方便地将传送来的或记录在媒体上的MPEG数据进行回放,而且从回放功能或图像质量上都应比一般家用录像机好。
(1)图像压缩方法
MPEG对电视图像信号的Y、CB、CR采用4∶2∶2的格式进行采集。图像压缩算法包括前面已描述过的预测编码,即利用帧内预测值与实际值之差进行DCT编码。MPEG采用运动补偿方法减少失真,提高压缩比和图像质量;采用在JPEG中使用的DCT方法;采用熵编码,利用可变码长的编码方法对出现概率大的数据用小码长,对出现频率低的数据采用位数多的码字来表示。
同时,在MPEG中采用帧间预测技术来减少图像信号的时间冗余度,从而提高数据压缩比。但值得提到的是,前面描述的是前向帧间预测,即只用过去的帧来预测本帧。而在MPEG给出的算法中,采用双向帧间预测,也就是说本帧图像既要用过去的帧还要用将来的帧进行预测。这样可以更好地消除时间冗余,提高编码效率。
(2)图像码流的数据结构
MPEG1的简化的图像编码器框图如图335所示,在图中大致表示了动态图像的编码过程。动态图像经编码由缓冲器输出。缓冲器是进行自适应调节的,以便保证缓冲器既不溢出又不取空。压缩数据输出的格式是由MPEG标准规定的,具体的数据流格式如图336所示。
由编码器的缓冲器输出的数据流是一种输出的基本码流,为后续部分使用。从图336中可以看到,这是一种分层的结构。整个图像序列由序列的头尾标志来标识,它们中间是一个或多个图像组。图像组由图像组头标志开始,包括一幅或多幅图像。利用图像组头标志,便于对图像随机存取。一副图像由一片或多片宏块片(MicroBlockSlice)组成,而一片宏块片又由许多宏块构成。有关宏块的定义在前面已经提及,在这里用图表示,如图337所示。
图337宏块的结构
由图337可以看到,宏块由16×16像素构成,经采集后,这16×16像素点分成6个8×8的图块,其中4个8×8的亮度图块,一个8×8的CB色差图块和一个8×8的CR色差图块。如前所述,图像的处理是以8×8图块为基础的。
对于所给定的宏块,具体的编码过程与前面所介绍的JPEG标准十分类似。同样,对压缩数据的译码解压缩自然也与JPEG类似。
2)MPEG声音
这一部分是有关声音的数据压缩技术。标准规定声音的采样率为48kHz,44.1kHz,32kHz,每个样本的精度为16位。若用44.1kHz采样双声道立体声信号,则数据速率可达1.4112Mbps。采用声音压缩算法,可将速率减至192kbps或更低,并且还原后的音质没有明显下降。与图像相比,声音的数据量要小一些,处理起来也相对容易一些。3)MPEG系统
这一部分是MPEG对同步和多路复合技术的规定。在前两部分中,对动态图像和声音分别进行了压缩编码,形成各自的输出基本码流。但是,对于动态电视图像来说,只有上述两部分信号是不够的,还应当有必要的定时同步信号。