书城计算机网络多媒体技术
13955600000016

第16章 音频信息处理技术(1)

人类的信息交流是从语言开始的,语言承载信息并通过声音和人的听觉传达、接收信息。人类通过听觉得到的信息占利用各种感觉器官收集的总信息量的20%左右,可见声音媒体在传递和交换信息中所起的作用。声音是人类表达思想和情感最早和最方便的媒体,因此,音频信息处理是计算机多媒体信息处理必需的功能之一。

本章介绍音频信号数字化原理、音频信号的获取与处理、乐器数字接口MIDI,以及声卡的基本结构、工作原理、主要性能指标和功能。

4.1音频信号概述

1.信号的描述及分类

1)确定信号及随机信号

能够用一确定的时间函数来表示的信号就是确定信号。这种信号对应某一时刻都有一个确定的信号值。有一些信号具有不可预知的不确定性,这种信号就是随机信号。

后面要讲的音频信号、视频信号以至计算机中的数字信号均为确定信号。

2)周期信号与非周期信号

按一定时间间隔周而复始重复的信号就是周期信号,而在时间上不具有周而复始的重复特性的信号就是非周期信号。

3)连续信号与离散信号

信号随时间的取值是连续的,这样的信号就是连续信号。如果信号在时间上的取值是离散的,则这种信号就称为离散信号。可见,离散信号在时间上是离散的,但信号在幅度上可以是连续的,也可以是离散的。

4)模拟信号与数字信号

如果信号在时间上和幅度上都是连续的,那么这样的信号就是模拟信号。模拟信号以一定时间间隔取值,则可获得离散信号,又称之为采样信号。若将离散信号进行二进制编码,以二进制编码来表示离散值的幅度,那么这种二进制编码信号叫做数字信号。

模拟信号经过采样可获得离散信号,离散信号经A/D转换变成二进制的数字信号,数字信号可以由计算机直接进行处理了。

模拟信号、离散信号与二进制编码的数字信号之间的关系如图41所示,用连续变化的曲线表示模拟信号,用圆点表示以相等时间间隔取值而得到的离散信号,图41的纵坐标标出二进制编码值。

2.采样定理及信号重构

1)采样定理

设输入信号是带宽有限的信号,最高信号频率为fm,则从采样得到信号序列(离散信号)重构(复现)连续信号的条件是采样频率fs≥2fm,否则,将产生混叠效应,而使信号失真。频率2fm称为奈奎斯特(Nyquist)频率fq,即fq=2fm。时域信号及其傅里叶变换频谱密度如图42所示。

图42时域信号及其傅里叶变换频谱密度

2)信号重构

设时域信号为x(t),对应的频谱密度为X(f),若时域采样脉冲序列为

p(t)=∞n=∞δ(tnT)

是等间隔(T)的单位脉冲序列,由信号理论可知对应的频谱为

(f)=1T∞m=∞(fmfs)

是一个等间隔(fs)频域冲激序列。其中T是时域采样序列的周期,即采样频率

fs=1T

可以写出时域采样序列的表达式,即

x(t)=x(t)·p(t)=x(t)·∞n=∞δ(tnT)

x(t)就是x(t)在t=nT处的离散序列。

由卷积定理,时域的乘积对应频域的卷积,即

X(f)(f)=X(f)1T∞m=∞(fmfs)

因为(f)是一个冲激序列,卷积的结果相当于X(f)搬移至(f)序列出现的地方,从而成为周期函数。x(t)在时域的采样与X(f)在频域卷积(搬移)的关系如图43所示。

可见,若fs=1/T不是足够大,采样以后对应的频谱就会产生混叠,用矩形(带通)滤波器滤波所得的主频谱就会失真,恢复到时域以后,时域连续信号也将失真。因此,采样频率fs必须满足采样定理的要求,即fs≥2fm。

4.2音频信号的获取与处理

4.2.1音频信号

1.常见音频信号

常见的音频信号主要有电话音频信号、调频、调幅无线电广播音频信号和高保真数字的立体声音频信号。由于用途不同,这些音频信号频带宽度也各不相同,而且,在音响设备中,通常以音频信号的带宽来衡量声音的质量。图44中表示了这4种常见音频信号的带宽。其中,等级最高的是激光唱盘的音频信号;其次是调频无线电广播,调幅无线电广播;最低的是电话话音的频带,从0.2kHz到3.4kHz,带宽只有3.2kHz。

2.声音的特性

1)声音的波动性

任何物体的振动通过空气的传播都会形成连续或间断的波动,这种波动引起人的耳膜振动,变为人的听觉。因此,声音是一种连续或间断的波动。

2)声音的三要素

音调、音强和音色称为声音的三要素。其中,音调与声波的频率相关,频率高则音调高,频率低则音调低。音调高时声音尖锐,俗称高音;音调低时声音沉闷,俗称低音。人的耳朵对于声音的感知频率范围为20Hz~20kHz。低于20Hz的声波为次声波,高于20kHz的声波称为超声波。音强取决于声波的幅度,振幅高时音强强,振幅低时音强弱。音色则由叠加在声音基波上的谐波所决定,一个声波上的谐波越丰富,音色越好。

3)声音的连续谱

声音信号一般为非周期信号,包含有一定频带的所有频率分量,其频谱是连续谱。声波的连续谱成分使声音听起来饱满、生动。

4)声音的方向性

声音的传播是以弹性波形式进行的,传播具有方向性,人通过到达左右两耳声波的时间差及声音强度差异来辨别声音的方向。声音的方向性是产生立体声效果和空间效果的基础。

3.音频的种类

在自然界中,声音包含声响、语音和音乐等三种形式。在多媒体系统中,声音不论是何种形式都是一种装载信息的媒体,统称为音频。由产生音频的方式不同音频被分为波形音频、MIDI音频和CD音频三类。

1)波形音频

以声波表示的声响、语音、音乐等各种形式的声音经过声音获取设备(如麦克风)和声音播放设备(如录音机、CD唱机等)输入,并通过声卡控制采样,由A/D转换将模拟信号转变成数字信号,然后以“*.WAV”文件格式存储在硬盘上,这种声音媒体称为波形音频。波形音频重放时,必须经过D/A转换将数字信号转换成模拟信号,由声卡上的混音器混合后生成声波,再由音箱输出声音。

波形音频的“*.WAV”文件中记录的是数字信号,可以使用计算机对“*.WAV”文件进行各种处理,并像其他数据文件一样被存取、复制和传输。

2)MIDI音频

将电子乐器演奏时的指令信息(如音高、音长和力度等)通过声卡上的MIDI控制器输入计算机,或者利用一种称为音序器的计算机音乐处理软件编辑产生音乐指令集合,以“*.MID”文件格式存储在硬盘上,这种声音媒体称为MIDI音频。MIDI音频重放时,必须经过合成器将MIDI指令译成相应的声音信号,再由声卡上的混音器混合后生成声波,最后由音箱播出音乐。

MIDI音频的“*.MID”文件中可以包含多达16种不同乐器的声音定义。MIDI文件记录的不是乐曲本身,而是一些描述乐曲演奏过程的指令,因此,MIDI音频是乐谱的数字化描述。MIDI文件的存储量比较小,因此,它可以满足较长时间音乐播放的要求,但是MIDI文件的录制工作较为复杂,需要使用MIDI创作并改编作品的专业知识以及专门化工具,如键盘合成器等。

3)CD音频

CD音频是指以44.1kHz频率、16位精度采样而获得的一种立体声数字化声音。

4.2.2音频信号的获取与处理

1.音频信号的获取

音频信号的获取框图如图45所示,音频信号首先由话筒产生,话筒输出的信号幅度比较小,因此,接下来要对音频信号进行放大,以便使其幅度达到后面采集与转换电路的要求。

同时,音频信号应根据不同的需要用滤波器进行滤波。滤波器的通频带对于不同的信号是不一样的。如前所述,电话和广播的要求就相差很大。利用滤波器,一方面滤除了一些高频干扰和噪声,同时也使音频信号的最高频率成分限制在一定的范围内,以便对其进行采样。利用图45所示的采样及保持电路,就可将前面得到的音频信号离散化。每一个离散的音频信号幅度值加到A/D转化器上,就可将音频信号变为二进制数字编码,再经过计算机的输入∕输出接口,便可以将数字化的音频信号取到计算机中。

依据采样定理,不同带宽的音频信号使用不同的采样速率。例如,电话话音的采样频率通常为8kHz,而高保真的音乐信号则用44.1kHz采样。

2.音频信号的处理

在实际使用中,不管多媒体信息是音频信号还是视频信号,其数据量都是十分巨大的。如图45所示的那样,经A/D转换的数字化音频信号直接进入计算机进行存储(记录)或进行传送,是不可取的。

3.音频信号的回放

经压缩的音频信号以一定的格式记录在有关的媒体上,例如,磁带、磁盘及光盘等,或者以一定的格式传送到接收端。

在音频信号接收端或由媒体回放音频信号时,首先由专用的硬件或软件对压缩数据进行解压缩,恢复音频数字信号,然后,经由图46所示的电路框图对音频信号进行放音。

4.有关音频信号的标准及规范

这里,首先阐明数字电话音频信号的数据压缩标准。在表41中列出了国际电报电话咨询委员会(CCITT)、欧洲移动通信专家组(GSM)、美国移动通信标准(CTIA)及美国国家安全局(NSA)各自制定的有关电话通信的编码标准。表中还给出了各种标准的大致使用领域以及它们的质量,其中,质量是以最高为5.0分来表示的。

除了上面所提到的数字电话编码标准外,调幅广播的音频信号范围为50Hz~7kHz,又称“7kHz音频信号”,其最高频率为7kHz,当使用16kHz对其采样并进行14位二进制编码时,其数据的传送速率为224kbps。为了对最高频率进行压缩,CCITT于1988年为其制定了G.722标准,标准规定这种信号的数据传送率为64kbps。

5.常用语音文件格式

多媒体计算机的语音处理或在后面将要说明的声卡中所用到的操作系统或工具软件为我们提供了语音文件。这些语音文件都有各自的标准,以便于用户使用和相互转换。这里将简要介绍目前最常见的语音文件格式。

1)VOC语音文件格式

VOC语音文件由文件头和数据块两大部分组成。其中VOC语音文件的文件头如表42所示,VOC文件的文件头主要是对VOC文件的类型、版号及标志作出说明,同时,指出了数据块的偏移地址、数据块长度及采样率。

VOC文件中数据块由性质不尽相同的子块组合而成。各子块的功能及其长度也各不相同,如有语音数据子块、静音标志子块、ASCII码字符子块、循环重复子块、终止子块及用于立体声音响的扩展子块等。VOC文件中数据子块的长度及主要功能列于表43中。

不同子块的开始几个字节除前面4个如上所述外,剩下的不太相同,表43中用?表示。例如,1号数据子块的开始字节中,有规定本数据块的数据压缩比的字节。知道了压缩比,就可以解压缩恢复原始的语音数据。

2)WAV语音文件格式

在多媒体应用中被广泛使用的是RIFF(ResourceInterchangeFileFormat)标准给出的WAV语音文件。与VOC文件类似,WAV文件也是由文件头和数据块两部分组成,其中文件头所规定的内容如表44所示。

由表44可见,WAV语音文件头也对文件设置了一些标志并确定了对语音信号的采集速率。单声道语音信号用11.025kHz的采样率采样,采样值为8bit二进制编码,双声道语音信号用44.1kHz采样率采样,即左右声道各为22.05kHz采样,每声道采样值用8bit二进制编码表示,这样一来,每个语音采样值要用16bit表示,且高8位放左声道的数据,低8位放右声道的数据。具体数据块的存放情况如表45所示。

表45表明,数据块紧跟在文件头的后面,其偏移地址从1EH开始,前面是数据块的标志和数据块的总长度。从偏移地址26H开始存放语音数据。

以上简单地介绍了两种语音文件VOC和WAV,其中VOC是声霸卡所形成的文件格式,WAV是Microsoft的语音文件格式。在实际应用中,经常需要知道这些语音文件的格式,而且也经常会遇到由WAV文件向VOC文件转换或由VOC文件向WAV文件转换。所幸的是这两种文件的相互转换已有现成的程序可供调用,使用者只要用一条简单的命令即可方便地完成它们之间的相互转换。但是,由于两种文件的复杂性,在利用软件命令进行两种文件格式转换时,应注意,WAV文件只支持11.025kHz、22.05kHz和44.1kHz采样率,因此,在形成VOC文件时也要采用这样的采样率才能顺利地进行相互转换。

VOC文件中可包括多个数据块,而WAV文件只支持一个数据块,且只能用一种采样速率播放出来。因此,在WAV和VOC文件相互转换时,只能是功能强的VOC文件来适应WAV文件的规定。同时,WAV文件不支持压缩文件,因此,当VOC文件向WAV文件转换时,VOC文件中的压缩数据块将被忽略。

3)AU声音文件格式

AU文件是使用于UNIX操作系统下的一种波形文件,其格式如表46所示。

4)MID文件格式

MID文件是一种记录数字化音乐的MIDI文件,由一个文件头块和多个音轨块组成。文件头块记录了MIDI文件的描述信息,而音轨块记录了MIDI通道的数据流信息。MID文件头块和音轨分别如表47和表48所示。

4.3.1计算机音乐

计算机音乐也称为电子音乐,是由计算机音乐软件创作、修改和编辑乐谱,通过合成器把数字乐谱变换成声音波形,再经过混音器混合后送到音箱播放的乐曲。计算机的数字合成技术可以模拟传统乐曲的音色,也可以通过计算机的编辑功能合成不是自然乐器发出的声音。计算机音乐改变了传统音乐创作和演奏方式的概念。

1.乐音的几个要素

一个乐音主要由3个要素组成:音高、音色、响度。

1)音高

音高指声波的基频。各音阶对应的频率如表49所示。知道了音高与频率的关系,就能够设法产生规定音高的单音了。

2)音色