在现代通信系统中尽管数据业务与多媒体通信业务发展非常迅速,但模拟与数字视音频业务在所有通信业务中仍然占有主要地位。在此类业务中包括普通电话、ip电话、移动电话、数字电话、可视电话、会议电视、广播电视、数字视频广播、点播电视等各种视音频业务。
音频信息基本概念
在现代通信技术中音频信息主要是指由自然界中各种音源发出的可闻声和由计算机通过专门设备合成的语音或音乐。按表示媒体的不同,此类声音主要有三类,即语音、音乐声和效果声等。音频信号是随时间变化的连续媒体,对音频信号的处理要求有比较强的时序性,即较小的延时和时延抖动。对音频信号的处理涉及音频信号的获取、编解码、传输、语音的识别与理解、语音与音乐的合成等内容。
视频信息即活动或运动的图像信息,它由一系列周期呈现的画面所组成,每幅画面称为一帧,帧是构成视频信息的最基本单元。视频信息在现代通信系统所传输的信息中占有重要的地位,因为人类接受的信息约有70%来自视觉,视频信息具有准确、直观、具体生动、高效、应用广泛、信息容量大等特点。
1.听觉特性与音频信号
(1)人的听觉特性
①人对声音强弱的感觉
通过对大量人群的测量发现,当声音信号的强度按指数规律增长时,人会大体上感到声音在均匀地增强,即将声音声强取对数后,才与人对声音的强弱感相对应。根据人类听觉的这一特点,通常用声强值或声压有效值的对数来表示声音的强弱,称为声强级Lt或声压级L”单位为分贝(dB)。
②人对声音频率的感觉
人对声音频率的感觉表现为音调的高低,且当声音的频率按指数规律上升时,音调的感觉线性升高。这意味着只有对声音信号的频率取对数,才会与人的音高感觉成线性关系。
为了适应人类听觉的音高感规律,在声学和音乐当中表示频率的坐标经常采用对数刻度。音乐里为了使音阶的排列使听起来音高的变化是均匀的,音阶的划分是在频率的对数刻度上取等分得到的。
③人类听觉的频响特性
人类听觉对声音频率的感觉不仅表现为音调的高低,而且在声音强度相同条件下声音主观感觉的强弱也是不同的,即人类听觉的频率响应不是平坦的。此外,人的听觉频响还随声压级的变化而变化。人类听觉频响的特点是:声压级越高,听觉频响越平直;随声音声压级的降低,听觉频响变坏,低频响应下降明显。对于高于20kHz和低于20Hz的声音信号,不论声压级多高,一般人也不会听到,即人的听觉频带为20Hz〜20kHz,在此频率范围内的声音称为“可闻声气高于20kHz的声音称为“超声”,低于20Hz的声音的称为“次声”。不论声压级高低,人对3kHz〜5kHz频率的声音最敏感。
④人类听觉的掩蔽效应
在人类听觉系统中的另一个现象是一个声音的存在会影响人们对其他声音的听觉能力,使一个声音在听觉上掩蔽了另一个声音,即所谓的“掩蔽效应”。掩蔽效应常在电声系统中被加以利用,使有用声音信号掩蔽掉那些不需要的声音信号,并根据有用信号的强度来规定允许的最大噪声强度。此外,在音频信号数字编码技术中,还可利用人类听觉系统的掩蔽效应实现高效率的压缩编码。
(2)音频信号特性
对于不同类型的发声体来说,其声音信号的频谱分布各不相同。一般人讲话声音的主要能量分布较窄,以频带下降25dB计大概为100Hz〜5kHz,因此在电话通信中每一话路的频带一般限制在30()Hz〜3.4kHz即可将语声信号中的大部分能量发送出去.同时保持一定的可懂度和声色的平衡。相对于语音频谱,歌唱声的频谱要宽得多,一般男低音可唱到比中央C低十三度的E音,其基频为82.407Hz,而女高音可唱到比中央C高两个八度的C音或更高,其基频为1046.5Hz,它的第十次谐波已经超过10kHz。与人的发声器官相比,各种乐器发声的频谱范围则明显要宽的多,从完美传送和记录音乐的角度,电声设备的频带下限一般要到20Hz以下,而其频带上限一般要到20kHz以上。实际声音信号的强度在一个范围内随时随刻发生着改变,一个声音信号的动态范围是指它的最大声强与最小声强之差,并用dB表示。当用有效声压级表示时,一般语音信号大概有20-40dB的动态范围;交响乐、戏剧等声音的动态范围可高达60〜80dB。当按峰值声压级表示时,有些交响乐的动态范围可达100dB或更高。
视频技术基础
视频技术是利用光电和电光转换原理,将光学图像转换为电信号进行记录或远距离传输,然后还原为光图像的一门技术。
(1)视频信号与图像扫描
视频技术中实现光学图像到视频图像信号转换的过程通常是在摄像机中完成的。当被摄景物通过摄像机镜头成像在摄像器件的光电导层时,光电靶上不同点随照度不同激励出数目不等的光电子,从而引起不同的附加光电导产生不同的电位起伏,形成与光像相对应的电图像。该电图像必须经过扫描才能形成可以被处理和传输的视频信号。客观景物图像对于人眼的感觉来说.可以被看成是由很多有限大小的像素组成的,每一个像素都有它的光学特性和空间位置,并且随时间变化。根据人眼对图像细节的分辨能力和对图像质量的要求,要得到较高的图像质量,每幅图像至少要有几十万个以上的像素。显然,要用几十万个传输通道来同时传送图像信号是十分困难的,因此必须采用某种方式完成对图像的分解与变换.使代表像素信息的物理量能够用时间的一维函数来表达。在电视系统中,对景物图像的像素分解与合成,以及图像的时空转换是由扫描系统完成的。利用人眼的视觉惰性,在发送端可以将代表图像中像素的物理量按一定顺序一个一个地传送,而在接收端再按同样的规律重显原图像。只要这种顺序进行的足够快,人眼就会感觉图像上的所有像素在同时发亮。在电视技术中.将这种传送图像的既定规律称为扫描。如图2.1所示,摄像管光电导层中形成的电图像在电子束的扫描下顺序地接通每一个像素,并连续地把它们的亮度变化转换为电信号;扫描得到的电信号经过单一通道传输后,再用电子束扫描具有电光转换特性的荧光屏,从电信号转换成光图像。在电视系统应用的早期,普遍使用的电真空摄像和显像器件均采用电子束扫描来实现光电和电光转换;而随着CCD/CMOS摄像机和平板显示器件投入使用,利用各种脉冲数字电路便可实现上述转换。对每一幅图像,电视系统是按照从左至右、从上到下的顺序一行一行地来扫描图像的。对于每一幅图像来说.扫描行数越多,对图像的分解力越高,图像越细腻;但同时视频信号的带宽也就越宽.对信道的要求也越高。
和在电影中一样,为了能够得到连续的、没有跳跃感的活动图像,视频系统也必须在每秒内传输二十帧以上的图像,以满足人眼对图像连续感的要求。由于历史上的原因,目前国际上存在着25帧/秒和30帧/秒两种帧频制式。然而,每秒20〜30帧的图像显示速率尚不能满足人眼对图像闪烁感的要求。为了在不增加电视系统传输帧率和带宽的条件下减小闪烁感,现有各种制式的电视系统均采用了隔行扫描方式。隔行扫描方式将一帧电视图像分成两场,第一场传送奇数行,称为奇数场;第二场传送偶数行,称为偶数场。隔行扫描方式的采用较好地解决了图像连续感、闪烁感和电视信号带宽的矛盾。
在电视系统中除传送图像信号本身以外,还需要传送同步信号以标记图像行、场扫描的开始与结束。因此,图像信号、同步信号等经过合成,构成复合电视信号。
(2)彩色电视系统
根据人眼的彩色视觉特性,在彩色重现过程中并不要求还原原景物的光谱,重要的是获得与原景物相同的彩色感觉。彩色电视系统是按照三基色的原理设计和工作的。三基色原理指出.任何一种彩色都可由另外的三种彩色按不同的比例混合而成。这意味着,如果选定了三种标准基色,则任何一种彩色可以用合成它所需的三种基色的数量来表示。彩色电视系统正是基于人眼机能和三基色原理,设计出了彩色摄像机和显示器。
在通常的彩色电视摄像机中,模仿人眼中的三种锥状细胞利用三个摄像管分别拾取景物光学图像中的红、绿、蓝分量,形成彩色电视信号中的红、绿、蓝三个基色分量。加性混色法则构成了显示器彩色显示的基本原理。在彩色荧光屏的内表面涂有大量的、由红绿蓝三种颜色为一组组成的荧光粉点。荧光粉是一种受电子轰击后会发光的化合物.其发光强度取决于电子束的强度。图像重现时,将接收到的彩色电视信号中的红、绿、蓝分量分别控制三个电子枪轰击相应颜色的荧光粉点发光;由于荧光粉点很小,在一定距离观看时三种基色发出的光经过人眼的混合作用,使我们看到均匀的混合色。最终人眼所看到的颜色,则是由三种基色的比例所决定的。在混色原理方面,主动发光型的平板显示器件(如等离子显示)大致与彩色荧光屏相同;但被动发光型的平板显示器件(如液晶显示),其三种基色是由三种颜色的滤光片在白色背光的照射下发出的,三种基色信号通过控制每种颜色滤光片的通光量实现混色。平板显示器件中图像重建过程的扫描功能,通常是在脉冲数字电路作用下完成的,不再需要电子束的聚焦偏转,非常容易由集成电路加以实现。
在彩色电视发展的初期.由于已经存在了相当数量的黑白电视机和黑白电视台,为了保护消费者和电视台的利益并扩大彩色电视节目的收视率,要求彩色电视系统的设计必须考虑与已有黑白电视的兼容。为此,在彩色电视系统中不是传送彩色电视信号中的红、绿、蓝三个基色分量,而是传送一个亮度分量和二个色差分量。在发送端,亮度分量和二个色差分量通过对红、绿、蓝三个基色分量的矩阵变换得到;接收端再通过矩阵逆变换还原成三个基色分量显示。当黑白电视机接收到彩色电视信号时,它只利用其亮度分量实现黑白图像显示;而彩色电视机接收黑白电视信号时,它将黑白电视信号当作其亮度信号同样实现黑白图像显示,进而实现彩色电视与黑白电视的上下兼容。在彩色电视中由三种基色R、G、B构成亮度信号的比例关系如下:
Y=0.299R+0.587G+0.114B(2-1)式(2-1)即为电视系统的亮度方程。至于二个色差信号,则是分别传送红基色分量和蓝基色分量与亮度分量的差值信号,即U和V。
U=ktCB-Y)
V=k2{R-Y)(2-2)式(2-2)中,知知为加权系数。
从数据压缩的角度来看,也希望传送的是Y、U、V而不是R、G、B,因为Y、U、V之间是解除了一定相关性的三个量。电视系统中的一个重大问题就是如何用一个通道来传送上述三个信号Y、U、V。在模拟电视阶段,对于这三个信号的不同传输方式形成了三大不同的彩电制式:PAL制.NTSC制和SECAM制。这三种制式之间的不同之处在于对色度信号传送所采取的不同处理方式.
为满足彩色电视与黑白电视的兼容性,则需在原有黑白电视信道带宽的条件下,同时传送亮度信号丫和两个色差信号由于人眼对于彩色细节的分辨力低于对亮度细节的分辨力,因此色差信号U和V可以用比亮度信号窄的频带来传送,在我国的PAL/D制彩电标准中,亮度Y的带宽为6MHz,U和V的带宽为1.3MHz。
(3)视频信号频谱特点
电视系统是通过行、场扫描来完成图像的分解与合成的.尽管图像内容是随机的,但视频信号仍具有行、场或帧的准周期特性。通过对静止图像电视信号进行频谱分析可知:它是由行频、场频的基波及其各次谐波组成的,其能量以帧频为间隔对称地分布在行频各次谐波的两侧。而对活动图像的电视信号,其频谱分布为以行频及其各次谐波为中心的一簇簇连续的梳状谱。对于实际的视频信号,谐波的次数越高,其相对于基波振幅的衰减越大。
在整个视频信号的频带中,没有能量的区域远大于有能量的区域。根据这一性质,模拟彩色电视系统利用频谱交错原理将亮度信号和色差信号进行半行频或1/4行频间置,完成彩色电视中亮度信号和色度信号的同频带传输。我国采用的PAL-D制彩色电视信号,亮度信号带宽为6MHz;在美、日等国采用的NTSC制电视系统中亮度信号带宽为4.2MHz。由于人眼对于色度信号的分辨率远低于对亮度信号的分辨率,因此在彩色电视系统中色度信号的带宽一般均低于1.3MHz,且调制在彩色副载频上置于亮度信号频谱的高端,以减少亮色信号之间的串扰。
视音频信息教字化
在现代通信技术中,信息处理的硬件大部分都是数字逻辑电路或数字计算机.因此视音频信息进入系统必须进行数字化处理。模拟信号在时间上是连续的,而数字视音频则对应一个时间离散的数字序列。为用数字形式传输和处理视音频信息,首先要解决的问题是视音频信息的数字化,这包括两方面的内容:
•音频信息时间上的离散化和图像信息空间位置的离散化。
•音频信息电平值和图像灰度电平值的离散化。
上述过程涉及视音频信号的采样,量化和编码。对于音频信号而言,采样就是使音频信号在时间轴上离散化,每隔一个时间间隔在模拟声音波形上取一个幅度值,采样的时间间隔称之为采样周期。根据采样定理,只要采样频率等于或大于音频信号中最高频率成份的两倍,信息量就不会丢失,也就是说可以由采样后的离散信号不失真地重建原始的模拟音频信号,否则就会产生不同程度的失真。因此采样频率的选择是音频信息数字化的关键技术之一。现代通信技术中通常选用的音频采样频率有8kHz,11.025kHz,16kHz,22.05kHz,32kHz,44.1kHz和48kHz等。音频信号通常采用8~20bit量化编码。一般在允许失真条件下,尽可能选择较低的采样频率,以免使数据速率过高。
对于视频信号而言,采样就是使图像信号在空间位置上离散化。设F|(t、v)表示一个实际图像的光强度函数,了点为空间坐标,它是一个连续的图像场,在空间上覆盖无穷大的区域,对于一个理想的抽样函数,将Fi(工、少乘上一个空间抽样函数S(工、少,则得抽样后的离散图像。
FP(.x,y)=Fi(x,y)S(.x,y')(2-3)OOO0式(2-3)中S(«r,、)=习3(工—一j4y)i=—j=—oo而△了及是5函数无穷阵列的空间间隔。对抽样后离散图像进行二维傅里叶变换,得到其频谱表达式为%(〃,!;)=———习/(〃一—/(2-4)△zajv.=—8,=_8其中Au=»Av=△hAv
由图2.2可见:抽样后图像的频率是在频率轴上分别以间隔△“及△,将原图像的频谱无限重复构成的,当抽样频率满足奈奎斯特准则,且原图像的频谱是有限带宽时,抽样后图像的频谱就不会出观混叠。为了防止混叠失真的出现,通常情况下在抽样前要对视频图像信号进行低通滤波来限制带宽。从抽样后图像的频谱可以看出,利用一个低通滤波器将原图像频谱滤出,则可无失真地重建原图像。
经过抽样后的视音频信号,只是一系列时间或空间上的离散样值,而每个样值的取值仍是连续的,要想进行数字化表示必须将它转换为有限个离散值,这个过程称为量化。如果样值等间隔分层量化.则称之为均匀量化,若使用非等间隔进行量化,则称为非均匀量化。在量化过程中,一个模拟信号样本与一组判决电平作比较,如果样本落在两个判决电平之间,则它被量化到这个量化区内的一个固定电平上去,模拟值与量化值间的误差称之为量化误差或量化失真。对图像信号而言,在图像亮度平坦区域这种量化噪声看起来像颗粒状,故称之为颗粒噪声;图像量化带来的另一种失真称为伪轮廓现象。显然,量化噪声与伪轮廓现象都与量化精度有关,量化越精细量化噪声越小•伪轮廓现象就会减轻,但这是以增加电平数(码率)为代价的。在数字系统中被量化之后的视音频信号其每个量化电平最终被赋予一个二进制码字。因此视音频信号数字编码的实质是:在保证一定图像或声音质量(信噪比要求和主观评价得分)的前提下,以最小比特数来表示视音频信号。视频信号通常采用6〜10bit量化编码。
音频压缩编码
视音频信号数字化后所产生的数据速率相当大,例如一分钟的双声道立体声.采样频率为11.025kHz,8bit量化,其数据速率达176.4kbit/s,存储容量需要1.323MB,而数字化激光唱盘的CD-DA红皮书标准是采用44.1kHz采样,16bit量化,双声道一分钟其存储容量达10.584MB。视频信息数字化后数据量更大,以分量编码的数字视频信号为例,其数据率高达216Mbit/s,在此情况下,1小时的电视节目需要近80GB的存储容量,要远距离传送这样一路高速率的数字视频信号,通常要占用108〜216MHz的信道带宽,显然这样大的数码率在现有的数字信道中传输或在现有的媒体上存储,其成本是十分昂贵的。因此为了提高信道利用率和在有限的信道容量下传输更多的信息,必须对视音频数据进行压缩。
1.数据压缩的理论依据
在数据压缩技术中Shannon所创立的信息论对数据压缩有着极其重要的指导意义,它一方面给出了数据压缩的理论极限,一方面指明了数据压缩的技术途径。
由信息论基础知识可知•信源概率分布越均匀其炳越大;反之•其嫡越小。离散无记忆信源只要其概分布不均匀就存在着信息的冗余,因而就存在着数据压缩的可能性。而信源压缩编码的基本途径之一,就是在一定信源概率分布条件下,尽可能使编码平均码长接近于信源的嫡,减少冗余信息。信源往往并不是无记忆的,其前后出现的信源符号常常具有一定的相关性。两信源符号间的相关性越大,冗余也越大,因此.数据压缩的另一个基本途径则是去除信源中各信源符号间的相关性。
2.限失真压缩编码
由信息论基础知识可知,信源冗余来自信源本身的相关性和信源概率分布的不均匀性。因此,通过去除信源的相关及改变信源概率分布模型,则可达到压缩数据量的目的。限失真压缩编码即是在允许解码后信号有一定失真的情况下,通过去除信源的自相关来达到压缩数据的目的。在允许失真不超过某一限度时,压缩编码的比特率是受限的,存在着一个下限,这个下限由率失真函数来定义。率失真理论虽然没有给出怎样达到比特率下限的具体方法,但从理论上指明了方向。即在给定信号允许失真度的条件下,为了减少信号传输的比特率,应尽量减小传输信号的方差。目前.在视音频编码中普遍采用的预测编码和变换编码,正是根据这一理论对原始视音频信号进行适当处理’使处理后信号的方差减小,最终达到压缩编码的目的。
3,无失真压缩编码
预测编码和变换编码都是基于去除样值间的相关性而达到数据压缩的目的。如果信源已经是无记忆的,即各样值间已没有相关性或相关性很小。这时只要各事件出现的概率不相等,该信源就仍然有冗余度存在,就还有进一步进行数据压缩的可能性。无失真压缩编码的基本原理则是去除信源的概率分布不均匀性,使编码后的数据接近其信息炳而不产生失真,因此,这种编码方法又叫炳编码。另外,由于这种编码完全基于信源的统计特性因而也可称其为统计编码。无失真压缩编码的方法主要有:基于信号样值概率分布特性的Huff-man编码、算术编码和基于信号样值相关性的游程编码。
(1)Huffman编码
变字长编码的最佳编码定理:在变字长编码中,对于出现概率大的信息符号编以短字长的码,对于概率小的符号编以长字长的码。如果码字长度严格按所对应符号出现概率大小逆顺序排列.则平均码字长度一定小于其他任何符号顺序排列方式。
Huffman编码是根据可变长度最佳编码定理,应用Huffman算法而得到的一种编码方法。可以证明,在给定符号集和概率模型时,没有任何其他整数码比Huffman码有更短的平均码长,也即它是一种最优码。
虽然Huffman码是变长的,码流中又没有分隔码字的标识符,但由于它的无歧义性,完全能够正确地恢复原信源所输出的符号序列来。
需要注意的是,由于Huffman构码过程的最基本依据是信源的离散概率,如果信源的实际概率模型与构码时所假设的概率模型有差异,实际的码长将大于预期值,编码效率将下降。
(2)算术编码
算术编码是另一种利用信源概率分布特性、能够趋近嫡极限的编码方法。尽管它也是对出现概率大的符号采用短码,对出现概率小的符号采用长码,但其编码原理与Huffman编码却不相同。而且在信源概率分布比较均匀的情况下其编码效率高于Huffman编码。它和Huffman编码的最大区别在于它不是使用整数码。算术编码的特点在于
①在Huffman编码中,后续符号的码字只是简单地附加到已编好的码字串之后,并不改变已有的码字串。而在算术编码中.后续符号的编码有可能因为进位而引起已编好的码字串的改变。
②在Huffman编码中,最短的码字长度为1比特,所以即使对最常出现的符号进行编码也需在已编好的码字串的基础上增加1比特。而在算术编码中,对累计概率为0的符号编码时不增加已编好的码字串的长度。因此,算术编码时只要将出现概率最大的符号置于累计概率为0的位置,便可大大降低码字串长度。
③在算术编码中,随着概率子空间的不断划分,区间长度L越来越小,用来表示它的数字位数越来越长,增加了实现该算法的难度;另外,完成算术编码和解码需进行乘法和除法运算,同样增加了实现该算法的复杂度,进而提高了成本。
(3)游程编码
由于视音频信号中各样值间一般都存在相关性,特别是由计算机生成的图像和大部分二值图像,它们往往在某些区域具有相同的像素值。游程编码的主要方法就是在某个特定方向上将样本值相同的若干像素或声音样本用一个游程长度和一个样本值来表示。如沿水平扫描线上的一串m个样值具有相同的数值〃,则只要传输(〃,巾)即可。游程编码对误码较为敏感,为防止误码扩散应采用行、列同步的方法将差错控制在一行、一列之内。
4.音频压缩编码技术
对于不同类型的音频信号而言,其信号带宽是不同的,如电话音频信号为200Hz~3.4kHz,调幅广播音频信号为50Hz〜7kHz,调频广播音频信号为20Hz〜15kHz,激光唱盘音频信号为10Hz〜20kHz。随着对音频信号音质要求的增加,信号频率范围逐渐增加,要求描述信号的数据量也就随之增加,从而带来处理这些数据时间和传输、存储这些数据的容量增加。
(1)音频信号压缩编码方法
一般来说,音频信号的压缩编码主要有以下几种主要类型:
①波形编码
波形编码是在信号采样和量化过程中考虑到人的听觉特性,使编码信号尽可能与原输入信号匹配,又能适应人的应用要求,如全频带编码(包括脉冲编码调制PCM,瞬时、准瞬时压扩PCM,自适应差分ADPCM等);子带编码(包括自适应变换编码ATC、心理学模型等);矢量量化。波形编码的特点是在高码率条件下可获得高质量的音频信号,适于高保真度语音和音乐信号的压缩技术。
②参数编码
参数编码是将音频信号以某种模型表示,再抽出合适的模型参数和参考激励信号进行编码;声音重放时,再根据这些参数重建即可,这就是通常讲的声码器(Vocoder)0参数编码压缩比很高,但计算量大,且不适合高保真度要求的场合。用此类方法构成声码器的有:线性预测24
(LPC)声码器、通道声码器(ChannelVocoder)、共振峰声码器(FormatVocoder)等。
③混合编码
混合编码是一种吸取波形和参数编码的优点,进行综合的编码方法,如多脉冲线性预测MP-LPC,矢量和激励线性预测VSELP,码本激励线性预测CELP,短延时码本激励线性预测编码LBCELP,长时延线性预测规则码激励RPE-LTP等。
(2)不同质量要求时的音频编码技术选择
①电话质量的音频压缩编码
电话质量语音信号频率规定在300Hz〜3.4kHz,如采用标准的脉冲编码调制PCM,当采样频率为8kHz,8bit量化时,所得数据速率为64kbit/s,即一个数字话路。CCITT制定的PCM标准G.711,速率为64kbit/s,采用非线性量化,其质量相当于12bit线性量化。
电话信号的自适应差分脉冲编码调制ADPCM标准G.721,速率为32kbit/s.这一技术是对信号和它的预测值的差分信号进行量化,同时再根据邻近差分信号的特性自适应改变量化参数.从而提高压缩比,又能保持一定信号质量。因此ADPCM对中等电话质量要求的信号能进行高效编码,而且可以在调幅广播和交互式激光唱盘音频信号压缩中应用。
为了适应低速率语音通信的要求,必须采用参数编码或混合编码技术,如线性预测编码LPC,矢量量化VQ.以及其他的综合分析技术。其中较为典型的码本激励线性预测编码CELP实际上是一个闭环LPC系统,由输入语音信号确定最佳参数,再根据某种最小误差准则从码本中找出最佳激励码本矢量。
CELP具有较强的抗干扰能力,在4~16kbit/s传输速率下,即可获得较高质量的语音信号。短时延码本激励线性预测编码LD-CELP的标准G.728,速率16kbit/s,其质量与32kbit/s的G.721标准基本相当。采用长时延线性预测规则码本激励RPE-LTP标准GSM,速率为13kbit/s。
②调幅广播质量的音频压缩编码
调幅广播质量音频信号的频率在50Hz〜7kHz范围。G.722标准是采用16kHz采样,14bit量化,信号数据速率为224kbit/s,采用子带编码方法,将输入音频信号经滤波器分成高子带和低子带两个部分,分别进行ADPCM编码,再混合形成输出码流,224kbit/s可以被压缩成64kbit/s,最后进行数据插入(最高插入速率达16kbit/s),因此利用G.722标准可以在窄带综合服务数据网N-ISDN中的一个B信道上传送调幅广播质量的音频信号。
③高保真环绕立体声音频压缩编码
高保真环绕立体声音频信号频率范围是50Hz〜20kHz,采用44.1kHz采样频率,16bit量化进行数字化转换,其数据速率每声道达705kbit/s。国际标准化组织ISO和CCITT联合制定的MPEG标准,成为国际上公认的高保真环绕立体声音频压缩标准。MPEG音频第一和第二层次编码是将输入音频信号进行采样频率为48kHz,44.1kHz,32kHz的采样,经滤波器组将其分为32个子带,同时利用人耳掩蔽效应,根据音频信号的性质计算各频率分量的人耳掩蔽门限,选择各子带的量化参数,获得高的压缩比。MPEG第三层次是在上述处理后再引入辅助子带.非均匀量化和嫡编码技术,再进一步提高压缩比。MPEG音频压缩技术的数据速率为每声道32〜448kbit/s,适合于CD-DA光盘应用。
5.视频压缩编码
(1)视频信息的冗余
虽然表示图像需要大量的数据,但图像数据是高度相关的。一幅图像内部以及视频序
列中相邻图像之间有大量的冗余信息。对于一幅二维图像,我们可以注意到图像中的许多部分的灰度或颜色差别并不是太大,某些区域是均匀着色或高度相关的。例如图像的背景可能是一堵墙,它是均匀上色的或显示出规则的模式。这称为空间相关或空间冗余。对于没有场景切换或镜头快速推拉摇移的视频序列,画面中的背景一般并无变化,只有移动的物体产生画面的差异,因而各帧图像间的差别极小,即视频序列中的图像是高度相关的。这称为时间相关或时间冗余。静止图像压缩的一个目标是在保持重建的图像的质量可以被接受的同时,尽量去除空间冗余信息。对于活动视频压缩,在去掉空间冗余的同时去除时间冗余,可以达到较高的压缩比。
除空间冗余和时间冗余外.在一般的图像数据中,还存在着其他各种冗余信息,主要表现为以下几种形式:
①信息蜻冗余
信息嫡冗余也称为编码冗余。由信息论的有关原理可知,为表示图像数据的一个像素点,只要按其信息嫡的大小分配相应比特数即可。然而对于实际图像数据的每个像素,很难得到它的信息炳.因此在数字化一幅图像时,对每个像素是用相同的比特数表示,这样必然存在冗余。
②结构冗余
在有些图像的部分区域内存在着非常强的纹理结构,或是图像的各个部分之间存在有某种关系,例如自相似性等,这些都是结构冗余的表现。
③知识冗余
在有些图像中包含的信息与某些先验的基础知识有关,例如在一般的人脸图像中.头、眼、鼻和嘴的相互位置等信息就是一些常识。这种冗余我们称为知识冗余。
④视觉冗余
在多数情况下,重建图像的最终接收者是人的眼睛,为了达到较高的压缩比,可以利用人类视觉系统的特点得到高压缩比。人类的视觉系统对于图像的注意是非均匀和非线性的,特别是人类的视觉系统并不是对于图像中的任何变化都能感知。例如图像系数的量化误差引起的图像变化在一定范围内是不能为人眼所察觉的。
(2)压缩编码
①预测编码
预测编码可以在一幅图像内进行(帧内预测编码),也可以在多幅图像之间进行(帧间预测编码)。预测编码基于图像数据的空间和时间冗余特性,用相邻的已知像素(或图像块)来预测当前像素(或图像块)的取值.然后再对预测误差进行量化和编码。这些相邻像素(或图像块)可以是同行扫描的。也可以是前几行或前几帧的,相应的预测编码分别称为一维、二维和三维预测。其中一维和二维预测是帧内预测,三维预测是帧间预测。
帧内预测编码一般采用像素预测形式的DPCM,其优点是算法简单,易于硬件实现,缺点是对信道噪声及误码很敏感,会产生误码扩散,使图像质量大大下降。同时,帧内DPCM的编码压缩比很低。因此现在已很少独立使用,一般要结合别的编码方法。帧间预测编码主要利用活动图像序列相邻帧间的相关性。即图像数据的时间冗余来达到压缩的目的.可以获得比帧内预测编码高得多的压缩比。帧间预测编码作为消除图像序列帧间相关性的主要手段之一,在视频图像编码方法中占有很重要的地位。帧间预测编码一般是针对图像块的预测编码,它采用的技术有帧重复法、阈值法、帧内插法、运动补偿法和自适应交替帧内/帧间编码法等,其中运动补偿预测编码现已被各种视频图像编码标准采用,得到了很好的结果。这类图像编码方法的主要缺点在于对图像序列不同的区域,预测性能不一样.特别是在快运动区,预测效率较差。
预测编码的关键在于预测算法的选取,这与图像信号的概率分布很有关系,实际中常根据大量的统计结果采用简化的概率分布形式来设计最佳的预测器,有时还使用自适应预测器以较好的刻画图像信号的局部特性,提高预测效率。
②变换编码
与预测编码技术相比,消除图像数据空间相关性的一种更有效的方法是进行信号变换。变换编码通常是将空间域相关的像素点通过正交变换映射到另一个频域上,使变换后的系数之间的相关性降低。在变换后的频域上应满足:所有的系数相互独立;能量集中于少数几个系数上;这些系数集中于一个最小的区域内。尽管图像变换本身并不带来数据压缩,但由于变换后系数之间相关性明显降低,图像的大部分能量只集中到少数几个变换系数上,采用适当的量化和炳编码可以有效地压缩图像的数据量。而且图像经某些变换后,系数的空间分布和频率特性有可能与人眼的视觉特性匹配,因此可以利用人类视觉系统的生理和心理特点来得到较好的编码系统。
K-L变换是在以上思路下构造出来的最佳线性变换方案。它是用数据本身的相关矩阵对角化后构成的。这种变换将产生完全不相关的变换系数。K-L变换虽然是均方误差准则下的最佳变换.但在实际编码工作中,人们更常采用离散余弦变换(DCT.DiscreteCosineTransform)变换。DCT变换是在现行变换编码方法中,对大多数图像信源来说,最接近K-L变换的方法。
对变换后图像系数的编码一般采用门限编码加区域编码的形式。以DCT为例,根据变换系数的能量分布,可以将图像划分为不同的区域。其中变换后幅值较大的图像系数大多集中于图像块的左上角。与其他系数相比,这些低频系数具有的能量最大.包括了图像的大部分内容,在变换图像中的地位最重要,应使它们的量化误差最小。同样,对于图像块的其他区域,也应采用与该区域相配的量化和编码形式。这种按能量分布对不同区域采用不同量化编码的技术就称为区域编码。另一方面,变换图像中有许多系数的幅度很小,只具有原图像中很小比例的能量,对图像质量影响甚微,因此一般采用设定阈值的方法,置小于阈值的变换系数为零,从而大大提高编码效率。经门限和区域编码后,变换图像的大部分系数为零,如何采用有效的方法将非零系数和零系数组织起来,在带来最少冗余的同时保证最大的连零系数出现概率,是变换图像编码中的又一关键问题。在DCT图像编码方法中,对变换系数进行Zig-Zag排序非常巧妙地解决了这一问题,但对有些图像变换方法,这种技术并非最佳。
在一般图像中,对应边缘轮廓的位置附近含有大量高频信息,它们相对于原图像是非常局部的•代表了图像数据的精细结构。按人眼的视觉特性,这些边缘轮廓信息对于图像的主观质量很重要,在编码时应给予特别考虑。然而由于传统的正交变换时频局域性很差,变换后的系数失去了对原图像精细结构的描述.从变换图像得不到图像边缘轮廓等局部信息.因此在量化编码时无法采用特殊的方法。而且在传统的变换图像编码方法中,大多是靠丢弃高频系数来提高压缩比的,从而导致图像的边缘轮廓模糊,严重影响复原图像的主观质量.
这是传统变换编码方法的缺点之一。传统变换编码方法的另一缺点是提高编码压缩比时会出现块效应。这是因为为降低变换算法的运算复杂度和提高编码效率,传统图像变换均采用了分块变换技术。图像块大,相关性就高,压缩比也就大。但是块的尺寸太大又会丢失数据的平稳性,从而引入误差,包括失去高频细节、引入沿物体边界的噪声和可见的DCT图块边界。实验证明,块大小为16X16或8X8是较好的选择。
要实现一个实用的变换编码系统,需要4个步骤。第一步是选择变换类型,DCT变换是得到最广泛应用的一种类型。第二步是选择方块的大小,较好的方块尺寸是8X8或16X16。第三步是选择变换系数,并对其进行高效的量化,以便传输或存储。第四步是对量化系数进行比特分配,通常使用Huffman编码或游程编码。
③具有运动补偿的帧间预测编码
在图像传输技术中,活动图像特别是电视图像是被关注的主要对象。活动图像是由时间上以帧周期为间隔的连续图像帧组成的时间图像序列,它在时间上比在空间上具有更大的相关性。消除活动序列图像在时间上的冗余度是图像压缩编码的一个重要途径。与消除图像中相邻像素间的空间冗余度一样,消除序列图像在时间上的相关性也可采用预测编码的方法,即不直接传送当前帧的像素值,而是传送当前帧的像素值z和其前一帧或后一帧的对应像素工'之间的差值,这称为帧间预测。当图像中存在着运动物体时,简单的预测不能收到好的效果,例如在下图2.3中当前帧与前一帧的背景完全一样,只是小球平移了一个位置,如果简单地以k-1帧像素值作为k帧的预测值,则在实线和虚线所示的圆内的预测误差都不为零。如果已经知道了小球运动的方向和速度,可以从小球在^-1帧的位置推算出它在k帧中的位置来,而背景图像(不考虑被遮挡的部分)仍以前一帧的背景代替,将这种考虑了小球位移的&—1帧图像作为k帧的预测值,就比简单的预测准确得多,从而可以达到更高的数据压缩比。这种预测方法称为具有运动补偿的帧间预测。
具有运动补偿的帧间预测编码是视频压缩的关键技术之一,它包括以下几个步骤:首先,将图像分解成相对静止的背景和若干运动的物体,各个物体可能有不同的位移,但构成每个物体的所有像素的位移相同,通过运动估值得到每个物体的位移矢量;然后,利用位移矢量计算经运动补偿后的预测值;最后对预测误差进行量化、编码、传输,同时将位移矢量和图像分解方式等信息送到接收端。
④具有运动补偿的帧间内插编码
在具有运动补偿的预测编码系统中,利用了活动图像帧间信息的相关性,通过对相邻帧图像的预测误差进行编码而达到压缩数据的目的。运动补偿技术的引入,大大提高了预测精度,使传输每一帧图像的平均数据量进一步降低。在此系统中图像的传输帧率并没有变化.仍与编码前的帧率一样。然而在某些应用场合如可视电话、会议电视等,对图像传输帧率的要求可适当降低,这就为另外一种活动图像压缩编码方法一帧间内插提供了可能。活动图像的帧间内插编码是在系统发送端每隔一段时间丢弃一帧或几帧图像,而在接收端再利用图像的帧间相关性将丢弃的帧通过内插恢复出来,以防止帧率下降引起闪烁和动作的不连续。
在帧间预测中引入运动补偿的目的是为了减少预测误差,从而提高编码效率。运动估值的不准确会使预测误差加大,从而使传输的数据率上升.但接收端据此位移矢量和预测误差解码不会引起图像质量下降。而在帧间内插中引入运动补偿的目的,是使恢复的内插帧中的运动物体不致因为内插而引起太大的图像质量下降。这是由于在丢弃帧内没有传送任何信息,要确定运动物体在丢弃帧中的位置必须知道该物体的运动速度。运动估值的不准确,将导致内插出来的丢弃帧图像的失真。另外,在帧间内插中的位移估值一般要对运动区的每一个像素进行,而不是对一个子块;否则,内插同样会引起运动物体边界的模糊。因此,在帧间内插中较多使用能够给出单个像素位移矢量的像素递归法。
除了上述介绍的几种目前应用最为广泛的压缩编码方法外,矢量量化编码、子带编码、小波变换、分层编码、分形编码、模型编码等均是近年来研究十分活跃的编码方法。
音频业务种类
1.普通电话业务
普通电话业务是发明最早和应用最为普及的一种通信业务,可提供人们最基本的点到点语音通信功能。通常普通电话业务是由传统的电信部门来运营和管理的。从电信运营部门的角度,根据通信距离和覆盖范围电话业务可分为市话业务、国内长途业务和国际长途业务。基于电话交换网络,除了可以提供基本的点到点语音通信之外,现在还可以为用户提供来电显示、三方通话、转移呼叫、会议电话等增值功能;此外,还可以提供传真、互联网拨号接入等功能。
2.IP电话
IP网络中的电话业务是采用“存储一转发”的方式传递数据包,不独占电路,并且对语音信号进行了很大的压缩处理,因此IP电话占用带宽仅为8kbit/s〜10kbit/s,再加上分组交换的计费方式与距离的远近无关,大大节省了长途通信费用。
通常,将IP电话通话方式概括为:PC到PC,PC到PHONE和PHONE到PHONE。上述三种通话方式用到的通信终端一般是具备音频处理能力的PC机、普通电话机或专用IP电话机。IP电话机是一种基于H.323或SIP协议具备以太网接口的通信终端,它占用一个独立的IP地址.可直接接入IP网络实现语音通信。IP电话的工作原理是先将语音信号进行模数转换、编码、压缩和打包,然后通过IP网络传输,到接收端则相应进行拆包、解压、译码和数模转换,从而恢复出语音信号。与IP电话通话质量有关的关键技术可以归纳为以下几个方面。
(1)语音压缩技术
IP电话的技术基础是语音压缩技术,目前用于IP电话的标准是G.723.1,速率为5.3/6.3kbit/s。G.723.1是基于MP-MLQ(多脉冲最大相似性量化激励)以及ACELP(代数码本激励)的编码方法。高码率时采用MP-MLQ,提供6.3kbit/s的码流;低码率时采用ACELP,提供5.3kbit/s的码流。
(2)静噪抑制技术
静噪抑制技术又称语音激活技术,是指检测到通话过程中的安静时段即停止发送语音包的技术。大量研究表明,在一路全双工电话交谈中,只有36%〜40%的信号是活动的或有效的。当一方在讲话时,另一方在听,而且讲话过程中有大量显著的停顿。通过静噪抑制技术,可以大大节省网络带宽.
(3)回声抵消技术
在PBX或局用交换机侧,有少量电能未被充分转换而沿原路返回,形成回声。如果打电话者离PBX或局用交换机不远,回声返回很快,人耳听不出来,但当回声返回时间超过10ms时,人耳就可以听到明显的回声了。为了防止回声,一般采用回声抵消技术。因为一般IP网络的延时很容易达到40〜50ms,所以回声抵消技术对IP电话系统十分重要。
(4)延时抖动处理技术
IP网络的一个特征就是网络延时与网络延时抖动,它们可以导致IP通话质量明显下降。网络延时是指IP包在网络上平均的传输时间,网络延时抖动是指IP包传输时间的长短变化。当网络上的语音延时超过200ms时,通话双方更倾向于采用半双工通信。另一方面,如果网络延时抖动较严重,那么有的话音包因迟到而被丢弃,会产生话音的断续及部分失真,严重影响语音质量。为了防止这种抖动,人们采用抖动缓冲技术,即在接收端设置一个缓冲池,语音包到达时首先进行缓存,然后系统以稳定平滑的速率将语音包从缓冲池中取出并处理.再播放给受话者。
(5)语音优先技术
语音通信对实时性要求较高.在带宽不足的IP网络中,一般需要语音优先技术.即在IP网络路由器中必须设置语音包的优先级最高。这样.网络延时和网络抖动对语音的影响均将得到明显改善。
(6)IP包分割技术
有时网络上有长数据包,一个包上千字节,这样的长包如不加以限制,在某些情况下也会影响语音质量。为了保证IP电话的通话质量,应将IP包的大小限制为不超过2556个字节。
(7)VoIP前向纠错技术
为了保证语音质量,有些先进的VoIP网关采用信道编码以及交织等技术。IP包在传送过程中有可能损坏或被丢失,采用前向纠错技术可以减少传输过程中的错码积累。当然,对丢、错包率均较低的内部网络,一般不采用该技术。
3.模拟广播电视
模拟电视信号在通过无线广播发射或有线传输时,对图像信号采用残留边带调幅、对伴音信号采用调频的发送方式。
我国规定的开路广播电视信号每一套电视节目所占的频带为8MHz,—共划分为68个频道.图2.4是其中一套节目占用的频谱分配结构示意图。目前由广播电视使用的只有1〜48频道,其中第五频道已划给调频广播使用。
在无线电频谱中48-958MHz的频率范围被划分为五个频段,I频段为电视广播的1〜5频道(48.5〜92MHz),fl频段划分给调频广播和通信专用,DI频道为电视广播的6-12频道(167-223MHz),IV频段为电视广播的13〜24频道(470〜566MHz),V频段为电视广播的25~68频道(606〜958MHz)。其中,1-12频道属于“甚高频段",常用VHF表示;13〜68频道属于“特高频段”,常用UHF表示。可以看出,在广播电视各频段之间均留有一定的间隔,这些频率被分配给调频广播、电信业务和军事通信等应用。对于这些频率开路广播电视是不能使用的,否则将造成电视与其他应用的相互干扰。但由于有线电视是一个独立的、封闭的系统,只要设计得当一般不会与通信产生相互干扰.因此可以采用这些频率以扩展节目的数量,这就是有线电视系统中的增补频道。
4.数字视频广播
近年,由于数字视频码率压缩技术的迅速发展和超大规模集成电路的研制成功,使传送数字广播电视节目变成了现实。采用现代的数字视频压缩技术和信道调制技术,可实现在一路模拟电视信号占用带宽内传送4~8路数字压缩标准清晰度电视节目或一路数字高清晰度电视节目,大大提高了信道利用率,降低了每路节目的传输费用,图像质量可达到广播级。为了最大限度地降低各种数字视频应用所需的成本.使其具有尽可能大的通用性,在数字视频广播的一系列标准中,其核心系统采用了对各种传输媒体(包括卫星、有线电缆与光缆、地面无线发射等)均适用的通用技术。
5.视频点播业务
视频点播(VOD:VideoOnDemand),从技术上来讲是一种受用户控制的视频分配和检索业务,观众可自由决定在何时观看何种节目。点播是相对于广播而言的,广播对所有观众一视同仁,观众是被动接受者;点播则把主动权交给了用户,用户可以根据需要点播自己喜欢的节目,可以包括电影、音乐、卡拉()K、新闻等任何视听节目。VOD的最大特点是信息的使用者可根据自己的需求主动获得多媒体信息,它区别于信息发布的最大不同一是主动性、二是选择性。在VOD应用系统中,信息提供者将节目存储在视频服务器中,服务器随时应观众的需求,通过传输网络将用户选择的多媒体信息传送到用户端,然后由用户计算机或机顶盒将多媒体信息解码后输出至显示器或电视机供用户收看。