第三章 多媒体技术
多媒体技术涉及面很广泛,基本技术包括有信息的光存储技术、图像输入和输出技术、图像压缩技术、音频技术、视频技术、网络传输技术等。
一、多媒体信息的光存储技术
光盘是一种大容量的存储介质,它成功地解决了计算机存储容量问题。和磁盘相比,光盘的主要优点是:
-
存储信息量大,每片可保存 680MB 信息。
-
记录介质磨损小,受环境污染的影响小,读写信息时光头不接触光盘表面,信息保存时间可达
50 年之久。
-
存取速度快。一般光盘采用随机存取方式,平均寻道时间低于 0.1 秒。
-
单位成本低。光盘单位存储量的制造成本要大大低于磁盘。
光盘主要只读型光盘 CD—ROM、一次写入型光盘 WORM 和可抹型光盘三类。CD—ROM 是多媒体系统中的主要支持产品。有关光盘的内容将在第五章内予以详细介绍。
二、图像输入和输出技术1.多媒体系统的图像来源
多媒体应用中所需要的图像主要有以下几种来源:
-
直接购买的数字化图像。它可以存储在 CD—ROM 光盘、磁盘或磁带上。
-
通过计算机和专门软件所创作的图像。可利用 Paintairbrush paintbrush 等软件生成一些图形、屏幕上的图符、动画等。
-
用彩色扫描仪将照片或艺术作品扫描后得到数字的图像。可以将照片、艺术作品变换为全彩色的位图图像。
-
利用电视摄像机捕获的图像。摄像机与插在计算机内的数字化板相连接。将来自摄像机的模拟信号转换成数字数据,从而获得所需的图像。
图像的输入设备
计算机输入图像的设备有扫描仪、电视摄像机、光盘和磁带放像机。
-
扫描仪。扫描仪在图像处理领域有广泛的应用。扫描仪的主要技术性能指标有分辨率和灰度等级。无论是正片还是负片扫描仪,其分辨率均用每英寸点数 DPI 表示。高档扫描仪分辨率可调,调节范围较宽,最低为 30DPI, 最高达 600DPI。分辨率越高,识别最小细节的能力越强,产生的图像越清晰。单色扫描仪的灰度等级是指识别和反映像素点明暗程度的能力。灰度等级越高,产生的图像越逼真。彩色扫描仪扫描图像时,要对像素点分色,把一个像素点分解为红(R)、绿(G)和蓝(B)三基色的组合。对第一个基色的深浅程度也用灰度等级表示,这就是采色精度。扫描仪还有其它技术性能指标, 如扫描区域的尺寸、速度等。
-
电视摄像机、录放像等视频设备。电视摄像机、录放像机等视频设备所产生的摸拟图像在垂直方向有固定的分辨率,即每帧 625 行扫描线。数字化图像的精度由视频信号捕捉卡决定,但是每帧画面的水平和垂直方向≤ 625 线。电视画面的高宽比为 3∶4,为了保证画面的水平和垂直方向有相同
的分辨率,因而水平方向的精度=4/3×垂直精度≤4/3×625=833 列。
图像的采集和存储
输入的图像可分为静态图像和动态图像。静态图像的输入只须考虑分辨率、彩色精度和数字化后的数据量。对于动态图像,则还要着重考虑图像的数字化速度和输入计算机中的速度。
数字化的图像产生大量的数据,尤其是动态图像,数字化后数据量大得惊人,这给计算机存贮图像带来了困难。尽管光存贮技术已使计算机外存容量激增,但与图像的数据量相比,存贮容量仍相差甚远。例如,以 512×512 的分辨率和 24bit 精度量化动态电视画面,每分钟产生的数据为:512×512
×24×25×60/8=2300M 即使光盘容量为 1200M,一片光盘也只能存贮半分钟的电视节目。降低图像数据量的最简单办法就是牺牲图像的分辨率和彩色精度。在多媒体系统中,图像的分辨率和彩色精度要根据应用需求确定。减少图像数据量的另一个有效措施就是数据压缩。图像数据有很大的冗余度,采用压缩编码技术可以大大降低图像的数据量。
图像的处理和应用
图像输入到计算机后,应对它进行各种处理,例如对图像进行滤波、增强、特征抽取等信号处理手段以及旋转、放缩、剪裁、着色、与文本声音混合等编辑手段,以满足各种应用需求,因此,配备有一系列的图像的编辑软件与处理软件。
图像的输出设备
-
打印机。图像的打印输出由打印驱动程序完成,打印机的技术指标与扫描仪相同,主要有分辨率和彩色精度,分辨率也用 DPI 表示,一般为200~ 300DPI。彩色精度最高可达 16777216 种彩色。
-
监视器。大多数监视器能接收 RGB 基色信号,因而可将数字图像信号转换为 RGB 模拟信号。有些监视器也接收复合视频信号或 S—视频信号, 此时就需要将数字化的 RGB 信号转换为模拟的复合视频信号或 S—视频信号。
图像信号经显示卡转变为 VGA 或其它显示标准的信号,就可以在计算机屏幕上显示。显示卡有 EGA、VGA、SV- GA 和 XGA 等多种标准,它们提供了不同的显示分辨率和彩色精度。CGA 的分辨率为 640×200,EGA 为 640×350, 其它为 640×400,640×480,800×600,1024×768,1280×1024 不等,彩
色精度有 16 色,256 色,32 768 色至 1677 万色。
三、音频技术
多媒体系统产生声音的方法主要有数字音响、CD 唱片重放、通过 MIDI 驱动内置或外置的合成器三种。
数字音响
数字音响是计算机技术与音响相结合的产物。通过 A/D 转换对声音采样。重放时,作 D/A 转换,把数字再变回波形。数字化采样要占用很大的存储空间,采样频率越高、比特(bit)数越多,声音质量越好。一般来说,采样频率要高于被采样波形最高频率一倍以上,可获得满意的音质。由于人耳的听觉上限大约在 20kHz,因此,采样频率达到 CD 唱片的采样频率为 44.1kHz, 要求 40kHz 以上即可能够达到最佳听觉效果。比特数(位长)也是衡量采样质量的一个参数,它是指每次采样用几个 0 或 1。8 比特的采样能描绘 28=256
种变化,16 比特的采样则能描绘 216=65536 种变化。其声音质量比前者要高得多。多媒体系统声音采样的比特数有 8 和 16 两种。采样时可以选择单声道或立体声。采样数据存入光盘或硬盘。
音频信号的数字化方法一般有下列三种:①脉冲编码调制(PCM);②差分脉冲编码调制(DPCM);③自适应差分编码调制(ADPCM)。这三种方法的差别在于采样频率和采样精度相同时,数字化音频数据量有所不同,前者方法比后者要多。
CD 唱片重放
多媒体系统的 CD—ROM 驱动器可以直接放送 CD 唱片。
通过 MIDI 驱动内置或外置的合成器
MIDI 是乐器数字接口(Musical Instrument Digital Inter- face)的缩写,它是一个通过电缆将电子音乐设备联接起来的协议。这个协议现已成为设计人员共同遵守的一个标准。它规定了电子乐器与计算机之间进行连接的电缆与硬件方面的标准,以及电子乐器之间、电子乐器与计算机之间传送数据的通信协议。以下介绍与 MIDI 有关的几个主要概念:
-
MIDI 设备。它包含了处理 MIDI 信息的微机及有关硬件接口。一台MIDI 设备可以有 1~3 个端口,它们分别称之为 MIDI IN,MIDI OUT,MIDI THRU。MIDI IN 接收来自其它 MIDI 设备的 MIDI 信息,MIDI OUT 发送本设备生成的 MIDI 信息,MIDI THRU 将从 MIDI IN 端口传来的信息转发到相连的另一台 MIDI 设备上。
-
MIDI 合成器。合成器是一种用数字信号处理器或其它类型的芯片产生音乐和声音的电子设备。它产生波形,通过声音发生器送往扬声器。
-
MIDI 软件音序器。是用于记录、编辑和播放 MIDI 文件的软件。音序器可以帮助专业音乐工作者和音乐爱好者通过 MIDI 文件进行作曲,也可以帮助计算机作曲,用于乐曲修改及播放。计算机作曲软件一般用高级语言编程,按照特别的作曲和算法,设置各种音乐参数(如音高、节、拍、音量、接合、音色等)写出乐曲程序。这样产生的乐曲程序还不能直接在合成器上演奏。必须经过编译,把乐曲程序文件变换成 MIDI 文件,才可以通过音序器作进一步的加工,或在合成器上播放出乐曲。
-
MIDI 文件。MIDI 信息用一种标准的格式记录,并作为文件而存储,这个文件称为 MIDI 文件。MIDI 文件实际上就是数字形式的乐谱,它由一系列的乐符组成,还包括每个乐符的键,通道号、音高、音长、音量、键落下的速度,以及乐器的配置等。
四、视频技术
下表说明计算机监视器显示的图像与电视机显示图像的区别:
接收的图像信号形成 |
屏幕显示 |
产生彩色方式 |
扫描方式 |
|
---|---|---|---|---|
计算机图像 |
数字信号单位为 BIT |
VGA 监视器分为横向640 个像素点,纵向 480 个像素点,光强一个点一个点地变化, 它经过 640 个点 |
256 种彩色 |
通过扫描 |
电视机图像 |
模拟信号,连续变化。通过频率和强度的变化来承载信号,改变信号的波形则表示不同的彩色和亮度 |
512 线。光强有强有弱之分,从无到最亮,信号连续经过屏幕 |
可显示任意高度的彩色 |
隔行扫描 |
从上表可知,监视器显示图像与电视机显示图像有明显的差别,通过视频技术可以使 PC 显示技术与 TV 显示技术完美地结合到一起,彼此通用,发挥更大的功效。
视频技术包括有视频数字化和视频编码技术两个方面。
视频数字化就是指将模拟视频信号经模数转换和彩色空间变换转换为计算机可处理的数字信号,使计算机可以显示和处理视频信号。视频编码技术则是将数字化的视频信号经过编码成为电视信号,从而可以录制到录像带中或在电视上播放。
五、网络传输技术
计算机网络是计算机技术和通信技术二者相结合的产物。计算机网络的突出特点是综合利用了当代所有重要信息技术的研究成果,通过信息的收集、识别、存储、交换、传输和处理技术,把分散在广泛区域中的许多信息处理系统有机地连接起来,组合成一个规模更大、功能更强、可靠度更高的信息综合处理系统。
压缩技术的发展,为多媒体信息网络传输提供了基本条件。图像压缩技术使电话网传输图像成为可能,若与视频技术结合还能实现半动态传输小窗口的视频图像。例如在 aboo 波特率的电话网上实现每秒 1 帧的小窗口视频图像的传输。
目前,技术水平已发展到可在综合业务数字网 ISDN 上实现可视电话和电视会议系统。
ISDN 的建立为活动图像和电视电话开辟了广阔的前景。由于彩色活动图像要求 25 帧/秒~30 帧/秒,因此对压缩比要求很高,运算速度要求更快。图像压缩编码解码器是电视电话的关键器件。随着多媒体技术的进步,电视电话将成为多媒体通信终端而获得巨大的发展。
真正解决多媒体的传输,还需要更高速的网络支持。高速光缆局域网 FDDI 和双绞线网络已达到 100M 的速度,覆盖距离可达 100 千米,新的 1000M 的网络也正在逐步趋于成熟。网络传输技术是多媒体发展及应用的基础。
六、触摸屏技术
触摸屏是指一种能对触摸产生反应的屏幕。当人的手指或其他物体触到屏幕不同位置时,计算机能接收到触摸信号并按照软件要求进行相应的处理,这种技术就是触摸屏技术。触摸屏设备由软件和硬件组成。一般的触摸屏是在手指触到显示器屏幕时,将手指的屏幕位置坐标传给计算机。这种输入方法具有直观、方便、快速的特点。触摸屏主要有以下四种类型:
电阻膜式触摸屏
将一个两层导电且高透明度的物质薄膜涂层涂在玻璃或塑料表面上,再按将到屏上,或直接涂到屏上。当手指触到屏幕时,在接触点处产生电接触, 使电阻发生改变,在屏幕的 X、Y 方向上分别测出电阻的变化量则可确定触摸位置,属早期产品。
电容式触摸屏
将一个接近透明的金属性涂层覆盖在一个玻璃涂层上,当用户接触这个涂层时,电容会改变,使连接的震荡器频率发生变化,测量频率变化的大小即可确定触摸位置。这也是早期的产品。
红外线触摸屏
通常在屏幕的一边用红外器件发射红外光,在另一边设置接收装置来检查光线的遮挡情况。这有两种方式:一种是利用互相垂直排列的两列红外发光器件在屏幕上方与屏幕平行的平面内组成一个网格,而在相对应的另两边用光电器件接收红外光,检查红外光的遮挡情况。当手指指在屏幕上时,部分光束被接收,光电器件因接收到光线减少而发生电平改变。另一种是用扇开的光束从屏幕两角照射屏幕,在与屏幕平行的平面内形成一个光平面,人手触摸时,通过测量投射在屏幕其余两边的阴影覆盖范围来确定手指的位置。
表面声波触摸屏
表面声波(Surface Acoustic Wave 缩写为 SAW)又称为表面弹性波。SAW 触摸屏由压电传感器、反射器、触摸屏器件组成,它们可以固定在一块用环氧化物做在平的或弯曲的玻璃表面上的小型压力楔块上,也可直接固定在一台显示器的玻璃表面上,传感器和反射器一起工作,当发射的声波穿过玻璃表面时,一只手触到 SAW 触摸屏,则被触之处使声波发生衰减,这一信号的衰减被接收到并被转换成 XY 轴的坐标传给计算机。
七、多媒体信息的压缩技术
多媒体信息的数据量是非常庞大的,不仅在网络上进行实时传输时需要的传输速率大大超过了当前网络的数据传输率,而且对网络服务器的存储容量及多媒体信息的同步也都提出了很高的要求。为了解决这些矛盾,在不断改善多媒体网络环境的同时,更重要的是必须对多媒体数据进行压缩。一幅500×500 的 24bit 真彩色图像约需 6MB 的存储量,如用传输速率为 64kbps 的 ISDN 信道进行传送,需要 94 秒才能完成,但用 JPEG 进行压缩后,存储量可降低近 20 倍,用同样的信道进行传输只需 5 秒。由此可见数据压缩的重要性。
多媒体数据压缩技术研究的主要问题包括:数据压缩比、压缩/解压缩速度、简洁的算法。
根据对压缩数据进行解压缩后的数据是否与压缩前的原始数据完全一致作为标准可把数据压缩方法划分为无失真压缩(可逆压缩)和有失真压缩(不
可逆压缩)两类。
国际通信组织 CCITT 对公用电话和公用网制定了一系列的音频压缩标准,包括 G.711、G.721、G.722、G.728,主要是采用脉冲编码调制(PCM) 或自适应差分脉冲编码调制(ADPCM)对采样频率为 8~16kHz 的音频进行压缩。
数字化视频中包含有音频信号,所以对视频的数据压缩方法一直很受重视。主要的视频压缩标准有 JBIG、JPEG、MPEG、H.261 等。
-
JBIG(Joint Bilevel Image Group)是国际标准化组织 ISO 制定的二值图像压缩标准,是一种采用累进操作方式的无失真压缩方法,其压缩比可达 10∶1。该方法也可用于灰度值或彩色图像。
-
JPEG(Joint Photograph Expert Group)是 ISO 和 CCITT 联合制定的对连续色调、多级灰度、彩色或单色静态图像进行压缩的标准,采用顺序(Sequential)和累进两种工作方式。其压缩比为 10∶1~100∶1,当压缩比小于 40∶1 时,基本上可以认为是无失真的。
-
MPEG(Moving Picture Expert Group)是 ISO 制定的用于数字存储媒体运动图像及其伴音的压缩编码,包括三个部分即:MPEG 视频(MPEG— Video),它研究视频信号的压缩算法、MPEG 音频(MPEG—Audio),它研究音频信号的压缩算法和 MPEG 系统(MPEG—System),它研究音/视频信号的同步和复用问题。MPEG 图像采用 CIF 图像格式,视频动态速率为 30 帧/秒。由于视频和音频需要同步,所以 MPEG 压缩算法要兼顾对视频和音频。目前已制定出 MPEG—1、MPEG—2 和 MPEG—4 标准。MPEG—1 最后产生一个电视质量的、视频和音频压缩形式的、位速率约为 1.5Mbps 的 MPEG 单一位流;MPEG
—2 基于 3Mbps~4Mbps 或 4Mbps 以上速率压缩存储活动图像,质量可达广播级和 HDTV 级;MPEG—4 以 9Mbps~40Mbps 速率压缩存储活动图像,质量为基本级。MPEG 标准的平均压缩比为 50∶1,是一种失真压缩方法。
(4)H.261 是 CCITT 为可视电话和电视会议制定的压缩标准,也称为 p
×64kbit/s 标准(p=1,2,⋯,30),在低速时(p=1 或 2,速度为 64 或128kbit/s)只支持四分之一中间格式 QCIF(Quarter Common Intermediate Format)图像格式,此时可采用亚帧(Sub—frame)技术,即隔 1(或 2,3) 帧处理一帧;当 p>6 时,支持通用中间格式 CIF,其压缩比可达 48∶1,压缩比虽较 MPEG 稍低,但实时性很好。