第三节 新型存贮检索技术

一、信息的光盘存贮

光盘存贮技术是利用激光和计算机存贮信息的最新技术。

信息的光存贮技术起始于 20 世纪 60 年代,70 年代得到迅速发展。早期主要是研制激光式电视唱片。光盘存贮器的出现,是信息存贮技术的重大突破,它为海量信息存贮和信息检索等应用领域提供了广阔前景。

光盘是用聚焦成直径小于 1 微米的激光束在光记录介质上写入与读出信息的高密度存贮载体,其基本结构分为三层:基体、信息层和保护层。基体的材料可以是有机玻璃、塑料等;信息层是由极薄的金属薄膜或色素薄膜, 非晶体薄膜、光磁材料等制成的;保护层是一层透明聚合物,用于防尘和防划痕。

(一)光盘的特点

  1. 信息存贮密度极高、容量极大,是磁盘存贮密度的 50 多倍。

  2. 信息的光盘存贮成本低、价格低。价格仅为同样容量磁盘的千分之一,

    且体积要小得多,易于保存和携带。

  3. 具有随机存取特性,使于和计算机接口。光盘上的信息分布在盘层表面,读写头能迅速访问,可随机存取与快速检索,不受时间限制。

  4. 可以存贮与显示多种信息。光盘既能存贮文字与数字,又能记录彩色活动图像;它不仅能用于存贮视频信息,而且还能存贮音频信息。

  5. 光盘坚固耐用,存贮寿命长。光盘密封性能好,不易受周围尘土、潮气及其周围杂散电磁场的破坏,其使用寿命可达

    10 年以上。

  6. 便于复制。将录有信息的光盘制成凹凸模板,可以大量复制,且拷贝盘制作价格便宜,信息存贮的成本费用低。

(二)光盘的类型

目前已投放市场的光盘产品主要有三类:

  1. 只读型光盘。只读型光盘是最早实用化的光盘。盘片在出厂前由厂家预先用激光光束蚀刻上视频、音频、数字信息,出厂后只能读上面的内容而不能添加或修改。其技术成熟、容量大、易复制、价格低,主要适用于电子出版业、联机检索系统、计算机辅助设计、办公自动化、辅助教学等。

由于只读光盘能够在微机上使用,所以得到迅速普及。而且国际上各种主要公众检索数据库都已制成只读光盘,方便人们利用。

  1. 写一次型光盘。用户可以根据自己的需要自由地进行信息记录,但只能写一次,且不能修改和涂抹,所以如有变动则需要在未记录部分追加记录。其技术上已经成熟,比较稳定可靠,主要应用于用户自建数据库以及文献等信息的存贮,可以作为计算机外存。

  2. 可擦型光盘。这种光盘在写入信息后还可以抹掉重写新的信息,制造这种光盘难度较大。传统上有两种擦除重写方式,一是先用激光将过时的信息擦掉,再用激光束写入新信息;二是擦除和记录用两束激光分别同时进行。

可擦型光盘适用于保存更新较快的信息和信息的短期存贮。

光盘存贮技术以其众多的优点,如记录密度高、存贮容量大、工作稳定可靠、环境要求低、信息保存时间长等,吸引了人们广泛的应用,并且光盘检索系统的发展相当迅速,普及面越来越广,已成为人们生活和科研中较好的辅助工具。

二、全文信息存贮与检索

全文检索不仅意味着可通过计算机直接检索到全文,而且意味着可以全文中的任意符号串作为广义检索词进行全文检索运算及逻辑运算。目前的全文检索技术实际上与一般的文献检索技术十分相近,类似于一般的顺序检索,但它更早地采用了所谓“一次性扫描技术”,即文献未进行标引与索引, 当提问中有若干个广义检索词时,系统不必用每一个检索词逐个地对全文进行扫描,只要将其组成一个有限自动机,然后对文献进行一次性扫描,可判定其中哪些存在于该文献中,类似于一般文献对检索词建立倒排索引的做法。在全文检索中“广义检索词”允许是单个符号或任意符号串,所以相应的倒排索引往往建立到一切具有检索可能的字符串这一级。

全文检索是以全文存贮为基础的,目前的数据库检索系统一般只提供文献的题录,如文献题名、著者名、著者通信方式、所在期刊名、卷次、页码等项,或者提供文献的文摘以供参考,用户在此基础上再根据检索线索获取原文。而全文检索一次性地解决了原始文献的直接查阅,是检索工作的一次重要变化。现在,国外已有不少数据库能够实现全文检索,但还没有达到真正意义上的全文检索,即文献中的任意字符或符号串都能成为检索词对象。全文检索技术将彻底改变人们查找文献的方式。

三、多媒体、超文本与超媒体

多媒体存贮检索技术是指图、文、声混合存贮与检索的技术。由于图、声,特别是运动中的图像需要大量的存贮空间,以及当图像、声音、文字同步显示时需要复杂的管理控制,所以在日常工作和生活中虽是图、文、声同步共现,但要在计算机上实现则很不容易。由于现代存贮技术与压缩存贮技术的发展,图、文、声并茂的多媒体存贮与显示已成为可能,多媒体的产品已风行世界。实际上,目前的多媒体产品大多是将图像与声音压缩后当成一个文件或一个记录存贮到计算机中,使用时即可与文本信息一样地使用,而且还借助于附加在图像或声音旁的标引信息来实现对图形和声音的检索。今后的发展则是对图形和声音的直接检索。支持多媒体数据库的应用软件,一般包括多媒体信息的采集编辑软件(加工存贮、格式转换等)、检索软件及软件输出等。

超文本就是对文本中有关内容产生联想检索的文本。超媒体则是对多媒体中部分可产生联系检索的多媒体。例如,一个系统的文本中若有“我国历史悠久、地大物博、人口众多⋯⋯”,当将光标指向“我国”时,系统可立

即联想检索出“中华人民共和国及有关的其他信息”;当光标指向“人口众多”时,它即可联想检索出“中国人口的历史变迁表”。该系统就称之为超文本(能表现文本信息)或超媒体(能同时同步表现图形、文字、声音三类信息)。因此,要实现超媒体存贮,就不能完全像传统式样地按时序进行线性存贮,而必须用非线性方式把若干个可产生联想的内容组合在一起构成语义网络,以保证联想和同步“浏览”图形、文字和声音功能的实现。

四、图像、视频存贮与检索

一幅图像的存贮需要大量的存贮空间。海量存贮器——光盘为图(如工程图纸、珍贵照片、图稿、指纹等)的存贮提供了存贮条件。因此,图的存贮与检索得到了发展。目前除少数系统(如指纹识别系统等)外,大多数的检索主要借助于附于图的标引信息,一幅图往往要给出 6~8 个关键词作为标引信息,而其检索技术与传统的文本检索并无大的区别。可见,建立图像存贮与检索系统关键在于图像的压缩存贮和复原输出技术。

视频又称之为可视图文,是指可显示在电视机与终端上的图文。视频又分为广播式视频与交互式视频。广播式视频的信息显示在电视机上,无人机交互能力;交互式视频的信息保存于计算机中,允许人机交互地传递信息, 并可自由地控制信息的传递。实现交互式视频的存贮与检索,是未来存贮检索技术的发展方向。

五、网络化信息检索

网络化信息检索,就是通过通信网或信息高速公路获取和享用电子信息服务的统称。在全网化通讯和信息交流的时代,不能共享网络信息资源的信息检索系统将不会有太大的发展前景,因此网络化信息检索的发展是大势所趋。

通过计算机网络系统可以连接世界上各种公用数据库和商用数据库,通过用户接口友好的信息检索工具,可以帮助用户获取希望得到的信息。

网络化信息检索系统的特点是:一般基于客户机/服务器而非基于主机, 同联机系统的主机和用户的主从关系不同,客户与服务器是同等关系,只要遵循共同协议,一个服务器可被多个客户访问,一个客户可访问多个服务器。因此,网络化信息检索系统彼此可看成为客户和服务器的关系;带有图形用户界面的智能型工作站被用来取代简单终端,终端通过局域网络或广域网络而不是硬件线路与主机相连;网络的用户数量不受到限制,它是一个开放系统而不是封闭式系统,更便于增加外部信息资源。

网络化信息检索将在全球范围内实现信息资源共享,因此,全球网络将是信息存贮与检索进一步发展的方向之一。

总之,信息的存贮技术在最近的几十年里得到了迅速的发展,而且新的存贮技术也不断出现。这些存贮技术各有自己的特点和优势,可以分别在不同的领域和范围中发挥自己的特长,用户也可根据自己的需要与条件,来选择不同的存贮系统。展望未来,信息存贮技术有可能较好地将所有存贮介质融合起来,形成将磁带、磁盘、缩微品和光盘等完美结合的复合系统,从而实现各类文件图像的输入、输出、存贮检索、显示和相互转换。而这种复合系统既有极高的存贮容量,又有多样灵活的文件信息管理方式;它既能在一个用户终端上高速处理与检索存贮于多种介质上的文件图像,又能方便地把它们显示或打印出来,同时,还能通过网络与通信设备,远程传送与交换文件图像。这样的系统为各个组成部分创造了充分发挥自己特长与作用的环

境,因而将能够在更大范围内,更有效地实现信息的存贮和检索服务。