2.基于流程图的写作工具
Authorware、IconAuther和HSCInterActive是三种典型的基于流程图的写作工具。该类工具使用流程图来安排节目的流程,每个流程图由许多图标组成,这些图标扮演脚本命令的角色,并与一个对话框对应,可在对话框中输入相应的内容,它与脚本命令要填入的参数大同小异。
3.基于时序的写作工具
编制多媒体节目除了要安排节目的内容和流程外,还要控制各种媒体数据同步。基于时序的写作工具通过将元素和事件沿一根时间线安排来达到同步的目的,Action是最有代表性的基于时序的写作工具。一个Action节目通常由多个类似ToolBook中页的场景组成,可直接在场景内安排各对象的位置关系,还可用时间线来控制对象间的先后关系和同步。
在实际应用中可供选用的软件很多,大致可以分为动画制作软件和声音处理软件两类。软件分类详细情况如表61所示。
软件EasyCDDAExtractor
将光盘音轨转换成wav格式的数字化音频文件ExactAudioCopy
将多种格式的光盘音轨转换成wav格式的数字化音频文件RealJukebox
在Internet互联网上录制、编辑、播放数字音频信号Goldwave
带有数字录音、编辑、合成等功能的声音处理软件CoolEditPro
编辑功能众多、系统庞大的声音处理软件AcidWAV
声音编辑与合成器L3Enc
将wav格式的普通音频文件压缩成mp3格式的文件Xingmp3Encoder
将wav格式的音频文件转换成mp3格式的文件WinDAC32
将光盘音轨直接转换并压缩成mp3格式的文件6.4多媒体数据库技术
多媒体信息如音频、图像、视频等需计算机处理的二进制数据是非结构化的,不能简单地用数学解析式表示。多媒体数据库必须取得基于这些媒体对象内容及信息特征的解释,才能完成存储及至检索应用,这些解释称为元数据。通过对元数据归类、整理,实现标准化的存储与检索是多媒体数据库中的主要问题。多媒体元数据数据库结构庞大,数据种类繁多,应用范围也极广,如网上数据共享、网站的网页制作、远程多媒体教学以及多媒体课件制作等。完善元数据的存储与检索机制,是对信息处理技术的重大贡献。
6.4.1多媒体元数据采集与处理
元数据中,由内容描述的元数据占有较大成分。内容描述的元数据与媒体信息属性有关,它不能从它们的内容单独或自动地生成,必须用使用者的描述或媒体内容的代表特征来勾画出媒体对象的特性。
1.元数据生成
元数据是通过媒体对象的特征提取函数生成的。特征提取函数提取元数据需要一定的语义空间,不同属性媒体其语义特征也不同。例如,颜色或结构可以用于图像数据的特征,静默期可用于音频数据的特征。特征提取函数使用的同类语义空间的集合构成了相同属性的媒体元数据。元数据生成过程如图62所示。
原始媒体信息经特征提取函数(媒体预处理器)提取媒体特征后形成独立媒体,再经后级特征提取函数处理形成媒体依赖,即媒体的产生时间、地点和所有者等形成元数据,各类属性的元数据通过检索接口输出,存储并供用户查询。
2.多媒体数据库的存取
存取多媒体信息的过程必须迅速,从而使检索的时间缩短到最低限度。数据存取的基础是为构成一个数据库的各种媒体而产生的元数据。为了提供高效率的存取,元数据必须使用合适的索引结构来存储。采取什么样的索引结构应根据媒体、元数据以及被当做数据库应用程序一部分的查询类型而定。
3.多媒体信息的检索
数据库检索是数据库系统最重要的功能之一,典型的检索包括以下几部分:
①需要输出的数据项;
②可供查询的信息库;
③查询条件(查询谓词),根据谓词描述的内容和媒体特征以及谓词被指定的方式可用不同的类型对多媒体数据库进行查询。
6.4.2基本媒体元数据的存取
基本媒体元数据包括文本元数据、音频元数据、图像元数据和视频元数据,它们构成了数据存取的基础。
1.文本元数据的存取
文本元数据主要指归类、编码、压缩处理后的文本(文档)格式描述的元数据的总称。文本元数据要使用所谓的文本信息语言来描述,如标准生成标记语言(SGML)用于描述印刷品上的控制标记和文档结构等。其中可使用文档类型定义(DTD)来描述元素类型,DTD规范的元素类型由标题信息(Titleinfo)、摘要(Abstract)、内容(Contents)及参考文献(References)等构成,SGML文档DTD定义描述了文档结构的元数据。
为快速存取文本,必须使用合适的存取结构。同时,选择用于文本存取的索引特性,必须有助于根据用户的查询选出适当的文件。常采用的两种方法是全文扫描和倒排文件。
①全文扫描,即在整个文件集合中查找所要的查询特性。在整个文件中查找索引特性的一个简单算法是将查找媒体的特征与那些在文件中出现的特性进行比较。在查找不匹配时,搜索在文件中查找的位置,一次往右移一下,一直这样移下去,直到在文件中找到该特性或搜索到文件的末尾。这种存取特点是不必为文件保存另外的查找信息(如索引文件),其明显的缺点是再次查询时需要进行全文查找。
②倒排文件用来存储一个文件或一组文件的查找信息。查找信息包括索引特性和一组指向索引特性出现的文件指针,如图63所示。
倒排索引可使用散列表形成或存储。此方法使用散列功能来映像,以字符或字符串形式出现的所有特性,并放进散列表中,是基于倒排文件技术的散列方法。
2.语音元数据的存取
语言涉及口语,通常被看做是音频的一种,并定义为独立的数据类型。它的元数据分离较为困难,一般通过辨识语音的单词、语音韵律的变化、静默的时间、发音位置给出,还应能把静音时间和非语音的声音识别出来,并存储为元数据。利用配套硬件及开发软件可组成语音识别系统,如图64所示。它由符号处理模块和模式匹配模块两部分组成。
数字信号处理模块获取语音模拟信号(通过麦克风或录音机)并进行数字化转换后,再经处理语音模块检测静音时间,以及语音和非语音的区别。把原始的波形转换成频率域表示形式,并进行数据压缩。处理过的语音信号用于口语单词及说话人韵律信息的识别。识别过程是通过把处理过的语音和存储模式进行匹配,由模式识别算法最终得出语音元数据。
语音元数据的存取具有如下特点。
(1)用先进的神经网络模型和动态时间分配算法识别索引特性的模式匹配算法。
(2)单词和短语作为一个语言索引特性,单元过于庞大复杂,因此,子单词(subword)单元可用于语音索引特性,步骤如下:
①决定可用于语言索引特性的可能子单词单元;
②从语音文档中提取每个索引特性的不同发音;
③使用不同的发音,训练识别索引特性的模式匹配算法。
检索语音文档是检查一个给出的单词或句子是否出现在一个有效的文档集合中。检索的实现方法是在查找索引特性的元数据与数据库中有效检索特性的元数据之间寻找最优匹配。
3.图像元数据的存取
知道图像的类型,对生成元数据的算法是有好处的。算法可根据指定的图像类型属性的信息分析,其中也包括图像对象的颜色和纹理信息。图像元数据析取的基本要求是定位图像上的对象,这就要求把图像分段成区域或对象;另一种方法是根据对象中的指定属性或特性,这些特性有助于区分要分析的图像,并分类成不同的对象类型。
图像分段处理有助于分离数字化图像中的对象。分离图像中的对象有两种方法:第一种称为边界检测方法,它试图定位存在于对象中的边界;另一种称为分区方法,它从决定像素落在一个对象之内或之外开始,因此把图像区分为内部和外部点集。
主要的图像分段技术有阈值技术和区域生长技术。
1)阈值技术
阈值技术的原理是:灰度像素等于或大于阈值的被分配到对象中,小于阈值的像素落在对象之外。这种技术可应用于图像分段,有助于特定背景下对象的简单识别,当然,要精心地确定阈值。
2)区域生长技术
区域生长技术开始好像对象的内部在生长,直到它们的边界与对象的边界相一致。这里,一个图像被分成一组细小的区域,这些区域可能是单一的像素或一组像素。识别出区分对象(如灰度、颜色、纹理)的属性,给每个区域的这些属性赋一个值,将这些值进行集合的并集运算,形成可理解图像界(子区域)即图像的元数据。
上面描述了图像元数据产生的方法。图像元数据描述了对象的不同特性,诸如它们的位置、颜色、纹理。为了便于存取,产生的元数据必须以适当的索引结构存储,通常有以下两种技术用于存储图像元数据:
①存储图像中对象之间的定位与空间关系的逻辑结构;
②对于有相似特性诸如颜色和纹理的图像来讲,相似簇生成技术能把它们归类在一起。
4.视频元数据的存取
产生视频元数据最简单的方式是提供文本描述,用于描述手动记录和与存储相关的数据库信息。另一种方法是用自动/半自动机生成所需的元数据。由内容描述的元数据的生成必须基于用户或应用程序输入的视频对象。为了保证视频元数据的生成过程,所用工具必须具有以下功能:
①识别视频中的逻辑信息单元;
②识别视频中的摄像操作的不同类型;
③识别视频中的低级图像属性(如亮度);
④识别语法分析逻辑单元的语义属性;
⑤识别视频中的对象及其属性(如对象动作)。
要自动对其进行语法分析的信息逻辑单元称为摄像镜头或剪辑。假设镜头是表示时间和空间一个连续动作的帧序列,镜头识别的基本思想是帧的任何一边出现摄像中断都会引起信息内容的明显变化。视频分析算法应能探测到信息内容的这一变化,以此识别镜头的边界。
视频数据的存取依靠视频元数据。视频元数据通常包括特定的视频点和对视频点的描述,视频点的描述着重于摄像头的移动、对象移动和某一视频帧的质量。为了快速存取,元数据的存储必须使用恰当的存储结构。如果查询包括对象、事件和摄像机的描述,那么存储元数据标志的数组首先要被存取。此数组给出了节段数的顺序列表,这些节点轮流给出视频帧的序列。而摄像机操作数组如图65所示将首先被存取。此数组给出一系列节段数的节点:2,3,4,5,6,7,8。存取这些节点,得到视频帧序列\[5,10\],\[10,15\]和\[15,30\](对应对象数组)。如果查询能够直接操作节段树,那么从节段树中就可以搜索出所需要的视频帧序列,例如,如果查询需要标记在某一个帧序列中的对象,节段树可以存取对象并标记它。
6.4.3数据库对多媒体数据的支持
多媒体数据占据很大的存储空间,数据库必须提供相应的存储管理方法。由于多媒体数据的特性使得多媒体数据的存储与管理必须满足一定的特殊要求:第一,具有同时存储与管理格式化与非格式化两种数据类型的能力;第二,要能承载特别巨大的非格式化数据;第三,必须具有多种媒体数据综合表示能力。
传统的数据库无法表示上述三种特殊需求。首先,传统数据库一般只能表示格式化数据,而对非格式化的数据,特别是对兼有格式化和非格式化数据类型的要求无法满足;其次,传统数据库在单位结构内无法存储大量数据;再者,传统数据库在多种媒体数据综合表示能力上尚有所欠缺,无法从语义上完整表示。因此,传统数据库无法支持多媒体数据在存储和管理上的要求。
为此,必须对传统数据库作适当的改造才能满足多媒体数据库管理上的要求,目前采用的多媒体数据管理方式一般有三种:文件管理方式、关系数据库管理方式和面向对象数据库管理方式。这三种方式中,文件管理方式为早期多媒体应用所采用,下面主要介绍关系数据库的管理方式和面向对象数据库的管理方式。
1.关系数据库的管理方式
由于近年来各大关系数据库系统,如Oracle,Sybase,Informix等,均先后作了适应多媒体数据存储和管理的改进,普遍增添了专用的多媒体属性,其专用属性的存储容量可达8GB以上,因此关系数据库管理方式是当前多媒体数据管理的主流。
1)扩展的关系数据库
关系数据库是目前应用最多的一种数据存储方法。传统的关系模型结构简单,是单一的二维表,数据类型和长度也被局限在一个较小的子集中,又不支持新的数据类型和数据结构,很难实现空间数据和时态数据,缺乏演绎和推理操作,因此表达数据特定的能力受到了限制。为了使关系数据库能支持多媒体数据,必须对现有的关系模型进行扩充,使它不但能支持格式化数据,也能处理非格式化数据,通常采用模型扩充法。
2)基于内容的检索
基于内容的检索就是根据多媒体信息的内容来检索,即根据媒体对象的语义、特征进行检索。它包含信息内容和检索两方面。信息内容与信息的理解有关,比如图像理解、视频理解等;检索不仅与采用的搜索方法有关,还与匹配的判断准则有关系。通常情况下,基于内容的信息检索首先要对媒体信息进行分割,使其成为单独的检索对象,然后再对每个媒体对象进行特征提取,特征的集合构成了它的内容描述。接下来,就可以根据要求从多媒体信息库中返回一组与检索要求的内容描述最接近的对象。
基于内容检索的系统结构如图66所示,整个系统由客户和服务器两部分组成。服务器部分由对象分割与特征提取、内容描述、搜索引擎和多媒体数据四个部分组成。对象分割与特征提取是基于内容检索的关键技术之一,也是一个难点;内容描述是在图像分割与特征提取的基础上对内容进行描述;搜索引擎的功能是接受用户的查询请求,其核心问题是如何做到既提高搜索的速度,又不至于遗漏满足相似度要求的信息。
2.面向对象数据库的管理方式