元数据的描述, 就是对元数据的表述与揭示。对于元数据可以从不同角度加以研究, 但是从语言学角度来看, 元数据就是一种语言, 且是一种人工语言,存在着从语义方面和语法两方面对元数据进行表述与揭示的问题。
简介
基本涵义
元数据的描述,就是对元数据的表述与揭示。对于元数据可以从不同角度加以研究,但是从语言学角度来看,元数据就是一种语言,且是一种人工语言。元数据既然是一种语言,就存在着语义与语法这两个基本方面。由此,元数据也就存在着从语义方面和语法方面对元数据进行表述与揭示的问题。
语义描述与语法描述
在自然语言中,
语义主要是指语词的意义,是思维理解的内容,而语法主要是指构词成句的规则,是语言构造的形式,语义与语法处于两个不同的层面。自然语言的语义与语法的区分可以用经典的语义三角模型来表示。
从图看出,语义处于思维层面,而语法存在于表达层面,但不管怎样,都是人们用于说明、描述、指代事物所不可缺少的两个基本方面。
由于元数据是一种
人工语言,而且是以计算机网络为应用环境,因此,在语义与语法的界定上又与自然语言语义、语法的界定有所不同。元数据语义是指人们对其可以直接读取的内容涵义部分;而语法则是指计算机对其可以直接读取的置标结构部分,其模型见图。
元数据的语义是对人们直接读取而言的,而元数据的语法是对计算机读取而言的。显然,没有这两方面,就很难实现电子文件管理元数据在计算机网络环境下的互操作。由此,我们根据图模型可以划分出元数据描述的两种类型,即元数据的语义描述类型与语法描述类型。
语言的功能在于交流。虽然从形式上看,元数据的语义与语法与自然语言的语义与语法划分有所不同,但其实质是一样的,都是为了实现交流。只不过自然语言的语义与语法这种划分适用于人们交流的现实世界,而元数据的语义与语法的划分适用于人们在计算机网络环境下交流的虚拟世界。
发展现状
元数据定义
简单地说,
元数据就是关于数据的数据。当然,这并不是对元数据的精确定义,目前对元数据的定义尚无定论。但是,我们可以这样理解元数据:它是用来描述数字化信息资源,从而确保这些数字化信息资源能够被计算机理解,使得计算机可以自动辨析、分解、提取和分析归纳的一种框架或一套编码体系。就元数据的功能而言,在信息资源组织中,它具有定位、描述、搜索、评估和选择等功能,而其最基本的功能在于为信息对象提供描述信息。目前元数据的发展,呈多元化的格局,大致可以分为两大类:一是以详细描述信息资源为目标的元数据;二是以检索信息资源为目标的元数据。
以详细描述信息资源为目标的元数据
这类元数据在满足检索、选择和定位信息资源的同时,对信息资源的各类特征及关系进行尽可能详细的描述,其对象常与专业化技术应用有关,面向专业人员,其主要代表有:
在这类元数据中,最成熟和最完善的元数据格式,首推数字化地理元数据内容规范(FGDC/CSDGM)。FGDC是根据1994年美国总统行政命令制定的一项关于地理资料收藏、著录和交换的
元数据标准,目的是整合所有联邦机构及其他机构对地理信息的描述和交换,同时也用于统一政府和民间地理信息的分布与传播。
FGDC地理元数据,是基于NII的国家空间数据基础建设(NationalDateInfrastructure,
NSDI)设计的,在信息的交换、传递、分布和检索上,是以一个连结地球信息的生产者、使用者和管理者的分散式电子网络为操作环境的。为了保证元数据的质量和描述信息语言的语法正确,在网络上已设有元数据语法查核器及描述信息的指导软件,引导用户正确地描述自己的信息。总之,FGDC地理元数据已经成为美国的国家标准,被地理界广泛采用。
2 政府信息查找服务核心元素标
准资源查找系统(
GILS)是于1992年由联邦政府所推出的,也是一种协调各机构信息传播,帮助人们有效地检索和利用联邦机构的各项信息的工具。该系统设计特色是:①使用者可以直接利用网络或者通过中介机构来使用GlLS。②采用分散式结构,允许各机构自行建立和维护本身的GILS系统,各机构的GILS系统之间互相独立。
目前,GILS已成为美国国家
信息基础设施建设(
NII)的一个组成部分。
美国联邦政府、州政府和其他机构也设立GILS。GILS政府信息查找服务核心元素标准是用来协助人们建立GILS,规范信息内容的描述,保证GILS记录的质量。
以检索信息资源为目的的元数据
这类元数据强调检索功能,分析信息资源的检索特征,主要解决用户的检索问题,使用户能真正检索到其所需要的信息资源,其中最具代表性的元数据格式为统一资源描述(URC)。
URC是由InternetEngneeringResourseCharacteristics,(
IETF)提出的,用于描述和检索网络信息资源的格式,它包括位置独立文件名称、作者、时间、描述、权限等。其中,统一资源名称URN)是一种为网络化信息实体分配的永久的、唯一的、且独立于物理位置的识别符,类似于出版界的ISBN;统一资源地址(URL)是网络信息资源的电子地址,URC是用来连接URL和URN的。
URC为网络信息资源的检索、定位提供基本信息,但并不是全面详细地描述信息资源,其描述相当粗略。最终目的是建立一个可向URC服务器提出检索要求,并且可获得相应的URN或班让或URC的分布式目录体系。
描述工具
XML是继HTML之后的又一种WEB标记语言,它为用户提供了灵活的标记扩展机制,使得不同内容的资源能以格式良好的自定义的标记元素来表现。元数据是描述信息资源或数据等对象的数据,主要用来识别、评价、追踪资源,以及方便对资源的管理、发现、查找和交换。随着计算机网络的发展,特别是Internet的普及,网络环境下信息的描述和处理成为一个重要的问题,相应地网络环境下的元数据问题也成为一个研究的热点。DTD和XML Schema是XML中常用的进行标记扩展的工具,RDF是专用的元数据描述工具,网络环境下的元数据描述通常就是借助这几个工具,利用XML的标记可扩展性来完成。在这三个工具中,DTD随着XML1.0最早被提出,伴随着XML应用的普及和人们对DTD认识的加深,又进一步提出了RDF和更有发展潜力的XML Schema。
DTD
DTD作为XML1.0规范的重要组成部分,它使用EBNF(ExtendedBackusNaur Form)语法完成XML文档结构的定义,即XML文档中标记的定义。一个XML文档只能对应一个DTD,一个DTD由一系列标记定义组成,包括元素定义(elementde claration)、属性定义(attribatede claration)、实体定义(entityde claration)、注释定义(notationde claration),是目前支持和应用最广泛的一种标记扩展工具。
我们可以看到DTD较好地完成了XML的标记扩展(即元数据描述)的任务,目前在Internet上已有大量使用DTD描述的元数据存在。但是DTD提出较早,人们在使用过程中也发现它有很多的不足之处。其主要特点如下:
①难以理解和书写。由于采用的是不同于XML的名为EBNF的语法,因为需要先了解EBNF,这对于人们的阅读和书写都带来了困难。
②难以使用程序进行元数据的自动处理。由于使用EBNF语法,这给DTD的自动处理也带来了麻烦。通常情况下,我们需要对DTD进行验证,这时使用DOM就不可能对使用EBNF语法书写的DTD进行分析,而必须使用专门的分析程序进行分析验证。
③DTD不支持数据类型。DTD只支持包括文档类型在内的少数几种数据类型,这意味着在实际使用过程中经常需要进行类型的转换才能达到预想的效果。
④DTD不支持Namespaces。由于必须把所有的元数据放在一个DTD文件中,如果需要对已有的DTD进行扩充则只能在原文件的基础上进行重写,这对于元数据的维护和扩充都十分不方便。
总之,DTD在简单的文档结构定义方面是较出色的,如果考虑到XML,是源自同样使用DTD的SGML的话,理解在XML1.0中选择了DTD就不难了。但如果我们考虑到XML的用途现在已不仅局限于文档处理,那么DTD的这些缺点就变得日趋严重。因此W3C(WorldWideWebConsortium)在看到了DTD的诸多问题之后,提出了一系列用来代替DTD的建议(Recommendation,即正式标准),包括RDF、XML-Data、DCD、XMLSchema等,其中以RDF和XMLSchema的影响较大。
RDF
RDF是W3C在1999年2月颁布的一个关于元数据的建议,它主要解决如何采用XML标准语法无二义性地描述资源对象的问题,使得所描述资源的元数据信息成为机器可理解的信息。RDF不仅可以象DTD一样允许设计者定义对象,并可以加入属性以对对象进行描述和定义,还可以作出有关对象的复杂的陈述,例如申明资源之间的关系等。
RDF的基本对象类型有:资源(Resources)、属性(Properties)、陈述(Statements)。每一个资源都有属性,每个资源通过唯一资源标识符URI来标识,它的属性由属性类型来作标识,每一个属性类型都有对应的属性值。属性类型表示出这些属性值与资源之间的关系。在RDF中,属性值要么是一些被认为具有原子性的事物(如字符串或数字符),要么是其他的资源,而这些资源本身又拥有自身的属性。所有指向同一资源的陈述的集合就是描述。
RDF建议克服了DTD的主要缺点,具有以下几个优点:
①易控制性。由于RDF使用简单的资源——属性——值三元组,所以很容易控制,即使是数量很大的时候。
②包容性。在RDF这种元数据模型中既可以定义自己的词汇集,也可以嵌入
DC元数据或别的类型的元数据。
③可交换性。由于XML是目前最具发展前景的标记语言,使用XML作为描述语法的RDF在未来也就可以成为一种可以携带多种元数据来往于网络上的框架工具。
④易综合性。在RDF中资源的属性是资源,属性值以及关于资源的陈述也可以是资源,都可以用RDF进行描述,这样可以很容易地将多个描述综合,以达到发现知识的目的。
总之,RDF是一个公认的极佳的强有力的元数据描述工具,这也部分地实现了它结束在元数据描述领域一切努力的雄心。但是,RDF的这种强有力也导致了它严重的缺陷,就是在一些日常应用中显得太复杂了,设计者不仅需要定义对象和属性,而且需要定义复杂的陈述。一个复杂的标准是很难在短时间内被广大网络应用开发人员接受、掌握和应用的,因此这个复杂的标准也就很难在网络上推广和被接受。就象复杂的SGML很少有人使用,而对其进行简化后形成的XML则迅速被接受一样,RDF在网络上尤其是Internet上是很难有市场的,而只会在一些特定的领域得到应用。Internet上的元数据描述需要的应该是一种简单而且可靠的解决方案。
XMLSchema
Schema是一种描述信息结构的模型,它是借用数据库中一种描述相关表格内容的机制,为一类文件建立一个模式。从这一层意义上讲,DTD实际上也是一种Schema,只不过这种Schema使用了古怪的EBNF语法,因而带来了诸多的不便。RDFSchema可能是由于RDF的原因,
W3C最终只推出了RDFSchema的草案,一直未能更进一步推出正式的建议(即标准)。XMLSchema是2001年5月由W3C推荐的用于描述XML文件结构的一个框架,它的语法与XML相同,但Schema文件所描述的是引用它的XML文件中的元素和属性的具体类型。
XMLSchema本身就是一个XML文件,但不同的是,Schema文件所描述的是引用它的XML文件中的元素和属性的具体类型。相比DTD,XMLSchema具有以下优点:
①一致性。Schema使得对XML的定义不必再利用一种特定的形式化的语言,而是直接借助XML自身的特性,利用XML的基本语法规则来定义XML文档的结构,使得XML达到了从内到外的完美统一,也为XML的进一步发展奠定了坚实的基础。
②扩展性。Schema对DTD进行了扩充,引入了数据类型、命名空间,从而使其具备较强的可扩展性。
③互换性。利用Schema,我们能够书写XML文档以及验证文档的合法性。另外,通过特定的映射机制,还可以将不同的Schema进行转换,以实现更高层次的数据交换。
④规范性。同DTD一样,XMLSchema也提供了一套完整的机制以约束XML文档中置标的使用,但相比之下,后者基于XML,更具有规范性。Schema利用元素的内容和属性来定义XML文档的整体结构,如哪些元素可以出现在文档中、元素间的关系是什么、每个元素有哪些内容和属性、以及元素出现的顺序和次数等等,都可一目了然。