dSPACE(数字空间)系统是由美国麻省理工学院图书馆(MIT Libraries)和美国
惠普公司实验室(Hewlett-Packard Labs)合作,经过两年多的努力,于2002年10月开始投入使用。该系统是以内容管理发布为设计目标,遵循
BSD协议的
开放源代码数字存储系统。系统可以收 集、存储、索引、保存和重新发布任何数字格式、
层次结构的永久标识符研究数据。
系统简介
DSpace是一个专门的数字资产(Digital assets)管理系统,它管理和发布由数字文件或“位流”(bitstreams)组成的数字条目(item),并且允许创建、索引和搜索相关的元数据以便定位和存取该条目。它包括的基本概念主要有:
数字空间群(DSpace communite):数字空间是针对数字材料的长期保存而设计的。数字材料来源于不同的组群,比如大学的院系、实验室,图书馆的采访、编目等部门,这些依据不同的授权完成不同任务的组群称作数字空间群。
(1)电子用户(e-people):DSpace的用户可能是教师、学生,也可能只是一些计算机系统,因此DSpace把用户称作“E人”。
(2)
工作流(workflow):DSpace的运作方式,数字材料和元数据在被接受之前经过事先设定的流转审核的步骤;
(3)信息订阅(subscription):用户可以向DSpace发送订阅请求,以便在新材料到来时收到带有内容提要的Email提示。
功能特点
其特点可以归结为三个要点:基于存储的资产管理;以事件触发构建的工作流机制;以分级权限控制的管理体系;
基于存储的资产管理
DSpace首先是基于存储管理的,它提供对所有数字格式的支持,比如文档、书籍、数据库、
计算机程序、虚拟和仿真模型、多媒体出版物和学习对象等等。另一方面,对于印刷型文献,DSpace也可以通过元数据进行
存储管理,利用URL和馆藏地点来区分文献服务的方式。
Dspace支持两种存储模式:“位”存储(bit preservation)和功能存储(functional preservation)。
位存储,保证提交的数字材料没有任何改变,即每一位(bit)均保持原样,在多年以后仍然可以将文件复原出来。
功能存储,是随着时间的变化改变存储内容的格式,以保证当旧有格式淘汰后,数字材料还能够被随时调用(可浏览、可运行、可检索……)。
显然,功能存储是理想的存储状态,但需要更多的经费支持。
Dspace对于文件格式定义了三个层次:支持的格式、知道的格式和不支持的格式。
有些文件格式很容易向通用的格式转化(像TIFF图像或XML文档),而有些格式会由于专利等原因很难实现功能存储。
对于上述的三个层次,DSpace建议在经费允许的情况下,同时进行“位”和“功能”存储,以便一旦时间证明哪种格式可以更有效地呈现素材时,“数字考古学家”能够获得最初的原料。
工作机制
DSpace的运作是以事件触发的机制来实现的。谁可以存储材料,怎样存储,谁可以利用存储的材料,谁负责管理?这一系列问题在可定制的管理策略下完全由事件触发来解决。
在DSpace中有很多的数字空间群,对于内部工作部门(数字空间群),通常,所有工作人员都设定为“提交者”(submitters),而其中的一部分人又被设定为“审核者”(reviewers),负责人则设定为终审者(coordinator)。每个数字空间群中都存在着“提交者”、“审核者” 等等的角色。这些角色可能指派给很多人,组成角色群,或称“电子工作组(e-person group)”。
任何一个对系统的请求,从检索、浏览到材料提交,都会触发不同的工作流,并进入相应的“任务池(Task pool)”,经过审核、元数据编辑和终审等等环节最终进入DSpace。而该工作流涉及的每一个步骤的电子工作组,都会因为自己的角色而获得通知,使相应的电子用户可以进入个人数字空间(Individual DSpace)来完成任务。
典型的事件如新书采购:书商(用户)向图书馆(DSpace)提交书目,新书通告被放入采访部(acquisition数字空间群)的“任务池”,处于采访数字空间群的专业人员可以从“任务池”中获取书目进行审核,(相同的书目将被移除,以免重复相同的工作流。)如果审核通过,系统产生订购单;如果是即时生效的数字资源,这一事件将触发DSpace的元数据编辑工作流;如果审核不通过,用户将得到附有审核人员意见的通知书。
对于外部数字空间群,匿名用户可以通过WEB访问进行检索和浏览,授权用户则可以将自己的材料提交DSpace,触发馆藏接收工作流。比如教师的课件、博士的学位论文,这些数字文献本来就是数字图书馆的馆藏来源,通过DSpace的工作流,经过专业馆员的审核和元数据编辑,很方便地进入馆藏。
另外,作为数字图书馆功能的拓展,用户还可以在授权的个人数字空间中临时或永久存放数字材料。
管理体系
数字空间群拥有不同的电子工作组,不同的组拥有不同的权限。
某些DSpace的功能,比如检索、浏览等可以是匿名的,但是,如提交、订阅以及管理等功能则需要经过
用户认证。
DSpace提倡“电子用户”(e-people)的概念,每个电子用户需要向DSpace提供如下信息:
E-mail 地址
姓名
认证信息,比如密码
订阅专题列表
DSpace有一个可变的认证系统,它采用的是“缺省否定(default deny)”的策略,比如,一个电子用户对某个元数据具有“读”权限,但他未必就拥有对此元数据指向的材料的“读”权限。
优缺点
DSpace系统是一个开放源代码的软件平台,可以从其网站上免费下载,可以自由使用、复制和修改。其所使用的
第三方软件也是开放的源代码,如PostgreSQL、JDK、Apache等。DSpace主要代码均为Java编写,可以运行于所有UNIX系统。
修改和扩展功能容易
DSpace提供了几个支持API接口的内置程序,可以通过它简化和加速数字馆藏的开发,在一定程度上为系统提供了扩展和修改的能力。另外,由于Java
虚拟机是由HTML和部分嵌入的Java代码组成的,基本上不需要触动其核心的代码就可以方便地修改它。
支持文件类型
DSpace可以接受的电子化材料包括:
论文与预印稿(Articles and preprints)
技术报告(Technical reports)
雇用证书(Working papers)
会议论文(Conference papers)
电子论题(E-theses)
数据集,包括统计数据、地理信息数据、数学等等(Datasets: statistical, geospatial, matlab, etc.)
图像,包括可视化图像、科学图表等(Images: visual, scientific, etc.)
声频文件(Audio files)
视频文件(Video files)
学习对象(Learning objects)
重定格式后的数字图书馆馆藏(Reformatted digital library collections)
DSpace可以存储、管理和发布任何已经和未经出版的本地馆藏,保证印刷和数字文献的统一索引和定位。
检索功能强大
DSpace的目标就是提供尽量多的检索特色。DSpace的索引和检索模型有一个API接口,允许非常方便地索引新内容,重建索引以及在指定范围内检索。这个API来自免费的Java搜索引擎——Lucene 。Lucene支持字段检索、停词(stop words)、词干(stemming)以及不重建索引增加新的索引内容的能力。
界面简洁友好
所有的DSpace用户界面都是基于WEB的,并且包含一系列的界面:用户提交界面、搜索界面、系统管理界面以及提交审核的各种界面。利用Java
虚拟机和Java服务器技术,DSpace允许用户通过浏览器访问系统,这使DSpace的使用和管理都十分方便。
建立DSpace联盟
在
虚拟存储技术的支持下,利用DSpace联盟,还可以实现虚拟馆藏:联盟的馆藏对于用户完全透明,用户通过WEB界面访问元数据,并发送资源请求。 DSpace可以根据标准协议进入不同院校的系统,如康奈尔大学的arXiv ,通过本地的
存储过程自动获取有关的文档备份。用户只需点击锁定(located)的条目,它就会被下载到WEB浏览器中。如果是一种WEB支持(Web -native)的格式,它就会立刻显示在浏览器中;否则它就被存储在用户的计算机上,象Excel数据表或者CAD文件,需要以特定的程序来打开它。
DSpace的不足
当然DSpace也存在不足之处,当要对DSpace 系统扩展功能进行比较复杂的修改时,需要修改系统的核心组件,这给系统的
数据库结构和兼容方面带来影响;另外,DSpace系统不支持原始内容的创建,但可以以工作流方式捕获任何支持主动文档开放协议(Open Archives Initiative)的数字资源和元数据。
应用范例
在DSpace的众多用户中,
剑桥大学的机构仓储较为成功。 开放存取库名录(OpenDOAR)中收录的机构库,只有有10%记录条数超过1万条,而剑桥大学收录的记录超过19万条。
剑桥大学机构仓储收录了大量由剑桥大学成员创建或拥有的研究成果及其他学术内容,如研究文章、报告、发表论文(预印本或后印本)、会议文章、技术报告、数据集、
多媒体文件、学习物品、管理资料以及与任何特定主题有关的任何其他资料。具体的使用案例有:
研究论文──高能物理
一个研究小组希望联机维护其预印本,决定在剑桥机构库中保存一个本地副本以增加保险系数。
视频──社会人类学
一位人类学教授拍摄了佛教圣地等大量素材,同时将研究过程中与当地人的交流以及研究者之间的谈话也作了存档。他希望在自己的学生之外的大众中共享这些资料,于是提交到剑桥仓储库。
图书──哲学
一位哲学教授希望与世界共享其思想。他出版过图书,但现在已经绝版了。他和出版商解决了版权,在剑桥仓储库上存放书籍并链接到个人网页,并附上了一些其他的内容,例如电台广播及文字稿。
对这位教授思想感兴趣的读者,能够获得他更多的
学位论文──材料科学
一位博士生希望发布其学位论文以在全球研究界获得关注。导师指点她到提供免费发布服务的机构库并与出版社协商解决版权问题。获得商业出版社的同意后,将自己的学位论文加入数字仓储的出版物列表并附上了永久URL,现在搜索引擎中查询她的姓名或标题关键词时,她的学位论文在检索结果中十分靠前。
支持数据──肿瘤
某系许多研究者希望共享以前发表的研究文章中支持发现的数据,出版社对此并不关心,而且数据占据了本地服务器的大量存储空间,剑桥仓储库支持数据集合,使得该系释放了本地服务器存储空间
竞争对手
dSPACE在目前的数字仓储软件中占据了三分之一以上的份额,紧随其后的Eprints占据约六分之一份额,还有Digital Commons、OPUS、Greenstone,以及ContentDM(由
OCLC开发)、Fedora、DigiTool等等,也有用户使用
WordPress来构建数字仓储。