实验数据库
计算机学术语
数据库是指长期存储在计算机内有组织的、可共享的数据集合。实验数据库可以从两个方面来解释:1、实验数据库是指用于存储实验数据的数据库,例如医学数据、化学数据;2、实验数据库是指一些用于做实验的数据库,如在计算机中,经常使用一些公开数据来测试算法性能。
数据库简介
实验数据库是指用于存储实验数据的数据库或一些用于做实验的数据库。数据库建立主要是为了数据的集成和共享,同时也便于对数据存储和管理。共享是指数据库中的一块块数据可为多个不同的用户所共享,即多个不同的用户,使用多种不同的语言,为了不同的应用目的,而同时存取数据库,甚至同时存取同一块数据。
数据库优点
数据文件管理方式相比较,数据库管理有许多优越性。这些优越性来自数据库特有的数据结构和数据存储方式。归纳起来,数据库有如下优点。
(1)查询迅速、准确,且有多种表达与传输方式。以一个大型仓库管理为例:用手工操作,如要查找“某地区生产的商品的名称、规格、数量”,就可能要先翻阅账本,弄清分类目录和分类形式,然后按地区或商品分类、商品名称找到其他附带的属性,再抄写下来。如果要查找的内容较多,则查找与抄写既费时又费力。数据库系统能根据给定的条件自动地按一定途径以毫秒级速度进行扫描查找,可以在瞬间将符合要求的数据一一用表格或其他方式显示出来,还可以自动地打印出来或通过网络传输到指定地址,而且不会出现错误。
(2)数据结构化且统一管理。在数据库中,数据按逻辑结构组织起来,而按物理结构存放在磁介质中,并且由数据库管理系统统一管理,既考虑了数据本身的特点,也考虑了数据之间以及文件之间的联系,数据的查询、检索和处理很方便。在传统的文件系统中,尽管记录内部存在某种结构,但记录之间没有联系,数据的查询、检索和处理十分烦琐、困难。实现数据的整体结构化管理,是数据库的主要特征之一,也是数据库系统与文件系统的本质区别。
(3)数据冗余度小。在文件系统中,为了满足一个应用程序对数据的需要,常常在不同地方重复存放同一个或同一组数据。这样一来,如果一个多处存放的数据出现错误,就必须同时修改几个地方,否则将造成数据之间的不一致性。在数据库系统中,数据不仅可以面向某个局部应用而且可以面向整体应用,从而大大减少数据冗余,节约了存储空间,有效地避免了数据之间的不一致性。
(4)具有较高的数据独立性。数据独立性是指用户应用程序与存储在数据库中数据的相互独立性。当人们利用应用程序调用数据库进行数据处理时,只涉及数据的逻辑结构,而不涉及其存储方式和物理结构。而当数据的物理存储方式和结构改变时,数据库管理系统将自动处理这种改变,而应用程序不必改变。近期甚至发展到数据库的逻辑结构改变了,用户程序也可以不变。用户程序不随数据逻辑结构改变而改变的特性,可称为数据的“逻辑独立性”。数据独立性(物理的和逻辑的)是数据库的重要特征和优点,它有利于在数据库结构修改时保持应用程序的稳定性,可以大大减少应用程序员的软件开发工作量。
(5)数据的共享性好。存放于数据库中的数据的共享性包括系统内部共享性和外部共享性两种,这是数据库管理方式区别于手工管理和文件管理方式的最本质的特征和优点。
系统内部的共享性是指同一个(组)数据在一次处理中可以多次被调用的性能,而系统外部的共享性是指同一个(组)数据可以同时供多个用户调用。这两种共享性的原理是一致的,它使得多种作业、多种语言、多种用户可以相互覆盖地使用数据集合。
内部共享性有效地降低了数据的冗余度,系统很容易进行维护和扩充,而且能够使应用程序的编写更加方便。系统外部共享性能够促进并实现信息社会化服务,可以充分发挥信息的价值。举一个简单的事例,在没有使用数据库技术时,火车票和飞机票发售的数据很难共享,常常出现有的售票处某线路车票或机票已售完,而另一售票处还有很多同一线路的车票或机票无人购买的情况。为了避免上述现象的出现,火车客运站和航空公司往往采取让不同售票处出售不同路线车票和机票的做法,结果给乘客带来许多不便。如今采用数据库来管理车票和机票发售工作,各个售票处可以互通有无,乘客不但可以在一个城市的任何售票处方便地查询并购买当地出发的某路线车票和机票,而且随着网络技术的发展,人们甚至可以在全国任一城市查询并购买异地出发的任一路线车票和机票。
数据库构建
工作流程
我们在原有的药理数据库基础上,针对繁杂数据,发现规律,设立字段,建立表单,确立 ER 关系结构图,建立数据库表结构,搭建远程加工平台,研制数据拆分与导入工具,最终实现共建共享。目前,结构型数据库已经形成了非常严谨的工作流程,无论是对于相关文献的筛选还是数据有效信息的抽取与加工,还是数据的审校与拆分导入,都进行了周密的考虑,这为保障数据库构建质量奠定了良好的基础。
中药药理实验数据库表结构的建立
数据库的加工实际上就是对数据库表中每一个字段的加工,每个字段的设立以及各个字段构成的单表更是建库的基础,而各个加工表单相互关联的关系更是最终共享展示的关键。因此,充分理解文献思路,发现文献共性,建立文献包含信息之间的关系尤为重要。 中药药理实验相关数据包含了文献基本信息(包括题名、刊名、作者、杂志、卷、期、页等)、药物信息(包括单味药、 化学成分、 方剂)、 研究对象信息(包括疾病、 证候、症状、病理生理等)、动物信息(包括动物种属、品系等)和实验检测信息(包括效应部位、检测指标等)等。这些相关字段的设置都需要对文献进行细致分析,并对其进行归类,形成相关信息组合的表单,而表结构的确立也要充分考虑到文献的整体性联系,最大程度体现文献相关信息分布的特点。基于表结构的中药药理实验数据库远程加工平台。新版数据库加工平台在原有数据库加工平台基础上,更加注重加工与审校人员操作的快速便捷,表单提交方便、明了,文献筛选查询以及原文图片上传删除等功能都更进一步。
辅助词表的建设
每个数据库的加工就是对数据库表中每一个字段的加工,每一个字段的加工都是一种小型的数据汇交,只要涉及到数据的汇交,就不可避免地要制定数据汇交的标准,因为它关系到
数据库的建库质量,关系到数据库查询的准确性、完美性及可信性。目前,中药药理实验数据库辅助词表挂接已经完成。此表是语言系统与未正式收录词联合查询在词雀系统中的实现,内容是动态发展的。尽管如此,目前现有的辅助选词量仍然无法满足对海量信息进行加工时的选取需要,仍然有大量的词汇需要进行筛选添加。此外,在使用词雀系统增加辅助选词的过程中,还应注意尽可能多的收录一些入口词,以便于加工人员查找使用。
数据分析
运用数理统计方法,对调查所获的数据资料进行综合处理,以揭示事物内在数量规律的过程。在舆论调查中,描述分析和统计推论是构成数据分析方法的两大基本支柱。描述分析是对已经初步整理的数据资料加工概括,并用统计量对这些资料进行描述的一种方法。它的任务是简缩数据,描述数据,其内容包括:编制次数分配表和绘制次数分配曲线,用以表现数据资料的概要;计算各种平均数(众数、中位数、算术平均数等),用以测定和表现数据资料分布的集中趋势;计算离差数(全距、平均差、均方差等),用以测定和表现数据资料的离中趋势;测定次数分配不对称或偏斜程度,即对一个次数分配中所包括的各个观察值的排布,测定其是否对称于中位值;测定次数分配曲线图形的顶峰尖峭或平坦的程度等等。统计推论是在随机抽样的基础上,根据样本资料对总体进行推论的一种方法。它的目的是用一个观察数值去推断一个未知的理论数值;用一个样本数值去推断一个理论统计量(参数)。因此,如何抽取样本,样本的可靠程度,分析可靠程度的保证及进行假设检验等,都是统计推论需要研究的重要问题。统计推论的主要内容包括:样本分配、参数估计、统计假设检验、方差分析及非参数统计等。
概念模型
概念模型是对客观事物及其联系的抽象,用于信息世界的建模,它强调其语义表达能力,以及能够较方便、直接地表达应用中各种语义知识。这类模型概念简单、清晰、易于被用户理解,是用户和数据库设计人员之间进行交流的语言。这种信息结构并不依赖于具体的计算机系统,不是某一个 DBMS 支持的数据模型,而是概念级的模型,然后再把概念模型转换为计算机上某一 DBMS 支持的数据模型。概念模型的概念主要如下:
实体
客观上存在且可区分的事物称为实体。实体可以是人,也可以是物;可以指实际的对象,也可以指某些概念;可以指事物与事物间的联系。如学生是一个实体。
属性
实体所具有的某一方面的特性。一个实体可以由若干个属性来刻画。如公司员工实体有员工编号、姓名、年龄、性别等属性。再如学生实体有学号、姓名和性别等属性。
关键字
实体的某一属性或属性组合,其取用的值能惟一标识出某一实体,称为关键字,也称码。如学号是学生实体集的关键字,由于姓名有相同的可能,故不应作为关键字。
域是某(些)属性的取值范围。如姓名的域为字符串集合,性别的域为男、女等。
实体型
具有相同属性的实体必须具有共同的特性。用实体名及其属性名集合来抽象和刻画同类实体,称为实体型。例如,学生(学号,姓名,性别,班号)就是一个实体型。
实体集
同型实体的集合称为实体集。如全体学生就是一个实体集。
联系
现实世界的事物之间总是存在某种联系,这种联系必然要在信息世界中加以反映。一般存在两类联系:一是实体内部的联系,如组成实体的属性之间的联系;二是实体之间的联系。
参考资料
最新修订时间:2022-08-25 14:51
目录
概述
数据库简介
数据库优点
参考资料