IBM® InfoSphere™ Information Server 是一种数据集成软件平台,能够帮助企业从散布在各个系统中的复杂异构信息获得更多价值。InfoSphere Information Server提供了一个统一的平台, 使公司能够了解、清理、变换和交付值得信赖且上下文丰富的信息。
功能介绍
数据变换和移动是对源数据进行选择和转换并映射为目标系统所需格式的过程。该过程将处理数据,使它与业务、域和完整性规则保持一致,并与目标环境中的其他数据保持一致。
IBM® InfoSphere™ DataStage® 具有满足最苛刻的数据集成需求所需的功能性、灵活性和可伸缩性。
InfoSphere DataStage 具有以下功能:
变换可以采用以下形式:
IBM® InfoSphere™ DataStage® 支持对数据结构从简单到高度复杂的大量数据进行收集、变换和分发操作。InfoSphere DataStage 管理到达的数据以及定期或按调度接收的数据。InfoSphere DataStage 使公司能够通过对大量数据进行高性能处理,解决大规模的业务问题。
通过利用多处理器硬件平台的并行处理能力,InfoSphere DataStage 可以扩展为满足日益增长的数据量的需求、严格的实时需求和不断缩短的批处理时间窗口的需求。
InfoSphere DataStage 通常部署到企业应用程序、数据仓库以及数据集市之类的系统。InfoSphere DataStage 通过以下方式提供该功能:
支持操作、事务和分析目标之间的数据移动和变换
帮助公司确定如何很好地(批处理方式或者实时方式)集成数据以满足其业务需求
体系架构
InfoSphere DataStage 体系结构包含以下组件:
公共服务
InfoSphere DataStage 的多个离散服务提供了配置支持日益多变的用户环境和
分层体系结构的系统所需的灵活性。公共服务提供了体系结构各部分之间的灵活且可配置的相互连接:
元数据服务,例如影响分析和搜索
支持所有 InfoSphere DataStage 功能的执行服务
支持 InfoSphere DataStage 任务的开发和维护的设计服务
公共存储库
公共存储库包含支持 InfoSphere DataStage 所需的以下类型的元数据:
项目元数据
所有项目级别元数据组件(包括作业、表定义、内置阶段、可复用子组件和例程)都组织到文件夹中。
操作元数据
存储库中包含元数据,用于描述集成过程运行的操作历史数据、作业是成功还是失败、使用的参数以及这些事件的时间和日期。
设计元数据
存储库中包含 InfoSphere DataStage and QualityStage Designer 和 IBM InfoSphere Information Analyzer 创建的设计时元数据。
公共并行处理引擎
该引擎运行在各种设置中抽取、变换和装入数据的可执行作业。引擎使用并行性和流水线以快速处理大量工作。
公共连接器
连接器提供与大量外部资源的连接,以及从处理引擎对公共存储库的访问。InfoSphere Information Server 支持的所有数据源都可用作作业的输入或输出。
设计流程
中心 IBM® InfoSphere™ DataStage® 元素可以是项目、作业、阶段、链接、容器和表定义。
项目
InfoSphere DataStage 是您最初通过 IBM InfoSphere DataStage and QualityStage™ Administrator 创建的基于项目的开发环境。 在安装期间或当您启动InfoSphere DataStage 客户机工具(除管理器之外)时,您可以创建项目。 每个项目都包含 InfoSphere DataStage 组件(包括作业和阶段、表定义以及链接和容器)。作业和阶段
作业定义确定 IBM InfoSphere Information Server 如何执行其工作的步骤顺序。设计了作业后,将对作业进行编译,并在并行处理引擎上运行。引擎根据作业设计运行多种功能,例如连接、抽取、清理、变换和数据装入。
组成作业的各个步骤称为阶段。InfoSphere Information Server 提供了大量预构建阶段以用于执行最常见的数据集成任务,例如排序、合并、连接、过滤、变换、查找和聚集。 阶段包括功能强大的组件,以高效地访问用于读取和装入的关系数据库(包括并行关系数据库)。
阶段通常提供大多数企业数据集成应用程序所需的应用程序逻辑的 80% 到 90%。InfoSphere Information Server 还提供许多用于构建和集成定制阶段的阶段类型:
图 1 显示了由数据源、Transformer(转换)阶段和目标数据库组成的简单作业。阶段之间的链接表示数据流入阶段或从阶段流出。InfoSphere DataStage 提供各种不同的阶段。
表 1 描述一些具有代表性的示例。
每个阶段都具有告诉阶段如何执行或处理数据的属性。属性可能包括 Sequential File 阶段的文件名、要排序的列、要执行的变换和 DB2 阶段的数据库表名称。
InfoSphere DataStage 插件体系结构便于 InfoSphere 软件和供应商添加阶段,例如其他连接。
表定义
表定义是所处理数据的记录布局(或模式)和其他属性。表定义包含列名、数据类型、长度和其他列属性(包括键和 NULL 值)。可使用设计器客户机从数据库、COBOL 副本和其他源导入表定义。 然后,在链接中使用这些表定义以描述在阶段之间流动的数据。
链接和容器
在 InfoSphere DataStage 中,链接通过处理阶段将作业中描述数据流和数据定义的各个阶段从数据源连接到数据目标。通常,连接到阶段的输入链接将数据传输到阶段。输出链接传输经过阶段处理的数据。
容器中装有用户定义的阶段分组,或可复用的链接。容器使工作流程的共享更容易。有两种类型的容器: