数据归档
将不经常使用的数据移到一个单独的存储设备来进行长期保存的过程
数据归档(data archiving)是将不再经常使用的数据移到一个单独的存储设备来进行长期保存的过程。
定义
数据存档由旧的数据组成,但它是以后参考所必需且很重要的数据,其数据必须遵从规则来保存。数据存档具有索引和搜索功能,这样文件可以很容易地找到。
常用的存档介质
磁带存储介质
尽管现在许多存储管理员选择磁盘作为备份的介质,磁带存储介质仍然是使用最广泛的归档介质,这主要是因为它的容量成本比高。
光学介质存储
光学介质存储曾经在归档领域非常流行,因为它是最早提供一次写入,多次读取(WORM)数据重写保护的格式之一,也就是一旦这种介质被写入,它只能读取,无法重写。
磁盘存储
作为数据存档介质的选择,磁盘存储已经成为磁带的最大挑战者。它高达2TB容量的SATA驱动器的可用性以及它低于150美元的成本,显然使得它可以与磁带相竞争。
移动磁盘存储
数据存档技术的讨论不可能完全不提及可移动磁盘存储,它同时提供了磁带便携性与基于磁盘的归档的所有好处。
云存档
对于存储合规相关的数据而言,云技术显然非常合适。软件即服务(Saas)供应商也将其服务定义为一种更经济的方式,来将很少访问而要求很高安全性和访问控制的数据从主站点存储上分离出来。不过专家提醒,在没有仔细检查第三方服务的情况下,将合规数据通过云存档的方式存放可能会带来风险。
软件
什么是数据归档软件?它是一种允许你通过不同上下文进行搜索的软件,而不仅仅是通过服务器、应用程序或目录,文件名或者邮件。所有数据备份软件能做的是:在某一个时间点,从已知的服务器目录或者应用下抓取一个已知的文件或电子邮件。这是它唯一知道的情况。另一方面,归档软件需要能够在一段时间内----有可能长达七年,在多台服务器的多个目录和应用下抓取一系列的电子邮件或文件。这个领域的产品生产商主要有Autonomy Zantaz、Iron Mountain/Mimosa NearPoint以及Symantec公司。当然,在数据归档软件市场还有一些其他的合适的参与者。
数据备份和数据归档软件之间的不同,类似于恢复(备份软件做的工作)和检索(归档软件做的工作)之间的不同。
优化仓库设施
自从二十世纪五十年代后期计算机的首次使用以来,数据和信息的世界一直在不断的发展。随着时间的过去,很明显数据像许多实体一样都有生命周期,并且特定于生命周期中的每个时点、不同的一组特征、存储和访问需求。数据仓库的概念由业务需求演变而来,业务需要在不同数据源之间基于其生命周期内的不同点进行可靠、统一和集成的数据报告和分析。
就总的感觉而言,数据仓库只是组织以电子方式存储数据的一个资料库;重要的是必须意识到,任何仓库都会受限于在仓库中查找和访问项目以及将项目移入和移出仓库的流程。对于数据而言,数据仓库系统的主要组成部分包括有选择地存储数据的能力、检索和分析数据的能力(不管数据在哪里),以及管理数据字典的能力。为了有效操作数据仓库,组织需要了解数据仓库中存储的信息在数据生命周期内的不同点存在的固有差异。
随着数据变旧:
1. 访问数据的可能性会降低。简言之,数据变得越旧,它的使用频率就越低。
2. 数据结构会改变。随着软件逐渐发展得更加复杂以更有效率地处理更多数据,数据库体系架构必然也要改变。透过一系列利用越来越强大的硬件和软件技术的软件版本稳定发布可看到这一点。
3. 存储的数据量呈指数方式增长。受行业及政府法规的制约,数据必须存储和保持可访问数年之久。然后只有第一年的数据价值被有效利用,维护历史数据可能轻易地让数据存储激增到比当前生产数据库多20倍。
实施强大存档技术将为数据仓库提供最佳的和经济高效的存档基础设施:
1. 在多种格式之间保持数据完整性
2. 实现方便的按需访问存档数据
3. 提供通用连接,并与多种存档平台集成以确保卓越和经济高效的可扩展性和性能
4. 高效存储存档数据以节约存储容量,同时促进快速检索数据
帮助优化存储层
可以利用数据存档,以物理方式自动将数据仓库中具有较低业务价值的数据迁移到更适合、更经济高效的存储层。有许多标准可用来确定业务价值较低的数据:如 数据访问和性能需求、数据的使用年限、数据属于哪个地区或部门,以及分区 用途。当访问率低的数据发展为消耗数据仓库的最大一份,最合理的处理方式是以物理和逻辑方式从核心生产数据仓库中分离此数据。
一旦组织了解到数据管理的问题、相关经济情况、休眠数据的问题以及由于数据 增长引发的发展压力,必然结果是第一代数据仓库演变为数据仓库 2 .0,在此过程中将创建存档数据存储层。
数据仓库2 .0 的数据仓库环境中的存档存储层有许多不同特性,让它与数据仓库的其他部分区分开来。存档层中数据的访问概率低。存档环境中的数据通常不会更新。两个环境之间的数据库设计可能一样,也可能不同。
数据仓库存档的主要驱动因素通常是为了通过存储分层来降低基础设施成本、降低维护成本以及维护峰值数据仓库性能。只需将非活动数据从生产数据仓库迁移到 低成本的服务器和存储设备即可达成这些目标,但是您的业务需求有可能更加 复杂,例如如何访问和检索存档数据。在选择数据仓库存档解决方案时,您需要 考虑组织的预算限制及性能和访问需求。
您的 IT 组织访问存档数据的频率可能低于访问活动数据的频率。但是您可能仍需要直接从原始应用程序接口中定期检索组合的存档和当前数据。在这种情况下,数据应存档到查询性能相当高的数据仓库中,如位于成本较低的基础设施上的另一个 数据仓库实例。
另一方面,如果非活动数据非常旧且准备停止使用,则可能很少访问这些数据。 在这种情况下,通过报告或电子搜索工具进行访问就可以了,而不用通过应用程序 接口进行访问。此时可以忍受较慢的查询性能,可将数据存档为更适宜的压缩 格式,如压缩文件
解决方案
Informatica Data Archive 是一种高度可扩展的高性能数据存档软件。 它可帮助 IT 组织经济有效地管理各种企业业务应用程序中的数据增长,以提高其性能并降低 IT 成本。 借助 Informatica Data Archive,IT 团队可以安全地存档应用程序数据,提供对存档数据的无缝访问,并按需向业务部门提供存档数据。
Informatica Data Archive 主要功能之深入分析数据增长
Informatica Data Archive 主要功能之可靠的数据存档支持
Informatica Data Archive 主要功能之非结构化数据存档支持
Informatica Data Archive 主要功能之无缝访问数据存档
Informatica Data Archive 主要功能之所有数据存档的内在合规性
Informatica Data Archive 主要功能之全套应用程序加速器
Informatica Data Archive 主要功能之广泛的连接性和扩展性
实现存储层最优化
使用Informatica Data Archive,可以存档到另一个数据仓库实例,或存档到能极大节省存储空间的高度压缩文件格式。随着数据变旧和访问需求随时间变化,Informatica Data Archive自动将数据从一种存档格式转成另一种格式,并从一个位置迁移到另一个位置,启动多个经济高效的存储层。
Informatica Data Archive只允许存档事务数据和明细数据,这些数据是增长最快的。在维护数据完整性以及指向可能仍然存储在生产系统中的维表和聚合表的链接时执行此操作。最后 ,有些较旧的维记录也可能需要存档。Informatica Data Archive非常清楚应存档哪些类型的表来支持最优的存档策略。
Informatica Data Archive提供一个简单易用的图形用户界面,不需大量的配置、编写脚本或编制程序就可以轻松定义存档工作。利用提供多种存档格式和辅助功能选项的数据仓库存档解决方案,IT组织可以在存档大小、性能、应用程序可存取性以及成本之间确定一个适当的平衡点。
访问存档数据方式
不管是哪种存档格式,已存档的数据都需要能够从原始应用程序接口或通过标准接口轻松访问,以便进行报告或合规性审计。Informatica Data Archive支持使用任何报告或商业智能工具通过标准SQL/ODBC/DBC接口进行报告。该解决方案还让您选择从应用程序能够识别的数据发现门户访问数据,能够基于业务实体轻松搜索、浏览和查看已存档或已停止使用的数据,并且使用与原始应用程序接口有类似外观的接口。
自动索引存档数据
在将数据存档到另一个数据仓库实例时,Informatica Data Archive自动建立和维护在生产数据仓库实例中存在的索引。当存档到高度压缩存档文件时,数据会自动进行索引并以最优格式存储,以便于高效存储和可扩展检索。不需对存档数据进行性能调整和维护、减少IT职员的工作时间。
自动管理变化数据结构
随着生产数据仓库结构不断演变,Informatica Data Archive自动更新存档数据仓库的元数据和结构。当存档到高度压缩文件格式时,Informatica Data Archive维护多个版本的元数据,与生产数据仓库结构的定期快照相对应。这样就可以基于某个时间点的数据仓库结构对存档数据执行时间点查询。根据生产数据仓库的结构变化自动管理存档数据的元数据和结构,Informatica Data Archive减少了存档基础设施所需的维护工作。
通用连接
如果您的组织与许多其他企业类似,则您的数据仓库和应用程序可能在不同操作系统上的多个数据库系统中运行。为了支持您的企业需求,Informatica?Data?Archive允许您管理数据仓库和使用不同数据库的应用程序的存档过程,这些数据库包括:关系型(如Oracle、DB2、Sybase、SQL?Server、Teradata、Informix)、大型机(如 IDMS、VSAM 和 IMS)、文件以及开放系统(如 Windows、Linux 和 UNIX)或大型机系统(如 z/OS 和 AS/400)上的封装 CRM 和 ERP 应用程序。
存档解决方案
您的公司可能已经有用于电子邮件和文件的存档解决方案。此外,您的 IT 组织可能也有自己的企业内容管理 (ECM) 解决方案标准来管理您的非结构化数据。为了支持合规性需求并确保留存数据的不变和单实例存储,可以使用需要专属连接的存档 平台,如内容寻址存储 (CAS)。
为 了 让 您 的 组 织 快 速 而 精 确 地 响 应 审 计 请 求 以 及 经 济 高 效 地 长 期 留 存数据,Informatica Data Archive 允许您集中管理和发现所有类型(结构数据和非结构数据)的存档数据。这通过与现有存档、内容管理和存储解决方案(包括EMC Documentum、Symantec Enterprise Vault 和 Discovery Accelerator、CommVault Simpana 和 eDiscovery)集成来完成,以促进所有类型存档数据的集中管理和电子搜索。
Informatica Data Archive 使组织能够处理大型跨国企业通常拥有的海量数据。通过提供全面而强大的技术来轻松、安全地存档非活动数据,然后在需要时很容易访问数据,Informatica Data Archive 提供了全面的存档解决方案,可提供最优化、经济高效的数据仓库基础设施。
小结
Informatica Data Archive 使组织能够处理大型跨国企业通常拥有的海量数据。通过提供全面而强大的技术来轻松、安全地存档非活动数据,然后在需要时很容易访问 数据,Informatica Data Archive 提供了全面的存档解决方案,可提供最优化、经济高效的数据仓库基础设施。
当您的 IT 组织实施一个完整、可扩展和灵活的存档解决方案时,可以通过以下方面
来降低数据仓库及其他应用程序的总拥有成本:
· 降低存储、服务器、软件和维护成本
· 改善数据仓库性能
· 提高数据仓库可用性
· 支持遵守内部、行业及政府法令和法规
同时,Informatica 和您的 IT 组织可以结合数据的业务价值与最适合和经济高效的 IT
基础设施来管理它。
步骤
步骤1
收集数据归档服务的需求
在几乎每一个技术采购决策中,从需求收集入手将是非常有用的;云数据归档亦是如此。归档应用和服务可能还需要完成一些不同的工作,这取决于用户在监管、合规性以及业务等方面的要求,具体包括:
·保护数据免于篡改、修改或删除。
·制订索引数据以便于用户能够找到所需要的信息。
·限制只有那些被授权人员才能访问数据。
·保护信息的隐私性。
·提供灾难恢复功能。
·能够让某些用户快速访问数据。
用户的特定企业需求和要求将决定哪些功能是最重要的。但是因为并不是每一家云供应商能够提供不同于其他供应商的每一个功能和某些促进特定目标的实施选项,用户在开始决定实施某一技术之前明确应用需求是非常重要的。
如果您的组织已经有了一个内部的归档方法,一个有用的第一步就是评估您是如何使用该系统的——即,那个平台提供了哪些功能以及您现在是如何使用该平台的。虽然这些信息可能不会被正式记录成文,但您所使用当前产品的方法可能是制定需求基线的一个有效方法,因为您可以在评估云方法时进行模仿。
如果没有一个有待替换或补充的系统,那么了解一些事情将有助于明确需求。例如,在数据归档后管理数据的法规限制,归档数据的类型(即是无格式的还是结构化的?)。是电子邮件、文件还是两者的组合?谁将访问数据以及如何访问。寻找这些问题的答案可能需要花费一点功夫;从一开始就明确您的目标并让利益相关者参与输入:法务、合规性团队、内部审计人员、业务团队以及其他任何您在这个过程中指定的参与者。
步骤2
理解执行选项
一旦您明确了需求,那么下一步就是理解数据归档应用各种可用实施选项的不同之处了。一般来说,这些实施选项可分为两种:“纯粹云的”和混合的。
纯粹云模式是相当简单和容易理解的:用户使用云服务完成实际的归档工作。这类方法的的优势在于,它不需要内部基础设施或者建设、运行和维护的专业知识。没有条件配备专业人士的小型企业或者具有相对较狭窄归档应用范围的企业可能会发现这是实施基于云归档应用的最简单选择,同时也是快速启动并运行的最简单选择。
相比之下,一个混合的模式可充分利用内部资源来帮助完成这一工作。例如,一个混合的方法可能会把最近创建的数据在本地进行存储以便于实现轻松访问,并把那些创建时间较长或者较少被访问的数据存储至云中。企业用户必须在容量有限成本更高的在线存储与低成本但高延迟的远程云存储之间找到一个最优的平衡点。对于一家拥有具有专门归档技术专业人员的企业(例如那些目前已经在使用本地归档产品的企业)或者拥有大量会被用户频繁访问数据的企业来说,这种混合式的方法是比较适合的。这里,用户的特定需求和实际应用情况将决定可以使用哪一种模式。
从安全性的角度来看,还有一些优缺点应予以考虑。此外,用户现有的长处和短处、应用范围以及已开发应用程序的细微差别都将影响您的企业的最终选择。例如,如果您的企业正努力验证外部服务供应商并拥有着一套可靠的内部控制措施和完善的云安全技术专业知识,那么一个混合式的方法将是更为有益的。但是,如果您的企业有一套针对外部服务供应商技术与业务的完善审查程序,但是在内部控制上不怎么擅长或者缺乏内部专业知识,那么完全外包的方法是极具优势的。
步骤3
产品评价
正如您所想象的那样,最后一步就是选择特定的产品和服务组合以供您的企业使用。在过去的几年中,大批的供应商已推出了众多的云数据归档服务产品,所以目前与几年前所不同的是市场上有着许许多多的选择。也就是说,并不是每一家供应商都会提供每一项功能,支持所有的实施模式或者符合您特定需求的每一项安全性、隐私性和审核控制。例如,如果相关数据是具有较高敏感性的,那么您的企业可能希望找到一些专门的数据保护功能,例如加密功能和相关的密钥管理控件。或者,可能希望使用一些评估身份验证功能——如多元身份验证的监控和报告功能;网络保护机制——如访问控制与监控和基于托管的控件。考虑流程控制,如谁将访问您的数据以及如何进行审批等。
如同对其他任何云服务进行评估一样,应当由消费者承担起了解供应商所提供产品与服务的责任,这样他们才能够在与供应商的谈判中掌握主动,才能确保供应商所提供的功能和控件能够满足他们的需求,才能制定出合适的合同要求和SLA,才能监督供应商确保达到他们所需的运行性能。
当您实施云数据归档服务时,有一点应予以特别关注,即潜在的受制于供应商。需要对如下情形保持警觉:需求变更、供应商本身的变化(即兼并和收购)以及有时供应商未能按预期提供所承诺的运行性能。因此,制定预案以保留把数据迁移至另一家供应商的灵活性,这样可有助于企业做出决策。
参考资料
Data Archive.Informatica中国官网.2013\u5e741\u6708
Informatica Data Archive.Informatica中国官网.2013-01-01
最新修订时间:2024-08-28 03:31
目录
概述
定义
常用的存档介质
参考资料