数据治理
组织中涉及数据使用的一整套管理行为
数据治理(Data Governance)是组织中涉及数据使用的一整套管理行为。由企业数据治理部门发起并推行,关于如何制定和实施针对整个企业内部数据的商业应用和技术管理的一系列政策和流程。
基本概念
核心原则
数据治理的核心原则包括以下几个方面:
(1) 数据质量原则:数据治理的核心之一是确保数据的质量,这涉及到数据的准确性、完整性、一致性、及时性和可靠性等方面。高质量的数据可以帮助企业做出更好的决策。
(2) 数据安全原则:数据安全是数据治理的重要组成部分,确保数据在收集、存储、传输和使用过程中的安全性和隐私保护。
(3)数据分类与标准化:通过数据分类和标准化,可以更好地管理和利用数据资源,提高数据治理的效率[2]。
(4)数据生命周期管理:数据治理需要涵盖数据的整个生命周期,从创建、存储、使用到销毁,确保每个阶段的数据都得到妥善管理。
(5)数据价值挖掘与创新:数据治理不仅要保证数据的质量和安全,还要通过数据分析和挖掘,实现数据的价值最大化和创新应用。
(6)职责与策略:明确数据治理的职责分配和治理策略,确保每个参与方都清楚自己的角色和责任。
(7)合规性:遵守相关的法律法规和行业标准,确保数据治理活动符合法律要求,并能应对不断变化的合规需求。
(8)透明度与责任:建立透明的数据治理流程,明确各方的责任,确保数据治理过程中的决策和操作可以追溯和审计。
这些原则共同构成了一个全面的数据治理体系,旨在通过有效的管理和保护措施,提升数据的价值和安全性,支持企业的战略决策和业务发展。
与数据管理的区别
数据管理涵盖了从数据采集到处理、保护、存储和利用的整个数据生命周期。数据治理是数据管理中的一个组成部分,专注于制定策略和规则,以确保数据的质量、安全性和合规性。而数据管理不仅包括这些治理活动,还涉及实际执行和操作层面的任务,如数据处理、数据存储、数据安全、数据架构设计等。
以下是两者之间协同工作的几个方面:
(1)策略与执行:数据治理负责制定策略,例如数据访问权限的规则,而数据管理负责执行这些策略,确保技术和操作层面符合治理要求。
(2)数据整合与架构:数据治理团队可能会识别数据集之间的共性和差异,而数据管理团队负责设计和实施数据模型和架构,以实现数据的整合和互通。
(3)数据安全与合规:治理团队定义数据安全和合规的标准,而管理团队实施具体的安全措施和技术解决方案,确保数据符合这些标准。
(4)数据质量:数据治理设定数据质量的标准和指标,数据管理则通过数据清洗、数据验证等技术手段来维护和提升数据质量。
因此,数据管理的广泛性体现在其对数据生命周期各个阶段的全面覆盖,而数据治理则为这些活动提供了必要的框架和指导方针。两者需要紧密合作,以确保组织的数据资产能够有效地支持业务目标。
关键术语及定义
1)元数据
元数据(Metadata)是指描述数据的数据,即关于数据的信息。它记录了数据的基本方面,如数据的来源、格式、质量、结构、属性和关系等,以便帮助用户发现、识别、理解、组织、检索和使用数据。元数据可以被看作是一种电子式目录,用于描述数据集或数据库的内容、组织形式和存取方式。
元数据在数据治理中扮演着至关重要的角色,是数据治理的基础和支撑,也是实现数据治理目标的重要手段之一。元数据确保数据定义和关系在整个组织中一致应用,消除歧义并促进统一的数据解释方法。通过对元数据的管理,可以确保数据的准确性、完整性和一致性,从而提高数据质量。
2)元数据管理
企业级数据管理软件提供商Informatica公司认为:数据治理成功的关键在于元数据管理,即赋予数据上下文和含义的参考框架。
元数据管理是指对元数据进行统一管理、维护和利用的过程,旨在确保数据的可理解性、一致性、质量和可管理性。元数据管理涉及多个方面,包括业务元数据、技术元数据和操作元数据的盘点、集成和管理。元数据管理的主要目的是支持基于元数据的相关应用,从而满足用户的业务需求,为企业业务系统和数据分析的开发、维护等过程提供支持。
元数据管理的实践包括确定关键元数据、制定全面的元数据策略、采用科学有效的机制对元数据进行管理,并面向开发人员和业务用户提供元数据服务。此外,元数据管理还涉及到元数据的创建、存储、整合和控制等一整套流程。
国际标准发展历程
数据治理的国际标准发展历程可以追溯到20世纪80年代,当时信息技术革命在全球范围内蓬勃兴起,企业开始意识到数据在决策中的重要作用。具体来说,数据治理的概念最早出现在1988年,由麻省理工学院启动的全面数据质量管理计划(TDQM)形成了数据治理的雏形。
随后,国际标准化组织(ISO)在2008年推出了第一个信息技术治理的国际标准——ISO/IEC 38500,该标准为数据治理提供了基础框架和方法论。ISO/IEC 38500标准强调了数据治理的基本原则,包括职责、策略、采购、绩效、符合性和人员行为,并提出了数据治理的核心任务。
在2015年巴西会议上,ISO/IEC 38505标准被正式提出并分为两个部分:ISO/IEC 38505-1《基于ISO/IEC 38500的数据治理》和ISO/IEC 38505-2《数据治理对数据管理的影响》。ISO/IEC 38505-1标准由中国专家参与编制,是全球首个针对企业数据治理的管理体系认证标准,代表了数据治理的国际通行要求。该标准详细描述了数据治理的实施过程,包括规划、实施、评估及改进等内容。
此外,国际信息系统审计和控制协会(ISACA)也提出了面向过程的信息系统审计和评价的最佳实践COBIT 5.0,提出了基于原则的自上而下的企业IT治理与管理框架。这些标准和框架为全球范围内的数据治理提供了重要的理论基础和实践指导。
总结来看,数据治理的国际标准发展历程经历了从早期探索到概念形成与理论研究,再到广泛接受与应用的过程。这一过程不仅涉及技术标准的制定,还包括政策框架的建立和实践经验的积累,为全球数据治理的发展奠定了坚实的基础。
治理类型
数据治理的类型可以从多个角度进行分类,根据不同的研究和文献,可以总结出以下几种分类方式:
(1)结构化数据治理与非结构化数据治理:这种分类侧重于数据的格式和存储方式。结构化数据治理主要针对关系型数据库中的数据,如SQL Server、Oracle等,而非结构化数据治理则涉及邮件、图片、音视频等非结构化的数据。
(2)集中型、分散型和混合型:这种分类侧重于组织架构和决策权的分布。集中型治理将所有与数据相关的决策和预算集中在一个地方,便于管理;分散型治理则因每个独立的数据功能而导致流程碎片化;混合型治理结合了集中型和分散型的特点,既有专职的部门管理,又有下属各部门的执行工作。
(3)主动型和响应型:这种分类侧重于治理方式的预防性和应急性。主动型治理在数据出现问题前进行预防和修复,效率高、成本低;响应型治理则是在数据出现问题后立即进行修复,虽然效率相对较低,但对突发事件的应急处理能力较强。
(4)自下而上、自上而下和大规划模式:这种分类侧重于治理的推进方式。自下而上模式以数据架构为重,层层向上治理数据;自上而下模式以明确的数据应用为重,按需组织推进数据治理工作;大规划模式从数据应用规划入手,基于数据资产的未来开展数据治理。
(5)提高主数据质量、实现企业范围的数据管理和通过协调网络实现数据货币化:这种分类侧重于治理的目标和机制。提高主数据质量关注客户、产品和财务等领域的母数据质量;实现企业范围的数据管理强调企业级的数据管理和协调;通过协调网络实现数据货币化则侧重于通过网络实现数据的价值化。
这些分类方法反映了数据治理在不同场景下的多样性和复杂性,企业可以根据自身的需求和特点选择适合的治理类型。
组成部分
数据治理的组成部分可以从多个方面进行理解,包括政策、流程、角色和责任、技术工具和数据架构等。具体来说,数据治理的主要组成部分包括以下几个方面:
(1)数据策略和原则:制定组织的数据治理目标、策略和原则,为数据治理提供指导和框架。
(2)数据治理组织结构:建立相关的组织结构,如数据治理委员会、数据管理团队和数据负责人等,明确各个角色的职责和权力。
(3)制度章程:包括数据治理的政策、标准和流程管理。
(4)流程管理:涉及数据的获取、存储、整合、分析、应用、呈现、归档和销毁等各个阶段。
(5)技术引用与成熟度模型:使用技术工具和数据架构来支持数据治理。
(6)数据质量管理:确保数据的质量、完整性和安全性。
(7)数据隐私与安全:保护数据的隐私和安全,防止数据泄露和其他安全风险。
(8)监督和执行机制:确保数据治理策略和流程的有效实施,并进行监督和考核。
(9)元数据管理:创建、维护和控制元数据的过程,以确保在整个企业范围内对数据的一致性和清晰理解。
这些组成部分共同构成了一个全面的数据治理体系,旨在确保数据在其整个生命周期中都能维持高质量、合法性、安全性和可用性。
治理模型
ITSS WG1 治理模型
根据 ITSS WG1 发布的白皮书,数据治理模型包括三个主要框架:范围、促成因素和执行及评估。这些框架共同帮助理解数据治理的内部逻辑关系。
(1)范围(Scope):展示数据治理的关注内容,分为四个层次。治理要素包括数据治理委员会、政策和标准;价值创造层展示数据驱动的业务决策、创新和竞争优势;价值保证层描述数据质量管理、数据安全和隐私保护;基础数据服务层涵盖数据存储、数据集成和数据架构。
(2)促成因素(Enablers):展示确保数据治理成功的关键因素。文化和意识通过培训和意识提升活动确保组织成员理解并重视数据治理;技术和工具包括数据管理平台、数据质量工具和安全解决方案;政策和标准涉及数据隐私政策、数据分类标准和数据共享协议;人员和角色明确数据治理相关的职责分工,如数据治理委员会、数据管理员和数据所有者。
(3)执行及评估(Execution and Evaluation):展示实现和评估数据治理的方法。实施计划包括项目计划、时间表和资源分配;监控和报告通过关键绩效指标(KPI)、数据治理报告和审计持续监控数据治理的执行情况;评估和改进通过定期评估、反馈机制和改进计划评估数据治理的效果并持续改进。
通过范围、促成因素和执行及评估这三个框架,数据治理模型展示了数据治理的内部逻辑关系。范围框架明确了数据治理的关注点,促成因素框架展示了推动数据治理的关键因素,执行及评估框架则提供了实现和评估数据治理的方法。这些框架共同帮助我们理解和实施有效的数据治理。
HAO治理模型
该模型由中国信息通信研究院提出,旨在支持人类智能(HI)、人工智能(AI)和组织智能(OI)的协同,以提高数据治理的效果。它特别适用于公安等特定领域,通过结合不同类型的智能来实现更高效的数据治理。模型分为三个核心维度:
(1)高效(High Efficiency):确保数据在采集、存储、处理和使用过程中的高效管理,包括数据质量和数据共享。
(2)安全(Assurance):保障数据安全和隐私保护,防止数据泄露和滥用,同时进行风险管理。
(3)优化(Optimization):建立和优化数据治理架构,提升数据治理能力,并通过数据分析和应用实现数据价值。
具体实施步骤有以下几点:
(1)现状评估:评估当前数据治理状况。
(2)目标设定:设定数据治理目标和指标。
(3)方案设计:设计治理方案,包括架构、流程、技术和工具。
(4)实施与监控:执行治理措施并持续监控。
(5)持续改进:根据评估结果不断改进治理措施。
公共数据资源治理体系的演化模型
该模型基于整体性治理理论,分为协调、整合和规范三个阶段,旨在解决公共数据的碎片化问题,推动公共数据资源的开发利用。
(1)协调阶段
在协调阶段,主要任务是识别和收集分散在各个部门和机构的数据资源,建立初步的数据管理意识和基础架构。通过制定基本的数据管理政策和流程,促进部门间的数据共享和协作,初步解决数据孤岛问题,提升数据质量和安全性。
(2)整合阶段
在整合阶段,重点是建立系统化的数据管理框架和机制,实现数据的集中管理和标准化处理。通过制定和实施统一的数据标准和规范,建立跨部门的数据治理委员会,推动数据的深度整合和共享,提升数据利用效率和决策支持能力。
(3)规范阶段
在规范阶段,数据治理体系趋于成熟和规范,形成了完善的政策、标准和流程,数据管理和治理的角色和职责明确。数据质量和安全性达到高水平,数据驱动的决策和创新显著增加。通过持续优化数据治理政策和标准,利用先进技术提升治理能力,推动数据驱动的公共服务和社会治理创新,建立完善的监控和评估机制,确保数据治理体系的高效运行和持续改进。
作为数据治理模型之一,它专注于公共部门的数据治理,通过系统化的步骤和阶段性的发展,逐步提升数据治理的能力和效果。这个模型不仅涵盖了数据治理的关键要素,还强调了持续改进和创新,确保公共数据资源能够高效、安全地用于支持公共服务和政策决策。
治理工具
(1)元数据管理工具:如Apache Atlas,它可以帮助用户管理和维护多个数据源的元数据,并提供搜索功能。
(2)数据质量管理工具:这类工具用于检测和纠正数据中的错误和不一致性,以提高数据的准确性和可靠性。
(3)数据安全工具:例如Apache Ranger,它提供基于策略的访问控制和数据掩码功能,以保护敏感信息。
(4)数据集成工具:这些工具用于将来自不同来源的数据整合到一个统一的数据环境中,以便进行分析和报告。
(5)数据目录工具:帮助组织创建和维护一个全面的数据目录,使用户能够轻松地找到所需的数据资源。
(6)数据血缘追踪工具:用于追踪数据的来源和流向,以便了解数据如何被使用和修改。
(7)智能化数据治理平台:如睿治智能数据治理平台,集成了数据集成、数据交换、元数据管理、数据标准管理等功能,提升整体数据管理水平。
此外,还有许多开源的数据治理工具,如Amundsen、DataHub等,它们在数据治理领域中也得到了广泛应用。这些工具通常具有灵活的扩展性和较低的成本,适合不同规模的企业使用。
在选择数据治理工具时,企业需要考虑其具体需求和应用场景,评估工具的功能是否能够满足其业务目标和合规要求。通过合理的工具选择和实施策略,企业可以有效地管理和利用其数据资产,从而实现数字化转型和业务增长。
参考资料
DATA GOVERNANCE&DATA PROTECTION POLICY 2023.DEPARTMENT OF INFORMATION&COMMUNICATIONS TECHNOLOGY.
最新修订时间:2024-11-27 11:30
目录
概述
基本概念
参考资料