数字化时代,数据是已经成为最宝贵的资产之一。数据支撑着我们的政府、企业以及各类组织的所有流程,并为决策以及智能化服务提供支撑。大数据有大用途,但是也可能隐藏着巨大的风险,特别是如果我们对数据的情况不是很了解的时候,我们便不能够掌握到底存储了什么信息以及如何使用它,在一堆数据中是否存在垃圾数据或者可能被遗忘的高质量数据,甚至是否存在数据安全问题。
因此,我们需要有效地治理数据。
什么是数据治理?
数据治理是一种管理框架,通过定义和实施组织范围内的数据管理政策、标准和流程,确保数据的准确性、一致性、安全性和合规性。它涉及数据的创建、存储、使用和销毁的整个生命周期,旨在最大化数据的价值,降低数据风险,并支持业务决策和运营的有效性。
数据治理相关的概念
在介绍数据治理平台之前,我们对一些数据治理相关的概念有所了解。
数据治理相关的概念名词涵盖了多个领域,从数据管理、数据质量到数据隐私和安全等。以下是一些常见的概念名词:
数据治理的组成有哪些?
从系统的角度看,数据治理有10个重要组成,用于满足组织在每个知识领域的数据管理需求。
(1) 人
数据治理专业人员、数据管理员和其他关键业务和IT人员是数据治理计划的骨干。他们建立和开发工作流程,以确保满足企业数据治理要求。
(2) 数据战略
数据治理团队在组织的企业数据战略的开发和实施路线图中起着至关重要的作用。数据战略是一个执行文档,它提供了企业对数据的高层次需求,并确保这些需求得到满足。建立企业数据战略是组织数据管理之旅的重要一步。
(3) 数据流程
数据治理计划需要建立数据管理的关键数据流程。这些包括数据问题跟踪或解决、数据质量监控、数据共享、数据沿袭跟踪、影响分析、数据质量测试等。
(4) 数据政策
数据策略是一个或多个声明的高级集合,这些声明陈述了对数据的期望和预期结果,这些数据会影响和指导企业级别的数据习惯。数据治理计划为数据管理建立数据治理策略。政策包括出站数据共享、遵守法规等。
(5) 标准和规则
数据标准提供了一个框架和方法,以确保遵守数据策略。数据规则指导或约束行为,以确保遵守数据标准,从而提供数据策略的合规性。
(6) 数据安全
数据安全涉及保护数字数据(如数据库中的数据)免受授权和未授权用户的破坏性力量和不必要的操作。这些不受欢迎的用户活动指的是间谍活动、网络攻击或数据泄露。
(7) 沟通
数据治理沟通包括与需要了解数据治理团队活动的协会受众进行的所有书面、口头和电子交互。沟通计划包括所有沟通的目的、目标和工具,从一开始就应该是治理计划的一部分。该计划确定了如何向各利益攸关方和组织的其他人员介绍治理和管理方面的挑战和成功经验。沟通计划突出正确的业务案例并展示其结果。
(8) 社会化
数据治理的社会化是任何治理计划中的重要活动。数据治理社会化计划是一个帮助将数据治理活动集成到组织的策略、内部文化、层次结构和流程中的计划。该计划是该组织所独有的,因为它是根据其组织文化和行为标准量身定制的。
(9) 业务指标和KPI指标
建立业务指标和关键性能指标(KPI)来监控和衡量数据治理计划的总体业务影响,这对于计划的成功至关重要。指标和KPI必须是可测量的,可以随时间跟踪,并且每年都以相同的方式进行测量。
(10) 技术支撑
执行数据治理计划需要各种技术支撑,包括框架、工具等,用于使流程自动化。
数据治理的关键要素
从关键技术功能的角度看,数据治理的关键要素包括:
开源数据治理工具
在开源领域有哪些比较出名的数据治理工具呢?
开发语言:TypeScript、Java、Python
OpenMetadata是一个统一的元数据平台,用于数据发现、数据可观察和数据治理,由中央元数据存储库、深入的列级沿袭和无缝的团队协作提供支持。OpenMetadata基于开放元数据标准和API,支持连接到各种数据服务的连接器,支持端到端元数据管理,让您可以自由释放数据资产的价值。
OpenMetadata主要由四个组件组成:
总体架构如下图所示:
OpenMetadata的主要特点包括:
开发语言:Java、javaScript
Apache Atlas是一个数据治理开源框架,用于支持数据管理团队能够在整个组织中协作管理大数据资产和元数据。它为复杂的企业数据,提供了可扩展的数据模型和高度集成的管理解决方案。
他的优点包括:
当然缺点也有一些,例如:
开发语言:Python、TypeScript
Amundsen是Lyft开发的数据发现和元数据引擎,它通过索引数据资源(表、仪表板、流等)来提高数据分析师,数据科学家和数据工程师在与数据打交道时的生产力。它还可以基于使用模式(例如,高度查询的表比较少查询的表更早出现)来驱动页面排名风格的搜索。有点类似谷歌搜索。
开发语言:Java、Python、TypeScript
DataHub是一个开源元数据管理平台,它最初由LinkedIn构建,以满足其现代数据堆栈不断变化的元数据需求。
DataHub支持第三代数据目录、数据发现、协作、治理和为现代数据栈构建的端到端可观察性。DataHub采用模型优先的理念,专注于提升不同工具系统之间的互操作性。
下图是DataHub的架构:
DataHub的主要亮点有:
开发语言:Java、TypeScript
Magda是一个面向大型组织的开源联合数据目录平台。其目标是通过提供一个用于记录、跟踪、增强和利用从CSV文件到大型数据库的资产的单一平台。
因此,对于那些需要处理大量较小的数据集的团队来说,这是一个特别合适的产品。
Magda的优点包括:
Magda的缺点有:
技术架构:
在技术架构方面,Magda是基于微服务体系构建的,这些微服务作为Docker容器分发。这样做是为了提供简单的可扩展性。Magda可以通过使用任何技术作为Docker镜像来添加定制服务,并通过稳定的HTTP API将它们与系统的其余部分集成。使用Helm和Kubernetes进行编排意味着定制的Magda实例的配置可以以纯文本形式存储和跟踪,并且可以快速轻松地复制具有相同配置的实例。架构图如下:
开发语言:Java
Egeria是一个以企业为中心的工具,专注于跨组织的元数据管理。
因此,它对于需要高度自动化的集成解决方案的团队来说可能是一个很好的选择,例如跨平台元数据交换。
优点:
缺点:
TrueDat是一个非常成熟的开源数据治理工具,可以帮助客户成为数据驱动型的公司。TrueDat是由BlueTab(现在是IBM的一家公司)在了解了市场作为数据解决方案提供商的需求并找到了数据治理领域的空白之后创建的。
其优点包括:
除此之外,TrueDat在报告方面特别强大。它具有与Metadata的原生集成,为用户提供了极大的灵活性,可以围绕其数据质量和使用情况提取和可视化见解。
但是TrueDat也有许多缺点,例如:
尽管是一个开源项目,但TrueDat明显缺乏开源配套信息。特别是文档有点少,而且也没有生产部署相关的信息。
总结下面用一张矩阵表总结了这几个开源数据治理工具的主要功能。矩阵用Yes和No表示是否有提供相关功能,但是,实际上这些工具在这些功能的实现程度并不一样。
产品 |
数据血缘 |
业务术语表 |
标签/分类 |
标签/分类传播 |
基于角色的访问控制(RBAC) |
基于属性的访问控制(ABAC) |
数据共享 |
OpenMetadata |
本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载者并注明出处:https://www.jmbhsh.com/wanjumoxing/34907.html