加入收藏 | 设为首页 | 会员中心 | 我要投稿 拼字网 - 核心网 (https://www.hexinwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

数据目录3.0:用于现代数据堆栈的现代元数据

发布时间:2022-12-09 17:03:33 所属栏目:大数据 来源:网络
导读: 现在是现代元数据解决方案的时候,一个像现代数据堆栈的其余部分一样快速,灵活,可扩展
普鲁卡帕
8分钟阅读

> Photo by Haneen Krimly
2020年将许多新词带入我们的日常词汇中-想像冠状病

现在是现代元数据解决方案的时候,一个像现代数据堆栈的其余部分一样快速,灵活,可扩展

普鲁卡帕

8分钟阅读

大数据堆栈_堆栈的数据访问规则_36大数据 36大数据

> Photo by Haneen Krimly

2020年将许多新词带入我们的日常词汇中-想像冠状病毒,退款和恶意密钥。但是在数据世界中,又有一个短语正在绕过……现代数据栈。

数据世界最近融合了最好的工具,用于处理大量数据,AKA“现代数据堆栈”。这包括为数据仓库的雪花,数据湖泊的Databricks以及数据摄取的Fivetran等雪花等最佳品种的数据基础架构。

好吗现代数据堆栈超快速,可在几秒钟内轻松扩展,并且所需的开销很小。不好吗在将治理,信任和上下文带入数据方面仍然是菜鸟。

那就是元数据的来源。

那么,现代元数据在当今现代数据堆栈中应该是什么样?基本数据目录如何演变为数据民主化和治理的强大工具?为什么元数据管理需要进行范式转换以适应当今的需求?

在过去的一年里,我与350多个数据领导人说过,了解其现有元数据管理解决方案的根本挑战,并构建现代元数据管理的愿景。我喜欢称这种方法“数据目录3.0”。

为什么现代数据堆栈比以往更需要“现代”元数据管理?

几年前,数据主要由IT团队在组织中消费。但是,今天的数据团队比以往任何时候都多样化 - 数据工程师,分析师,分析工程师,数据科学家,产品经理,商业分析师,公民数据科学家等等。这些人中的每一个都拥有自己最喜欢的和同样多样化的数据工具,从SQL,Looker和Jupyter到Python,Tableau,DBT和R.的一切。

这种多样性都是一种力量和斗争。所有这些人都有不同的方式接近问题,工具,技能组,技术堆栈,工作方式……本质上,它们各自具有独特的“数据DNA”。

结果通常是协作中的混乱。沮丧的问题,例如“此列名实际上是什么意思?”和“为什么仪表板上的销售数字又出错了?”在需要使用数据时使快速的团队爬行。

这些问题并非任何新的问题。毕竟,Gartner已经发布了它的Magic Quadant,在现在已经超过5年的元数据管理解决方案。

但仍然没有好的解决方案。大多数数据目录都不仅仅是来自Hadoop时代的带助剂解决方案,而不是在今天的现代数据堆栈背后的创新和进步方面保持一步。

元数据管理的过去和未来

就像数据一样,我们如何考虑和使用元数据在过去三十年中稳步发展。它可以广泛分为进化的三个阶段:数据目录1.0,数据目录2.0和数据目录3.0。

数据目录1.0:IT团队的元数据管理

时间:1990年代至2000年代初期产品:Informatica,Talend

大数据堆栈_36大数据 36大数据_堆栈的数据访问规则

> Informatica’s Metadata Manager in 2012. (Source)

从技术上讲,元数据自古以来就存在。亚历山大图书馆每个卷轴上都附有描述性标签。但是,元数据的现代概念可以追溯到1900年代后期。

值得庆幸的是,在1990年代,我们搁置了软盘,并使用了这种称为互联网的新型工具。很快,大数据和数据科学风靡一时,组织正试图找出如何组织其新数据集的方法。

随着数据类型和格式以及数据本身的爆炸式增长,IT团队开始负责创建“数据清单”。像Informatica这样的公司在元数据管理方面起了早期的领导作用,但是对于IT人员来说,建立并保持其新数据目录的顶部一直是他们的不懈努力。

“数据仓库团队经常花费大量的时间谈论,令人担忧,并对元数据感到内疚。由于大多数开发人员对开发和有序提交文件的自然厌恶,尽管每个人都承认这很重要,但元数据往往会从项目计划中削减。“

–拉尔夫·金博尔(Ralph Kimball),2002年

Data Catalog 2.0:由数据管理员提供的数据清单

时间:2008年至2020年产品:Collibra,Alation

大数据堆栈_堆栈的数据访问规则_36大数据 36大数据

> Alation’s data catalog in 2019. (Source)

随着数据变得更加主流并传播到IT团队之外,数据管理的概念也已扎根。这是指专门负责处理组织数据的人员。他们将处理元数据,维护治理实践,手动记录数据等等。

同时,元数据的观念发生了变化。随着公司开始建立大规模Hadoop实施方案,他们意识到仅凭简单的IT数据清单已经不够了。取而代之的是,需要新的数据目录来将数据清单与新的业务环境混合在一起。

就像这个时代的Uber-Complex Hadoop系统一样,数据目录2.0s难以建立和维护。他们涉及刚性数据治理委员会,正式数据管制,复杂的技术设置和冗长的实施周期。总而言之,这个过程可能需要超过18个月。

这个时代的工具基本上建立在整体架构上,并在内部部署。每个数据系统都有自己的安装,并且公司无法通过推送简单的云更新来推出软件更改。

技术债务增长,元数据管理稳步启动落后于现代数据堆栈的其余部分。

元数据中的范式转移

过去几年中,其余的数据基础架构堆栈都在不断发展,而Fivetran和Snowflake等工具可让用户在不到30分钟的时间内建立数据仓库,但数据目录却跟不上。即使尝试使用Data Catalog 2.0时代的元数据工具,也要花费大量的时间进行设置,更不用说至少进行5次销售代表的电话以获得演示了。

由于缺乏可行的替代方案,现代数据堆栈的最早采用者和大多数大型科技公司都采用了自己的内部解决方案。一些著名的例子包括Airbnb的Dataportal,Facebook的Nemo,LinkedIn的DataHub,Lyft的Amundsen,Netflix的Metacat和Uber的Databook。

但是,并非所有公司都拥有工程资源,并没有特别有效地构建数十个类似的元数据工具。

现在是时候使用现代元数据解决方案了,该解决方案与其他现代数据栈一样快速,灵活且可扩展。

数据目录3.0:各种数据用户的协作工作空间

今天,我们正处于元数据管理的转折点–从缓慢的本地Data Catalog 2.0过渡到新时代Data Catalog 3.0的开始。就像从1.0跳到2.0一样,这将是我们对元数据的思考方式的根本转变。

数据目录3.0s不会像数据目录2.0生成中的前任一样。相反,数据目录3.0S将建立在嵌入式协作的前提下,这是当今现代工作场所的关键,从Github,Figma,Slack,Iconion,Superhuman等现代工具中借用原则。

大数据堆栈_堆栈的数据访问规则_36大数据 36大数据

> Imagining the user experience for Data Catalog 3.0. (Image courtesy: Atlan)

数据目录3.0的4个特征1.数据资产>表格

生成Data Catalog 2.0的前提是“表”是唯一需要管理的资产。但是现在完全不同了。

如今,BI仪表板,代码片段,SQL查询,模型,功能和Jupyter笔记本是所有数据资产。

3.0生成的元数据管理需要足够灵活,以便在一个地方智能地存储和链接所有这些不同类型的数据资产。

2.端到端数据可见性,而不是零碎的解决方案

Data Catalog 2.0时代的工具在改善数据发现方面取得了长足的进步。但是,他们并没有为组织提供数据的“单一事实来源”。有关数据资产的信息通常分布在不同的地方-数据沿袭工具,数据质量工具,数据准备工具等。

数据目录3.0将帮助团队终于实现圣杯,是组织中每个数据资产的单一真理源。

3.专为元数据本身就是“大数据”的世界而打造

我们快速接近一个Metadata本身将是大数据的世界。能够处理和理解元数据将帮助团队更好地了解并信任他们的数据。

这就是为什么新的Data Catalog 3.0应该不仅仅是元数据存储的原因。

它应该从根本上利用元数据作为可以搜索,分析和维护的数据形式,以与所有其他类型的数据相同的方式。

如今,云的基本弹性使这一切成为可能。例如,查询日志只是当今可用的一种元数据。通过从Snowflake中的查询日志中解析SQL代码,可以自动创建列级沿袭,为每个数据资产分配一个流行度得分,甚至可以推断出每个资产的潜在所有者和专家。

4.嵌入式协作已成时代

Airbnb在分享有关推动内部数据门户采用的经验时说了深刻的话:“设计数据工具的界面和用户体验不应该是事后的想法。”

由于数据团队中的基本多样性,数据工具需要旨在与团队的日常工作流程无缝集成。

这就是嵌入式协作的想法真正实现的地方。嵌入式协作是指在您所处的位置进行的工作,而摩擦最小。

如果您可以在获取链接时请求访问数据资产,就像使用Google文档,并且所有者可以在松弛并批准或拒绝那里的请求?或者如果在检查数据资产并需要报告问题时,您可以立即触发支持请求,该请求与您的工程团队的JIRA工作流完全集成?

嵌入式协作可以统一许多这样的微工作流程,这些流程浪费时间,造成挫败感并导致数据团队的工具疲劳,而使这些任务变得令人愉快!

下一步是什么?

任何与数据一起使用的人都知道数据目录的时间长时间赶上现代数据堆栈的其余部分。毕竟,没有使其可以理解的资产 - 文件,查询,历史,词汇表等大数据堆栈,数据非常毫无意义。

随着元数据本身成为大数据,我们正处在元数据管理变革性飞跃的风口浪尖上。尽管我们还不了解Data Catalog 3.0时代的一切,但很明显,在未来几年中,将会出现一种现代的元数据管理产品,它将在现代数据堆栈中占据应有的位置。

想了解数据目录3.0吗?

(本文由闻数起舞翻译自Christopher Tao的文章《Data Catalog 3.0: Modern Metadata for the Modern Data Stack》,转载请注明出处,原文链接:)

(编辑:拼字网 - 核心网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!