加入收藏 | 设为首页 | 会员中心 | 我要投稿 拼字网 - 核心网 (https://www.hexinwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 云计算 > 正文

网易数帆:释放数据生产力,流式湖仓才是理想选择

发布时间:2022-10-26 22:36:58 所属栏目:云计算 来源:网络
导读: 在了解网易数帆大数据平台如何释放数据生产力之前,我们先来理清各种技术概念。
数据就是石油,数据就是黄金,随着企业对数据的重视,跟数据管理相关的概念层出不穷,比如:大数据平台、数

在了解网易数帆大数据平台如何释放数据生产力之前,我们先来理清各种技术概念。

数据就是石油,数据就是黄金,随着企业对数据的重视,跟数据管理相关的概念层出不穷,比如:大数据平台、数据中台、数据湖、湖仓一体、流式湖仓、实时数仓,甚至还有一种说法叫NoETL。对于广大数据技术开发者来说,我们该如何区分各种概念,选择适合自己的路线?

▲网易数帆大数据产品线总经理余利华

概念背后的技术纷争

“数据中台本身有它的好处,相当于对原来数据仓库的一个升级,但不能为了中台而建中台。”在网易数帆大数据产品线总经理余利华看来,数据中台之所以比数据仓库更受欢迎,是因为可以以数据指标的形式为企业建一个数据公共层,让数据以服务的形式去提供给客户。但前提是,要以结果导向为准,把数据资产沉淀下来,如果不看应用,为了中台而中台,强行把数据收进来,其实没什么价值,会导致数据中台建设失败。

网易数帆提出的数据生产力模型,包括DataOps、DataFusion和DataProduct三大内核,其中DataFusion有融合之意,即构建统一数据公共层,重塑数据架构,沉淀核心数据资产,以支撑数据在业务场景中发挥价值。而各种数据技术,无论采集、存取、处理、分析还是可视化,都应与此目标吻合。

同样,数据湖、湖仓一体也是各种热门概念之一。尤其是湖仓一体,有效解决了数据一致性问题。如果从发展起源追溯,湖仓一体概念最早由Databricks提出,在一篇叫做《LakeHouse》的论文里,LakeHouse被宣称为是一种新的架构模式。企业原来的架构模式是,这里建一个数据平台,那里建一个数仓,或者建一个MPP集群,有没有一种新的技术架构可以一站式解决所有问题?LakeHouse可以把数据湖和数据仓库统一在一起,并支持报表、查询、机器学习等。

只不过,Databricks后来的发展遇到了瓶颈,最早LakeHouse的底座是Delta Lake,开源的是半成品,没有统一社区。后来,出现了各种各样的技术社区,推出了很多技术路线,比如Delta、Hudi、Iceberg ,呈现出三足鼎立的格局。

流式湖仓统一数据基础设施

网易数帆也会拥抱主流技术方向,但是具体实践策略会更加开放。以湖仓一体为例,无论用户是Delta Lake表格式,还是Iceberg表格式,还是别的表格式,都可以在一个数据中台上建设,用户可以按照自身要求自愿来选择他的表格式。

为了实现湖仓表格式技术的按需选择,网易数帆做了一个Arctic流式湖仓服务的开源项目,典型特征就是建立在这些开源的表格式之上,提供了元数据服务,以及后台优化服务。因为,表格式用起来要去做后台维护工作,要不然数据写入时候就会性能很差,比如一些场景下实测性能会差到一半。所以,用户需要这样的工具,架构在开源之上,以开源表格式更好地跟平台结合起来,能够实现湖仓一体架构的真正落地。

同样网易云计算,网易数帆做的Kyuubi开源项目也遇到这种情况,由于大数据有各种引擎,比如Spark、Impala,但是缺少一个入口,导致大数据很难用,而建立一个统一的SQL网关就可以简化整个大数据的使用。

简单理解,Arctic之所以重要,是因为存储端有一个统一层,可以把存储管理起来,让用户有选择存储格式的自由,特别是在目前存储格式的标准没有完全落定的前提下,各种格式都会存在,而网易数帆要做的事情是,让数据平台尽快能够用起来,而不会锁定一种格式。

值得一提的是,湖仓一体并不等同于流式湖仓,数据湖和数据仓库结合在一起,使得数据查询能力得到了保障,但并没有流批一体的概念。

如此一来,企业在数字应用过程中,数据团队要给数据消费者提供两张表:一张表是T+1离线数据;另一张表是实时数据。为什么要提供两张表呢?主要受底层技术限制,底层的存储没有办法统一。而Arctic为代表的流式湖仓可以做用一张表既能支持实时,又能支持高效查询,支持更新,还能支持流式的消费,这样的表不仅能批量把所有内容捞出来,还能增量去看表里面发生了什么样的变更,增量去消费。

所以,从更能释放数据生产力的角度看,流式湖仓显然是统一数据基础设施的理想选择!

(编辑:拼字网 - 核心网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!