加入收藏 | 设为首页 | 会员中心 | 我要投稿 拼字网 - 核心网 (https://www.hexinwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

DolphinScheduler 登上开源热力榜 Top30!

发布时间:2022-12-06 15:02:42 所属栏目:大数据 来源:转载
导读:
近日,Apache DolphinScheduler 登上了由开放源自开源基金会、X-lab 和阿里巴巴开源联合发布的《开源大数据热力报告》开源大数据项目热力 Top30 榜单。

1
数据调度与编排类排名第二
Hado

近日,Apache DolphinScheduler 登上了由开放源自开源基金会、X-lab 和阿里巴巴开源联合发布的《开源大数据热力报告》开源大数据项目热力 Top30 榜单。

1

数据调度与编排类排名第二

Hadoop 作为开源大数据技术的起源,兴起于 2006 年。本次报告收集从 Hadoop 发展第 10 年大数据堆栈,即 2015 年至今的相关公开数据进行关联分析,研究开源大数据进入新阶段后的技术趋势,以及开源社区的运作模式对技术走向的助推作用。按照数据处理的生命周期,对开源大数据项目进行了技术分类,包括「数据集成」、「数据存储」、「批处理」、「流处理」、「数据查询与分析」、「数据可视化」、「数据调度与编排」、「数据开发与管 理」8 个类别。

DolphinScheduler 凭借独特的产品优势获得了用户的青睐,热力值高达 309.12,在 2022 年大数据项目中「数据调度与编排」类目中成为一个亮眼的存在。

值得注意的是,本次报告观察到的一些开源大数据领域中的现象非常值得我们注意,不妨来看一下。

2

开源大数据热力的“摩尔定律”

01

每隔 40 个月,热力值提升 1 倍

2022 年开源大数据总热力值,增长到 2015 年的 4 倍。每隔 40 个月,热力值提升 1 倍。

02

热力变迁反映技术趋势

开发者对「数据查询与分析」保持了长期的开发热情,连续8年位于热力值榜首。

2017年「流处理」热力值超过「批处理」,大数据处理进入实时阶段。

数据规模越来越大,数据结构更多样化,「数据集成」从2020年开始爆发式增长。

近2年来,活跃的新兴项目为「数据调度与编排」、「数据开发与管理」注入新的活力。

03

2025年总热力值将突破3万

按照目前热力增长趋势预测,到2025年,总热力值将突破3万,「数据集成」、「数据调度与编排」、「数据开发与管理」将成为强劲的热力增长点。

3

开源大数据热力图谱

4

三大趋势

01

用户需求多样化推动技术多元化

一套复杂体系分化为六大热点技术

经过 10 年发展,以 Hadoop 为核心的开源大数据体系,从 2015 年开始,转变为多元化技术并行发展,开发者的热情分别涌向「搜索与分析」、「流处理」、 「数据可视化」、「交互式分析」、「DataOps」、「数据湖」六大技术热点领域,每个热点领域集中解决某个特定场景问题。其中, 「数据湖」以 34% 的热力值年均复合增长率高居第一位,「交互式分析」、「DataOps」紧随其后,分列第二、三位 。而原有 Hadoop 体系的产品迭代则趋于稳定,热力值年均复合增长率为 1%。部分 Hadoop 生态项目(如HDFS)成为其他新兴技术的基础依赖,另一部分项目(如 Sqoop )则逐渐退出舞台。

热力跃迁更加频繁,彼此交替推动

与大数据应用场景和规模变化趋势相呼应,热点领域的热力跃迁(热力值大幅度跳变)遵循了从上层数据可视化应用普及,到数据处理技术升级,再到数据存储和管理的结构性演变,最终,数据基础设施能力的提升又反过来推动上层应用的技术革新。具体表现为,「数据可视化」在 2016 和2021 年经历了两次热力跃迁, 「搜索与分析」和「流处理」 在 2019 年热力跃迁,「交互式分析」和 「DataOps」从 2018 年和 2021 年经历了两次热力跃迁,「数据湖」在 2020 年热力跃迁。

02

一体化演进迈入 2.0 时代

从计算一体化到存储一体化

从 2015 年开始,计算部分率先进入「一体化」演进历程,其中的典型代表「流批一体」在 2019 年出现第一个热力峰值。以数据湖存储为代表的存储一体化从 2019 年起进入了一个新的发展阶段,并在 2021 年前后进入了开发迭代的热力高速增长期,在此期间, 涌现了 Delta Lake、 Iceberg和Hudi等热点项目。

热力变迁背后是用户使用痛点的转移

多元化技术的蓬勃发展,在一定程度上增加了开源生态体系的复杂性,系统架构也存在性能瓶颈,且扩展能力有限。业界需要统一、融合的大数据系统,能够将多种计算模式有机地融合在一起,易于扩展,能够支持新的模式,降低开源软件的开发、运维复杂度。

以「流批一体」为例,这种计算融合技术最早提出于 2015 年,它的初衷是让开发人员能够使用同一套接口实现大数据的流计算和批计算,进而保证处理过程与结果的一致性。流批一体技术演进过程中的几个关键时间节点,2015 年 Spark 提出流批一体,到 2019 年基于 Apache Flink 在阿里巴巴双 11 项目中大规模落地流批一体应用,再到 2022 年 Flink Table Store 流式数仓发布,每一次重大技术更迭,都会牵引大量开发者关注和参与,促使流处理领域热力值显著提升。

开发者在初尝了计算一体化带来的技术红利之后,开始在其他技术领域进行一体化的尝试。而另一方面,为多种不同的计算模型管理多套不同的存储已经成为了一个新的痛点。开发者深刻体会到传统数仓的难以逾越的缺陷,比如数据更新较为昂贵,缺乏跨数据源的高效联邦查询等。从 2019年开始,数据湖存储解决方案 Delta Lake 出现,以及后续的 Iceberg 和 Hudi 等,都致力于解决存储一体化问题。

03

云原生大规模重构开源技术栈

发轫于云端的技术重构

过去几年,数据源和数据存储正逐步迁移到云端,更多元化的计算负载也运行到了云端,计算与存储分离已成为大数据平台的标准架构。越来越多的开发者在云端开发中,对开源大数据项目进行云原生改造适配。云原生作为技术创新的实验场,改变了大量开源大数据技术的走向。

2015 年后出现的新项目,无一例外地在云原生方向进行了积极的技术布局。Pulsar、DolphinScheduler、JuiceFS、Celeborn、Arctic 等诞生于云原生时代的开源项目如雨后春笋般破土成长。这些新项目在 2022 年的热力值占比已经达到 51%,其中,「数据集成」、「数据存储」、「数据开发与管理」等领域都发生了非常大的项目更迭,新项目热力值占比已经超过了80%。从 2020 年开始, Spark、 Kafka、Flink等主流项目陆续正式支持 Kubernetes。云原生推动的开源技术栈大重构正在进行时。

「数据集成」率先完成重构

随着云端多样化数据收集需求的爆发,以及下游数据分析逻辑的变化,数据集成从“劳动密集型”ETL工具演进到灵活高效易用的“数据加工流水线”。传统数据集成工具 Flume、 Camel 处于平稳维护状态,Sqoop 已于 2021 年从 Apache 软件基金会退役。与云原生结合更紧密的Airbyte、Flink CDC、SeaTunnel 等项目飞速发展。在热力趋势中可以看到,云原生数据集成在 2018 年超越了传统数据集成,从 2019 年开始,这一演进历程加速,热力值逐年翻倍。不少新孵化的项目热力值年均复合增长率超过 100%,增长势头强劲。

(编辑:拼字网 - 核心网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!