下秒数据CEO蔡致暖:云原生时代数据管道的迭代之路

在如今数据被称为新经济时代的石油的大背景下,数据管道是什么?处于什么位置?其技术和演进趋势又是怎么样的?

2022年7月12日,在CSDN云原生系列在线峰会第13期“现代数据栈峰会”上,针对这些连续发问,下秒数据CEO蔡致暖对数据管道1.0至3.0的迭代过程及技术特点进行了详细介绍。

数据管道和ETL

数据管道是一种重要的数据基础设施,ETL管道是最常用的数据管道。

数据基础设施是底座,数据管道作为数据库数据仓库的最佳拍档,也是一种重要的数据基础设施。

在了解数据管道具体是什么之前,首先要了解什么是ETL管道。ETL管道是从其源系统/数据库中提取数据,对数据进行转换,然后将其加载到数据仓库或数据库中,从中获取业务见解。

数据管道包含ETL管道,因为对于数据管道来说,数据的目的地不一定是数据库或数据仓库,也可以是其他的应用程序,并且支持整个组织的数据编排、管理和使用。​

数据管道中的步骤通常包括提取、转换、组合、验证、可视化以及其他此类数据分析过程。如果没有数据管道,这些过程需要大量耗时而繁琐的手动步骤,并给人为错误留下空间。数据管道的最佳类比是传送带,它能高效、准确地将数据传送到流程的每一步。例如,数据管道可帮助数据从SaaS应用高效地流向数据仓库等。​

为什么说数据管道是重要的数据基础设施?

现如今企业数据孤岛变得普遍,各类SaaS应用的使用频率越来越高。数据管道解决的是如何自动化地把不同来源的数据传递给组织中的人、系统、应用程序,并将数据转化为业务价值。数据管道扮演的不仅仅是一个数据传送带的作用,它还需要把不同来源的数据,经过技术手段变成业务价值再传送出去,最终让组织方便地使用数据。

数据管道1.0:ETL技术和数据仓库

下秒数据CEO蔡致暖:云原生时代数据管道的迭代之路

数据管道1.0的关键词是ETL与数据仓库,基于传统ETL技术构建数据仓库的的过程可划分为五步:​

  • 定义数据项目及相关业务需求;
  • 确定项目的相关数据源;
  • 定义特定业务问题所需的数据模型(Schema);
  • 构建ETL管道(提取、转换和加载函数);
  • 进行数据分析并获得业务见解。

其关键特征在于,数据在加载到数据仓库之前需进行转换。这是因为在20世纪90年代,存储、计算和带宽十分昂贵,因此在将数据装入仓库之前减少数据量至关重要。

传统ETL技术的局限性

随着数据处理技术的不断演进,传统ETL技术难以适应业务的发展,有较多弊端显现:

  • 不够灵活、伸缩性差,一旦业务规则变化,管道需重新设计;
  • 需持续维护,开发工程师要深度参与,维护成本高;
  • 技术复杂,可以使用各种不同的编程语言。​

案例解析——业务逻辑稍复杂,维护成本奇高无比

下秒数据CEO蔡致暖:云原生时代数据管道的迭代之路

上图是一个典型的使用Kettle构建的数据管道,涉及节点数量20余。在业务变化和需求修改增多的情况下,数据管道的复杂度和维护成本都会奇高无比。​

数据管道2.0:ELT和云计算/大数据

数据管道2.0的主要目标依旧是构建数据仓库,其关键词是ELT与云计算/大数据。

在2.0阶段,我们将ETL技术更换为ELT技术,这是因为随着大数据与云计算的发展,存储、计算和带宽成本大幅下降,组织可以在数据仓库中加载大量未转换的数据,而不必担心成本和限制。

下秒数据CEO蔡致暖:云原生时代数据管道的迭代之路

ELT管道从源系统中提取数据并将其直接加载到数据仓库中,无需进行转换。数据入库后针对特定业务,基于SQL或DBT(SQL扩展)等工具进行转换和建模。

ELT解决了传统ETL技术的痛点

  • ELT更加灵活,每个数据源的数据都可以存入库中,EL过程不涉及业务转化,可以实现标准化,进而可以按需扩展数据源、按需建模;
  • ELT更加普适,转换和建模不再依赖编程语言,入库后使用SQL即可;
  • ELT更加健壮,转换层的故障(如上游架构或下游数据模型更改时)不会阻止数据加载。

数据管道3.0:连接器和API经济

虽然数据管道2.0已经实现了将数据都存入数据仓库中,但转换和建模依然对技术具有高要求。以往做数据集成多以数据库或文件为目标,但随着近年来SaaS应用的普及,组织使用不同的应用及工具开展营销和经营活动,数据集成的技术门槛并没有因为ELT的到来而降低。

数据管道3.0——基于连接器和API经济,自动化价值数据的流动

实际上,数据管道3.0及数据管道2.0的ELT都是现代数据栈的组成部分。相较数据管道2.0,数据管道3.0主要在两个方面做出了改变。

  • 数据连接器的标准化和商品化:ELT为数据连接器的标准化打下了坚实基础,将问题转换为如何使数据连接器更易于构建;
  • 数据分析结果不应该封闭在数据仓库或BI工具中,应该通过API或数据编排自动化,推动组织中价值数据的流动,如反向ETL。

下秒数据CEO蔡致暖:云原生时代数据管道的迭代之路

数据管道3.0的主要特征

用户特征

用户无需关注技术,通过简单的配置就可以完成数据的连接处理分析,降低对开发人员的依赖;

弹性的工作负载,按用量付费。

  • 技术特征
  • 连接器标准化,数据集成可重用,大幅降低数据集成的成本及技术门槛;

  • 转换、建模以数据仓库和SQL为中心。

  • 生态特征

  • 易与其他工具(包括传统ETL工具)集成;

  • 利用社区的力量来构建与维护连接器和模板化的数据模型。

总结

数据管道是一项重要的数据基础设施,使用智能数据管道技术,能够帮助组织将所有应用程序、数据库、事件和文件等数据信息提取到数据仓库中,并快速将分散的数据转化为数据集、API、自动化流程等开箱即用的数据服务,释放数据的价值。