0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

下秒数据CEO蔡致暖:云原生时代数据管道的迭代之路

下秒数据Nexadata 来源: 下秒数据Nexadata 作者: 下秒数据Nexadata 2022-09-20 10:59 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

在如今数据被称为新经济时代的石油的大背景下,数据管道是什么?处于什么位置?其技术和演进趋势又是怎么样的?

2022年7月12日,在CSDN云原生系列在线峰会第13期“现代数据栈峰会”上,针对这些连续发问,下秒数据CEO蔡致暖对数据管道1.0至3.0的迭代过程及技术特点进行了详细介绍。

数据管道和ETL

数据管道是一种重要的数据基础设施,ETL管道是最常用的数据管道。

数据基础设施是底座,数据管道作为数据库及数据仓库的最佳拍档,也是一种重要的数据基础设施。

在了解数据管道具体是什么之前,首先要了解什么是ETL管道。ETL管道是从其源系统/数据库中提取数据,对数据进行转换,然后将其加载到数据仓库或数据库中,从中获取业务见解。

数据管道包含ETL管道,因为对于数据管道来说,数据的目的地不一定是数据库或数据仓库,也可以是其他的应用程序,并且支持整个组织的数据编排、管理和使用。

数据管道中的步骤通常包括提取、转换、组合、验证、可视化以及其他此类数据分析过程。如果没有数据管道,这些过程需要大量耗时而繁琐的手动步骤,并给人为错误留下空间。数据管道的最佳类比是传送带,它能高效、准确地将数据传送到流程的每一步。例如,数据管道可帮助数据从SaaS应用高效地流向数据仓库等。

为什么说数据管道是重要的数据基础设施?

现如今企业数据孤岛变得普遍,各类SaaS应用的使用频率越来越高。数据管道解决的是如何自动化地把不同来源的数据传递给组织中的人、系统、应用程序,并将数据转化为业务价值。数据管道扮演的不仅仅是一个数据传送带的作用,它还需要把不同来源的数据,经过技术手段变成业务价值再传送出去,最终让组织方便地使用数据。

数据管道1.0:ETL技术和数据仓库

数据管道1.0的关键词是ETL与数据仓库,基于传统ETL技术构建数据仓库的的过程可划分为五步:

定义数据项目及相关业务需求;

确定项目的相关数据源;

定义特定业务问题所需的数据模型(Schema);

构建ETL管道(提取、转换和加载函数);

进行数据分析并获得业务见解。

其关键特征在于,数据在加载到数据仓库之前需进行转换。这是因为在20世纪90年代,存储、计算和带宽十分昂贵,因此在将数据装入仓库之前减少数据量至关重要。

传统ETL技术的局限性

随着数据处理技术的不断演进,传统ETL技术难以适应业务的发展,有较多弊端显现:

不够灵活、伸缩性差,一旦业务规则变化,管道需重新设计;

需持续维护,开发工程师要深度参与,维护成本高;

技术复杂,可以使用各种不同的编程语言。

案例解析——业务逻辑稍复杂,维护成本奇高无比

上图是一个典型的使用Kettle构建的数据管道,涉及节点数量20余。在业务变化和需求修改增多的情况下,数据管道的复杂度和维护成本都会奇高无比。

数据管道2.0:ELT和云计算/大数据

数据管道2.0的主要目标依旧是构建数据仓库,其关键词是ELT与云计算/大数据。

在2.0阶段,我们将ETL技术更换为ELT技术,这是因为随着大数据与云计算的发展,存储、计算和带宽成本大幅下降,组织可以在数据仓库中加载大量未转换的数据,而不必担心成本和限制。

ELT管道从源系统中提取数据并将其直接加载到数据仓库中,无需进行转换。数据入库后针对特定业务,基于SQL或DBT(SQL扩展)等工具进行转换和建模。

ELT解决了传统ETL技术的痛点

ELT更加灵活,每个数据源的数据都可以存入库中,EL过程不涉及业务转化,可以实现标准化,进而可以按需扩展数据源、按需建模;

ELT更加普适,转换和建模不再依赖编程语言,入库后使用SQL即可;

ELT更加健壮,转换层的故障(如上游架构或下游数据模型更改时)不会阻止数据加载。

数据管道3.0:连接器和API经济

虽然数据管道2.0已经实现了将数据都存入数据仓库中,但转换和建模依然对技术具有高要求。以往做数据集成多以数据库或文件为目标,但随着近年来SaaS应用的普及,组织使用不同的应用及工具开展营销和经营活动,

数据集成的技术门槛并没有因为ELT的到来而降低。

数据管道3.0——基于连接器和API经济,自动化价值数据的流动

实际上,数据管道3.0及数据管道2.0的ELT都是现代数据栈的组成部分。相较数据管道2.0,数据管道3.0主要在两个方面做出了改变。

数据连接器的标准化和商品化:ELT为数据连接器的标准化打下了坚实基础,将问题转换为如何使数据连接器更易于构建;

数据分析结果不应该封闭在数据仓库或BI工具中,应该通过API或数据编排自动化,推动组织中价值数据的流动,如反向ETL。

数据管道3.0的主要特征

用户特征

用户无需关注技术,通过简单的配置就可以完成数据的连接处理分析,降低对开发人员的依赖;

弹性的工作负载,按用量付费。

技术特征

连接器标准化,数据集成可重用,大幅降低数据集成的成本及技术门槛;

转换、建模以数据仓库和SQL为中心

生态特征

易与其他工具(包括传统ETL工具)集成;

利用社区的力量来构建与维护连接器和模板化的数据模型。

总结

数据管道是一项重要的数据基础设施,使用智能数据管道技术,能够帮助组织将所有应用程序、数据库、事件和文件等数据信息提取到数据仓库中,并快速将分散的数据转化为数据集、API、自动化流程等开箱即用的数据服务,释放数据的价值。

审核编辑 黄昊宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • ETL
    ETL
    +关注

    关注

    0

    文章

    26

    浏览量

    10166
  • 大数据
    +关注

    关注

    64

    文章

    9113

    浏览量

    144175
  • 云原生
    +关注

    关注

    0

    文章

    266

    浏览量

    8653
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    新版本RocketMQ 4.X教程消息队列教程

    。这一模式适用于日志采集分析、IoT 设备数据汇聚、社交动态流等对存储成本敏感且读写负载不均的场景。 四、未来部署方向:云原生与 Serverless 化 展望未来,RocketMQ 集群部署正在向云原生
    发表于 05-22 10:55

    新版架构师系列-ShardingJDBC分库分表mysql数据库实战

    ,业务复杂度涨了10倍。 以前分表只需要按用户ID取模,现在要按时间范围、按地域、按业务线、按租户多维度拆分。一个订单系统可能同时需要水平拆分+垂直拆分+冷热分离。手动方案直接崩溃。 第三,云原生时代要求
    发表于 05-18 17:01

    瀚高数据库深度参编国家标准《信息技术 云原生关系数据库管理系统技术要求》正式发布

    济南2026年4月15日 /美通社/ -- 近日,国家市场监督管理总局、国家标准化管理委员会正式发布国家标准 GB/T 47343-2026《信息技术 云原生关系数据库管理系统技术要求》。作为我国
    的头像 发表于 04-15 16:41 415次阅读

    爱立信携手合作伙伴携为AI原生6G铺就生态之路

    随着6G征程持续推进,行业正从6G概念迈向商业化准备阶段。从MWC期间多项6G重要发布,到前沿技术演示,爱立信的每一次参与都在印证:领先的设备商、芯片商和计算伙伴正与之携手,验证基础技术,为AI原生6G铺就生态之路
    的头像 发表于 03-31 09:30 1636次阅读

    代数据系统中适配 MIPI、DP、HDMI 的高效高速 FPGA IP 核 —— 助力定制化业务

    打开定制化业务的大门,让创新不再受限于接口的束缚。1.引言:定制化时代的接口挑战与我们的答案什么是现代数据系统?现代数据系统是一个集成了数据采集、传输、处理与显示
    的头像 发表于 03-30 09:57 317次阅读
    现<b class='flag-5'>代数据</b>系统中适配 MIPI、DP、HDMI 的高效高速 FPGA IP 核 —— 助力定制化业务

    Molex产品组合推动下一代数据中心高速互连

    云计算、物联网、VR/AR、数字孪生、人工智能(AI)……这些让科技圈热血沸腾的技术背后,都有一个共同的底层逻辑——它们都是以海量数据的处理作为支撑的。因此,无论是哪条赛道上的竞争,都会体现为数字基础设施建设上的比拼,即新一代数据中心的设计和部署。
    的头像 发表于 03-12 10:38 744次阅读

    云原生全球广域网架构深度科普:从单点集中到全域互联

    用与资源分散部署在不同地域的虚拟私有云、线下数据中心等多个节点时,如何将这些分散的资源整合成一个逻辑统一的整体,成为企业数字化进程中的核心命题。而云原生网络架构,正
    的头像 发表于 03-10 13:40 589次阅读
    <b class='flag-5'>云原生</b>全球广域网架构深度科普:从单点集中到全域互联

    TE Connectivity面向新一代数据中心的高速连接器解决方案

    在数字化转型浪潮的推动,云计算一直处于快速上升通道,而数据中心作为云计算的核心基础设施,也在加速迭代,提升算力,以满足日益增长的海量数据的处理所需。
    的头像 发表于 02-27 15:27 1482次阅读

    一文了解数据存储演变之路

    开工大吉,启新赋能!数据存储格局正持续快速迭代发展,这背后离不开企业与个人不断增长的数据量驱动。其演变核心在于,从传统存储模式逐步迭代升级,转向更先进、灵活且可扩展的存储解决方案,精准
    的头像 发表于 02-27 13:51 679次阅读
    一文了解<b class='flag-5'>数据</b>存储演变<b class='flag-5'>之路</b>

    伸缩科技赋能 —— 解析量水堰计数据不漂移的秘诀

    在岩土工程、水利枢纽等结构物安全监测领域,堰槽水位及流量数据的精准性直接关乎工程安全研判,而数据漂移是长期监测中的常见痛点。南京峟思研发的磁式量水堰计,凭借磁伸缩核心科技,实现了监
    的头像 发表于 01-28 15:16 781次阅读
    磁<b class='flag-5'>致</b>伸缩科技赋能 —— 解析量水堰计<b class='flag-5'>数据</b>不漂移的秘诀

    2025开放原子开发者大会AI时代数据库创新实践分论坛成功举办

    11月21日,2025开放原子开发者大会——AI时代数据库创新实践分论坛成功举办。论坛以“构建AI时代智能数据底座”为核心主题,汇聚OpenTenBase、Apache Doris、KWDB
    的头像 发表于 11-27 14:56 805次阅读

    【技术分享】Systemd原生服务配置最佳实践()

    上期我们说到sysv的规范,创建以及示例,那么我们今天就来讲讲Systemd的原生服务配置。为何要迁移到Systemd原生服务?尽管规范化的SysV脚本可临时解决问题,但可能存在以下缺陷:效率低下
    的头像 发表于 10-29 11:40 604次阅读
    【技术分享】Systemd<b class='flag-5'>原生</b>服务配置最佳实践(<b class='flag-5'>下</b>)

    式静力水准仪数据获取及数据转换

    在工程结构安全监测领域,磁式静力水准仪以其高精度、高稳定性成为大坝、隧道、边坡、建筑等沉降变形监测的首选设备。下面南京峟思将给大家解析YJL-200型磁式静力水准仪的数据获取原理与数据
    的头像 发表于 09-01 14:31 898次阅读
    磁<b class='flag-5'>致</b>式静力水准仪<b class='flag-5'>数据</b>获取及<b class='flag-5'>数据</b>转换

    如何构建高可用Prometheus监控体系

    云原生时代,传统监控工具已经无法满足微服务架构的复杂需求。Prometheus凭借其Pull模式、多维数据模型和强大的查询语言PromQL,成为了CNCF毕业项目中的监控标杆。
    的头像 发表于 08-01 09:10 1083次阅读

    云原生环境里Nginx的故障排查思路

    本文聚焦于云原生环境Nginx的故障排查思路。随着云原生技术的广泛应用,Nginx作为常用的高性能Web服务器和反向代理服务器,在容器化和编排的环境中面临着新的故障场景和挑战。
    的头像 发表于 06-17 13:53 1257次阅读
    <b class='flag-5'>云原生</b>环境里Nginx的故障排查思路