0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

下秒数据CEO蔡致暖:云原生时代数据管道的迭代之路

下秒数据Nexadata 来源: 下秒数据Nexadata 作者: 下秒数据Nexadata 2022-09-20 10:59 次阅读

在如今数据被称为新经济时代的石油的大背景下,数据管道是什么?处于什么位置?其技术和演进趋势又是怎么样的?

2022年7月12日,在CSDN云原生系列在线峰会第13期“现代数据栈峰会”上,针对这些连续发问,下秒数据CEO蔡致暖对数据管道1.0至3.0的迭代过程及技术特点进行了详细介绍。

数据管道和ETL

数据管道是一种重要的数据基础设施,ETL管道是最常用的数据管道。

数据基础设施是底座,数据管道作为数据库及数据仓库的最佳拍档,也是一种重要的数据基础设施。

在了解数据管道具体是什么之前,首先要了解什么是ETL管道。ETL管道是从其源系统/数据库中提取数据,对数据进行转换,然后将其加载到数据仓库或数据库中,从中获取业务见解。

数据管道包含ETL管道,因为对于数据管道来说,数据的目的地不一定是数据库或数据仓库,也可以是其他的应用程序,并且支持整个组织的数据编排、管理和使用。

数据管道中的步骤通常包括提取、转换、组合、验证、可视化以及其他此类数据分析过程。如果没有数据管道,这些过程需要大量耗时而繁琐的手动步骤,并给人为错误留下空间。数据管道的最佳类比是传送带,它能高效、准确地将数据传送到流程的每一步。例如,数据管道可帮助数据从SaaS应用高效地流向数据仓库等。

为什么说数据管道是重要的数据基础设施?

现如今企业数据孤岛变得普遍,各类SaaS应用的使用频率越来越高。数据管道解决的是如何自动化地把不同来源的数据传递给组织中的人、系统、应用程序,并将数据转化为业务价值。数据管道扮演的不仅仅是一个数据传送带的作用,它还需要把不同来源的数据,经过技术手段变成业务价值再传送出去,最终让组织方便地使用数据。

数据管道1.0:ETL技术和数据仓库

数据管道1.0的关键词是ETL与数据仓库,基于传统ETL技术构建数据仓库的的过程可划分为五步:

定义数据项目及相关业务需求;

确定项目的相关数据源;

定义特定业务问题所需的数据模型(Schema);

构建ETL管道(提取、转换和加载函数);

进行数据分析并获得业务见解。

其关键特征在于,数据在加载到数据仓库之前需进行转换。这是因为在20世纪90年代,存储、计算和带宽十分昂贵,因此在将数据装入仓库之前减少数据量至关重要。

传统ETL技术的局限性

随着数据处理技术的不断演进,传统ETL技术难以适应业务的发展,有较多弊端显现:

不够灵活、伸缩性差,一旦业务规则变化,管道需重新设计;

需持续维护,开发工程师要深度参与,维护成本高;

技术复杂,可以使用各种不同的编程语言。

案例解析——业务逻辑稍复杂,维护成本奇高无比

上图是一个典型的使用Kettle构建的数据管道,涉及节点数量20余。在业务变化和需求修改增多的情况下,数据管道的复杂度和维护成本都会奇高无比。

数据管道2.0:ELT和云计算/大数据

数据管道2.0的主要目标依旧是构建数据仓库,其关键词是ELT与云计算/大数据。

在2.0阶段,我们将ETL技术更换为ELT技术,这是因为随着大数据与云计算的发展,存储、计算和带宽成本大幅下降,组织可以在数据仓库中加载大量未转换的数据,而不必担心成本和限制。

ELT管道从源系统中提取数据并将其直接加载到数据仓库中,无需进行转换。数据入库后针对特定业务,基于SQL或DBT(SQL扩展)等工具进行转换和建模。

ELT解决了传统ETL技术的痛点

ELT更加灵活,每个数据源的数据都可以存入库中,EL过程不涉及业务转化,可以实现标准化,进而可以按需扩展数据源、按需建模;

ELT更加普适,转换和建模不再依赖编程语言,入库后使用SQL即可;

ELT更加健壮,转换层的故障(如上游架构或下游数据模型更改时)不会阻止数据加载。

数据管道3.0:连接器和API经济

虽然数据管道2.0已经实现了将数据都存入数据仓库中,但转换和建模依然对技术具有高要求。以往做数据集成多以数据库或文件为目标,但随着近年来SaaS应用的普及,组织使用不同的应用及工具开展营销和经营活动,

数据集成的技术门槛并没有因为ELT的到来而降低。

数据管道3.0——基于连接器和API经济,自动化价值数据的流动

实际上,数据管道3.0及数据管道2.0的ELT都是现代数据栈的组成部分。相较数据管道2.0,数据管道3.0主要在两个方面做出了改变。

数据连接器的标准化和商品化:ELT为数据连接器的标准化打下了坚实基础,将问题转换为如何使数据连接器更易于构建;

数据分析结果不应该封闭在数据仓库或BI工具中,应该通过API或数据编排自动化,推动组织中价值数据的流动,如反向ETL。

数据管道3.0的主要特征

用户特征

用户无需关注技术,通过简单的配置就可以完成数据的连接处理分析,降低对开发人员的依赖;

弹性的工作负载,按用量付费。

技术特征

连接器标准化,数据集成可重用,大幅降低数据集成的成本及技术门槛;

转换、建模以数据仓库和SQL为中心

生态特征

易与其他工具(包括传统ETL工具)集成;

利用社区的力量来构建与维护连接器和模板化的数据模型。

总结

数据管道是一项重要的数据基础设施,使用智能数据管道技术,能够帮助组织将所有应用程序、数据库、事件和文件等数据信息提取到数据仓库中,并快速将分散的数据转化为数据集、API、自动化流程等开箱即用的数据服务,释放数据的价值。

审核编辑 黄昊宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • ETL
    ETL
    +关注

    关注

    0

    文章

    20

    浏览量

    9345
  • 大数据
    +关注

    关注

    64

    文章

    8649

    浏览量

    136589
  • 云原生
    +关注

    关注

    0

    文章

    222

    浏览量

    7843
收藏 人收藏

    评论

    相关推荐

    华为云原生多模数据库 GeminiDB 架构与应用实践

    近日,2023 全球分布式云大会·深圳站顺利召开,华为云 NoSQL 数据库研发总监余汶龙在会上发表了题为《华为云原生多模数据库 GeminiDB 架构与应用实践》的精彩演讲。 余汶龙提出在智能
    的头像 发表于 04-08 18:23 768次阅读
    华为<b class='flag-5'>云原生</b>多模<b class='flag-5'>数据</b>库 GeminiDB 架构与应用实践

    云原生驱动信贷服务数字化 中软国际信贷数据服务平台获业界认可

    随着云原生技术在金融业的应用不断深化,金融服务的优化和创新日益加快。
    的头像 发表于 04-02 09:58 107次阅读
    <b class='flag-5'>云原生</b>驱动信贷服务数字化 中软国际信贷<b class='flag-5'>数据</b>服务平台获业界认可

    云原生是大模型“降本增效”的解药吗?

    云原生AI正当时
    的头像 发表于 02-20 09:31 135次阅读

    米哈游大数据云原生实践

    近年来,容器、微服务、Kubernetes 等各项云原生技术的日渐成熟,越来越多的公司开始选择拥抱云原生,并开始将 AI、大数据等类型的企业应用部署运行在云原生之上。以 Spark 为
    的头像 发表于 01-09 10:41 264次阅读
    米哈游大<b class='flag-5'>数据云原生</b>实践

    云原生技术前沿落地实践分论坛圆满举办

    12 月 16 日,2023 开放原子开发者大会【云原生技术前沿落地实践】分论坛在无锡成功举办。论坛将聚焦云原生的泛在化、Serverless 化以及智能化等前沿发展趋势,与一线技术专家及最终用户
    的头像 发表于 12-22 09:20 566次阅读
    <b class='flag-5'>云原生</b>技术前沿落地实践分论坛圆满举办

    云原生数据库GaiaDB架构设计解析

    目前,云原生数据库已经被各行各业大规模投入到实际生产中,最终的目标都是「单机 + 分布式一体化」。但在演进路线上,当前主要有两个略有不同的路径。
    的头像 发表于 12-14 14:48 212次阅读
    <b class='flag-5'>云原生</b><b class='flag-5'>数据</b>库GaiaDB架构设计解析

    诚邀报名 | 开放原子开发者工作坊:云原生革新开发模式,开发者如何把握先机?

    在全球数字化转型的浪潮中,云原生技术已成为近年来的热门话题。它改变了传统的开发模式,提升了应用开发和运维效率,助力企业在数字化时代实现业务创新。云原生带来了更高的效率、弹性和可扩展性,确保业务稳定
    的头像 发表于 11-15 18:45 270次阅读

    中国移动网络云原生演进技术白皮书

    云原生是近几年云计算领域炙手可热的话题。目前,无论互联网企业还是传统企业,都在拥抱云原生云原生是包含系列技术体系、系统设计理念、组织管理方法的全面系统变革,其核心要素包含基础设施云原生
    发表于 08-30 12:15 434次阅读
    中国移动网络<b class='flag-5'>云原生</b>演进技术白皮书

    深耕数据库根技术,华为云云原生数据库推动汽车产业数智升级

    近日,由 CNCF、中国信通院、华为云及业界云原生技术精英们构建的全球云原生交流平台——创原会,走进福佑卡车,揭秘公路货运背后的数智动能,共享数智硬核盛宴。华为云数据库软件总工程师彭立勋受邀参观
    的头像 发表于 06-29 16:44 246次阅读
    深耕<b class='flag-5'>数据</b>库根技术,华为云<b class='flag-5'>云原生</b><b class='flag-5'>数据</b>库推动汽车产业数智升级

    华为云发布面向消费终端的企业云原生白皮书,开辟移动时代云原生路径

    云原生路径何处寻?答案在华为云与华为终端云的牵手中
    的头像 发表于 06-06 17:38 672次阅读
    华为云发布面向消费终端的企业<b class='flag-5'>云原生</b>白皮书,开辟移动<b class='flag-5'>时代</b>的<b class='flag-5'>云原生</b>路径

    探索云原生技术发展与应用实践,赋能企业数字化转型 | 2023开放原子全球开源峰会云原生分论坛即将启幕

    随着开源成为软件技术创新和协同发展的重要模式,企业对云原生的认知日益强化,越来越多的企业应用云原生技术与产品解决实际问题,云原生进入落地爆发的关键期。IDC报告显示,2023年企业云原生
    的头像 发表于 06-01 14:48 316次阅读
    探索<b class='flag-5'>云原生</b>技术发展与应用实践,赋能企业数字化转型 | 2023开放原子全球开源峰会<b class='flag-5'>云原生</b>分论坛即将启幕

    探索云原生技术发展与应用实践,赋能企业数字化转型 | 2023开放原子全球开源峰会云原生分论坛即将启幕

    随着开源成为软件技术创新和协同发展的重要模式,企业对云原生的认知日益强化,越来越多的企业应用云原生技术与产品解决实际问题,云原生进入落地爆发的关键期。IDC报告显示,2023年企业云原生
    的头像 发表于 05-30 01:40 375次阅读
    探索<b class='flag-5'>云原生</b>技术发展与应用实践,赋能企业数字化转型 | 2023开放原子全球开源峰会<b class='flag-5'>云原生</b>分论坛即将启幕

    使用可计算SSD加速云原生数据

    PolarDB是阿里云设计的云原生OLTP数据库,每个数据库实例由多个数据库节点和存储节点组成,节点间通过高速RDMA网络连接在一起。为了保证原子性,每个POLARDB实例同时仅允许一
    的头像 发表于 05-25 09:33 442次阅读
    使用可计算SSD加速<b class='flag-5'>云原生</b><b class='flag-5'>数据</b>库

    了解云原生和边缘计算

    云原生和边缘计算这两个名词都是比较新的,在这里我们先来大致了解一下它们是干嘛的。 首先从万物互联的概念提出,随着网络技术的发展,当然其中主要是以5g技术的日益发展作为爆发点,可以毫无疑问的说,我们
    发表于 05-18 17:23 1次下载
    了解<b class='flag-5'>云原生</b>和边缘计算

    中国电信自研 RISC-V 云原生轻量级虚拟机 TeleVM 成功运行,内存开销降低约 90%

    据 StarFive 官方微信号发布,中国电信研究院基于 CTyunOS 及欧拉开源生态,已成功研发业界首个支持 RISC-V 的云原生轻量级虚拟机 TeleVM,并在 RISC-V CPU IP
    发表于 05-05 09:46