0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

下秒数据CEO蔡致暖:云原生时代数据管道的迭代之路

下秒数据Nexadata 来源: 下秒数据Nexadata 作者: 下秒数据Nexadata 2022-09-20 10:59 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

在如今数据被称为新经济时代的石油的大背景下,数据管道是什么?处于什么位置?其技术和演进趋势又是怎么样的?

2022年7月12日,在CSDN云原生系列在线峰会第13期“现代数据栈峰会”上,针对这些连续发问,下秒数据CEO蔡致暖对数据管道1.0至3.0的迭代过程及技术特点进行了详细介绍。

数据管道和ETL

数据管道是一种重要的数据基础设施,ETL管道是最常用的数据管道。

数据基础设施是底座,数据管道作为数据库及数据仓库的最佳拍档,也是一种重要的数据基础设施。

在了解数据管道具体是什么之前,首先要了解什么是ETL管道。ETL管道是从其源系统/数据库中提取数据,对数据进行转换,然后将其加载到数据仓库或数据库中,从中获取业务见解。

数据管道包含ETL管道,因为对于数据管道来说,数据的目的地不一定是数据库或数据仓库,也可以是其他的应用程序,并且支持整个组织的数据编排、管理和使用。

数据管道中的步骤通常包括提取、转换、组合、验证、可视化以及其他此类数据分析过程。如果没有数据管道,这些过程需要大量耗时而繁琐的手动步骤,并给人为错误留下空间。数据管道的最佳类比是传送带,它能高效、准确地将数据传送到流程的每一步。例如,数据管道可帮助数据从SaaS应用高效地流向数据仓库等。

为什么说数据管道是重要的数据基础设施?

现如今企业数据孤岛变得普遍,各类SaaS应用的使用频率越来越高。数据管道解决的是如何自动化地把不同来源的数据传递给组织中的人、系统、应用程序,并将数据转化为业务价值。数据管道扮演的不仅仅是一个数据传送带的作用,它还需要把不同来源的数据,经过技术手段变成业务价值再传送出去,最终让组织方便地使用数据。

数据管道1.0:ETL技术和数据仓库

数据管道1.0的关键词是ETL与数据仓库,基于传统ETL技术构建数据仓库的的过程可划分为五步:

定义数据项目及相关业务需求;

确定项目的相关数据源;

定义特定业务问题所需的数据模型(Schema);

构建ETL管道(提取、转换和加载函数);

进行数据分析并获得业务见解。

其关键特征在于,数据在加载到数据仓库之前需进行转换。这是因为在20世纪90年代,存储、计算和带宽十分昂贵,因此在将数据装入仓库之前减少数据量至关重要。

传统ETL技术的局限性

随着数据处理技术的不断演进,传统ETL技术难以适应业务的发展,有较多弊端显现:

不够灵活、伸缩性差,一旦业务规则变化,管道需重新设计;

需持续维护,开发工程师要深度参与,维护成本高;

技术复杂,可以使用各种不同的编程语言。

案例解析——业务逻辑稍复杂,维护成本奇高无比

上图是一个典型的使用Kettle构建的数据管道,涉及节点数量20余。在业务变化和需求修改增多的情况下,数据管道的复杂度和维护成本都会奇高无比。

数据管道2.0:ELT和云计算/大数据

数据管道2.0的主要目标依旧是构建数据仓库,其关键词是ELT与云计算/大数据。

在2.0阶段,我们将ETL技术更换为ELT技术,这是因为随着大数据与云计算的发展,存储、计算和带宽成本大幅下降,组织可以在数据仓库中加载大量未转换的数据,而不必担心成本和限制。

ELT管道从源系统中提取数据并将其直接加载到数据仓库中,无需进行转换。数据入库后针对特定业务,基于SQL或DBT(SQL扩展)等工具进行转换和建模。

ELT解决了传统ETL技术的痛点

ELT更加灵活,每个数据源的数据都可以存入库中,EL过程不涉及业务转化,可以实现标准化,进而可以按需扩展数据源、按需建模;

ELT更加普适,转换和建模不再依赖编程语言,入库后使用SQL即可;

ELT更加健壮,转换层的故障(如上游架构或下游数据模型更改时)不会阻止数据加载。

数据管道3.0:连接器和API经济

虽然数据管道2.0已经实现了将数据都存入数据仓库中,但转换和建模依然对技术具有高要求。以往做数据集成多以数据库或文件为目标,但随着近年来SaaS应用的普及,组织使用不同的应用及工具开展营销和经营活动,

数据集成的技术门槛并没有因为ELT的到来而降低。

数据管道3.0——基于连接器和API经济,自动化价值数据的流动

实际上,数据管道3.0及数据管道2.0的ELT都是现代数据栈的组成部分。相较数据管道2.0,数据管道3.0主要在两个方面做出了改变。

数据连接器的标准化和商品化:ELT为数据连接器的标准化打下了坚实基础,将问题转换为如何使数据连接器更易于构建;

数据分析结果不应该封闭在数据仓库或BI工具中,应该通过API或数据编排自动化,推动组织中价值数据的流动,如反向ETL。

数据管道3.0的主要特征

用户特征

用户无需关注技术,通过简单的配置就可以完成数据的连接处理分析,降低对开发人员的依赖;

弹性的工作负载,按用量付费。

技术特征

连接器标准化,数据集成可重用,大幅降低数据集成的成本及技术门槛;

转换、建模以数据仓库和SQL为中心

生态特征

易与其他工具(包括传统ETL工具)集成;

利用社区的力量来构建与维护连接器和模板化的数据模型。

总结

数据管道是一项重要的数据基础设施,使用智能数据管道技术,能够帮助组织将所有应用程序、数据库、事件和文件等数据信息提取到数据仓库中,并快速将分散的数据转化为数据集、API、自动化流程等开箱即用的数据服务,释放数据的价值。

审核编辑 黄昊宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • ETL
    ETL
    +关注

    关注

    0

    文章

    24

    浏览量

    10016
  • 大数据
    +关注

    关注

    64

    文章

    9029

    浏览量

    143072
  • 云原生
    +关注

    关注

    0

    文章

    265

    浏览量

    8497
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    2025开放原子开发者大会AI时代数据库创新实践分论坛成功举办

    11月21日,2025开放原子开发者大会——AI时代数据库创新实践分论坛成功举办。论坛以“构建AI时代智能数据底座”为核心主题,汇聚OpenTenBase、Apache Doris、KWDB
    的头像 发表于 11-27 14:56 317次阅读

    云原生环境里Nginx的故障排查思路

    本文聚焦于云原生环境Nginx的故障排查思路。随着云原生技术的广泛应用,Nginx作为常用的高性能Web服务器和反向代理服务器,在容器化和编排的环境中面临着新的故障场景和挑战。
    的头像 发表于 06-17 13:53 640次阅读
    <b class='flag-5'>云原生</b>环境里Nginx的故障排查思路

    从 Java 到 Go:面向对象的巨人与云原生的轻骑兵

    (Goroutine/Channel) 在 云原生基础设施领域 占据主导地位,它也是 Java 开发者探索云原生技术栈的关键补
    的头像 发表于 04-25 11:13 508次阅读

    华为加速AI时代数据存储产业发展

    近日,在华为中国合作伙伴大会2025上,华为数据存储产品线总裁周跃峰发表“共筑数智解决方案,共享数据存储产业大发展”主题演讲,深入探讨如何加速AI行业化落地,并分享AI时代数据存储产业的新趋势新机遇。
    的头像 发表于 04-01 15:35 903次阅读

    安科瑞:以综合能效管理解决方案,赋能人工智能时代数据中心可持续发展

    在人工智能与可持续发展的双重浪潮,安科瑞凭借其综合能效管理解决方案,不仅为数据中心行业提供了降本增效的实践路径,更推动了全球数字基础设施向绿色低碳转型。未来,随着技术的持续迭代与生态合作的深化,安科瑞有望成为AI
    的头像 发表于 02-21 15:37 811次阅读
    安科瑞:以综合能效管理解决方案,赋能人工智能<b class='flag-5'>时代</b>的<b class='flag-5'>数据</b>中心可持续发展

    云原生在汽车行业的优势

    近年来,“云原生”已成为科技领域的高频热词。从企业数字化转型到智能化产业布局,各行各业对云原生技术的需求呈现爆发式增长,向云计算转型已成为一大趋势。根据Gartner的预测,到2025年,超过95%的新数字工作负载将迁移至云端,而非传统
    的头像 发表于 02-21 09:20 1475次阅读

    云原生AI服务怎么样

    云原生AI服务,是指采用云原生的原则和技术来构建、部署和管理人工智能应用及工作负载的方法和模式。那么,云原生AI服务怎么样呢?下面,AI部落小编带您了解。
    的头像 发表于 01-23 10:47 763次阅读

    云原生LLMOps平台作用

    云原生LLMOps平台是一种基于云计算基础设施和开发工具,专门用于构建、部署和管理大型语言模型(LLM)全生命周期的平台。以下,是对云原生LLMOps平台作用的梳理,由AI部落小编整理。
    的头像 发表于 01-06 10:21 709次阅读

    浪潮信息剖析智能时代数据存储领域面临的挑战与机遇

    在当今数字化时代,算力与存力的协同增长已成为驱动各行各业发展的关键力量。特别是在人工智能(AI)这一前沿领域,随着数据量的爆炸式增长,对存储系统的需求日益复杂和多样。近期,在首届CCF中国存储大会上,浪潮信息存储首席架构师孙斌深刻剖析了智能
    的头像 发表于 12-30 09:43 1196次阅读

    如何选择云原生机器学习平台

    当今,云原生机器学习平台因其弹性扩展、高效部署、低成本运营等优势,逐渐成为企业构建和部署机器学习应用的首选。然而,市场上的云原生机器学习平台种类繁多,功能各异,如何选择云原生机器学习平台呢?下面,AI部落小编带您探讨。
    的头像 发表于 12-25 11:54 699次阅读

    艾体宝与Kubernetes原生数据平台AppsCode达成合作

    虹科姐妹公司艾体宝宣布与Kubernetes 原生数据平台 AppsCode达成正式合作,致力于将其核心产品KubeDB引入中国市场,为企业提供专业、高效的云原生数据库管理解决方案。
    的头像 发表于 12-16 15:07 895次阅读

    构建云原生机器学习平台流程

    构建云原生机器学习平台是一个复杂而系统的过程,涉及数据收集、处理、特征提取、模型训练、评估、部署和监控等多个环节。
    的头像 发表于 12-14 10:34 676次阅读

    什么是云原生MLOps平台

    云原生MLOps平台,是指利用云计算的基础设施和开发工具,来构建、部署和管理机器学习模型的全生命周期的平台。以下,是对云原生MLOps平台的介绍,由AI部落小编整理。
    的头像 发表于 12-12 13:13 843次阅读

    AI时代数据库技术发展论坛亮点前瞻

    可以看到,数据库技术作为数字经济的基石,在全球范围内正经历着由传统架构向云原生、智能化的转型。而AI技术的融入,使得数据库系统在性能优化、自动化管理、智能决策等方面展现出前所未有的潜力。
    的头像 发表于 12-12 11:31 838次阅读

    AmpereOne如何满足现代数据中心需求

    在当今要求苛刻的技术环境中,数据中心和企业面临着严峻的挑战。不断上升的能源成本促使公司寻求更节能的解决方案,以满足可持续性和成本目标。对可扩展计算密度的需求也在增长,以跟上日益复杂的应用程序和云原生
    的头像 发表于 12-09 17:33 995次阅读