0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

数据不可估量,亚马逊云科技开启云原生数仓新篇章

华夏大视野 来源:华夏大视野 作者:华夏大视野 2023-01-13 09:49 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

2022年12月,在拉斯维加斯举办的2022亚马逊云科技re:Invent全球大会完美落幕,这一标志性的技术盛宴再一次给人们留下了无限的想象空间,等待大家在新的一年去持续探索和发掘。近日,亚马逊云科技中国巡演——广州、深圳站也如期举行,其间对re:Invent全球大会的很多项目进行解读,为中国企业提供更多的可能。

简化数据摄入工作

最好是没有

要想数据分析到位,首先要保证有稳定、可靠的数据摄入通道,来实现端到端的第一环(其实还有第零环,是业务在数据源侧的规划),而这一块也是大部分数据工程中遇到最头疼的问题之一。首先,数据源就包含很多种,最常见的数据源包括关系型数据库、数据湖和实时的流数据。其次,不管是手动还是自动的ETL流水线,都需要专业的数据工程团队来构建和维护,并且经常要处理或介入数据结构的变更等情况。这次,Redshift连发多个功能特性来帮助客户解决或者消除这类问题。

pYYBAGPAuMWAGTjzAAHgs-K_hI8026.png

首先是最常见的关系型数据库,也就是经典的OLTP向OLAP的数据传递。如果是为了更快或者更实时地获取线上业务的事务数据来做分析,通常可以通过开启数据库的binlog来捕捉CDC变更,然后再使用解析CDC的工具如Amazon DMS、Debezium等来实现,这些都需要客户进行不断的监控、配置和优化。此外,不同的数据库和数据表可能会有不同的需求,这样就再加倍了数量级的维护成本。

相信大家对Redshift印象最深的一个功能就是Zero ETL,帮助客户完成从1到0的过程!Redshift通过与Amazon Aurora数据库深度集成,在事务型数据写入Aurora后,数据在底层被持续地复制到Redshift,完成行式数据存储到列式数据存储的转换,彻底消除了自己构建和维护复杂数据管道的工作。没有Hybrid OLTP和OLAP,仍然是熟悉的Amazon Purpose-Build(Aurora还是 Aurora,Redshift还是Redshift)各司其职解决最实际的问题。同时,客户的应用程序架构保持不变,读写端点指向Aurora,分析端点指向Redshift,但是底层已经不再是一大串接一大串的数据抽取、转换和加载,直接无缝衔接并且达到近实时的效果。

然后是数据湖S3,Redshift开始支持从S3数据湖中自动复制,手动挡升级自动挡。之前,如果想要拷贝数据都需要手动或者定时执行COPY命令,现在Redshift新添加了COPY JOB命令自动检测指定路径的新文件,跳过已经加载完毕的旧文件。以前编写的定时任务脚本可以退役了,而且再也不用担心手抖重复执行,生活变得更美好了。

如果业务需求是实时的,那么通过S3作为Staging存储再COPY的方式就跟不上节奏了,所以,流数据也要拿下。re:Invent之前,Redshift流式摄入已经开始支持Amazon Kinesis Data Streams,这次发布更是添加了Amazon Managed Streaming for Apache Kafka(MSK),同时流式摄入也正式推出,告别预览。从上面的图中可以看出,流式摄入合并了数据消费的过程,直接在Redshift中实现并持续加载到数据仓库。在Redshift中,流式摄入是通过物化视图的方式实现的(查找官方文档是在物化视图章节),用户还可以在这个物化视图基础上再配合其他数据叠加物化视图提高查询效率。另外,别忘了还可以给流式摄入开启自动刷新功能。从此,客户可以更简单地完成实时数据分析,包括IoT物联网设备、点击流、应用程序监控、欺诈检测和游戏实时排行榜等。

以上,Redshift简化了各种最经典的数据源ETL方式,数据坐等分析。

更多数据分析的利器

来点火花

数据已经妥妥地进到了数据仓库的碗里来,接下来就请开始它的表演了。此时,数据工程师表示Redshift SQL很好,但是还有些更复杂业务数据逻辑更适合通过代码的方式进行操作和处理(而不是通过UDF)。开源大数据生态体系下有非常丰富的软件供组织采用了,其中功能完善、发展稳定的Apache Spark往往是一个优先的选择。在亚马逊云科技平台上使用Spark并不复杂,有托管服务EMR和Glue保驾护航,还有新发布的Amazon Athena for Apache Spark可以极速启动交互。但是,说到Spark和Redshift之间进行数据分析还是需要折腾一下的,或者是通过将Redshift中的数据导出到S3中,或者是使用各种第三方的Spark连接器,前者需要多走一步浪费时间和资源,后者没有多少人维护不说,性能和安全性都令人堪忧。因此,Amazon Redshift integration for Apache Spark应运而生。

poYBAGPAuMaAFeYeAAEKc7lY0kk657.png

这个内置集成模式基于一个之前的开源项目,提升了性能和安全性,相信后续亚马逊云科技仍将继续跟进这个开源项目,并将各种升级改造的好东西贡献给社区。目前,EMR、EMR on EKS、EMR Serverless和Glue(限定版本)都预置了打包好的连接器和JDBC驱动程序,客户完全可以直接开始编写代码(有爱好者迫不及待连夜在EMR Studio中使用EMR on EKS完成了对Redshift Serverless和集群模式的交互式读写测试,体验极佳),对Redshift中的数据进行处理。如果客户的数据分析工作负载以Spark为主,也可以通过Spark统一对各种数据源的分析。

审核编辑hhy

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据库
    +关注

    关注

    7

    文章

    3993

    浏览量

    67742
  • 开源
    +关注

    关注

    3

    文章

    4038

    浏览量

    45578
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    广汽集团与华为数字能源开启深度协同新篇章

    和充电表现、整车驾乘体验提升,围绕动力域相关系统和整车产品的设计、制造、销售服务展开深入合作,开启深度协同新篇章
    的头像 发表于 11-11 15:22 293次阅读

    西班牙工程与技术公司携手FLIR开启高温检测新篇章

    在钢铁制造这一传统而充满挑战的领域,高温与恶劣环境如同两道难以逾越的鸿沟,横亘在提升生产效率与质量的道路上。然而,西班牙工程与技术先锋BcB Informatica y Control携手Flir公司,构建了创新的技术解决方案,正为这一行业注入智能化升级的新动力,开启高温检测的
    的头像 发表于 11-02 11:37 611次阅读

    华为网络技术赋能上海院开启智慧建筑新篇章

    智慧建筑的实践者和推动者,也正在通过网络技术的创新应用,打造智慧、绿色的高品质万兆园区新标杆,以智力量共拓“城市更新”崭新篇章
    的头像 发表于 10-30 10:17 435次阅读

    盘古信息PCB解决方案:破译智造密码,开启智造新篇章

    。如何突破瓶颈,实现从“制造”向“智造”的华丽转身,成为PCB企业亟待破解的时代课题。广东盘古信息科技股份有限公司(以下简称:盘古信息)洞察行业痛点,以重构之力,打造出IMS MOM制造运营管理系统PCB行业解决方案,开启PCB智造新篇章。 盘古
    的头像 发表于 09-09 08:52 512次阅读

    台电机驱动:开启智能化时代的新篇章

    在科技飞速发展的今天,智能化已经渗透到我们生活的方方面面。而在众多科技领域中,台电机驱动技术正以其独特的魅力,开启着智能化时代的新篇章
    的头像 发表于 07-23 18:16 738次阅读

    松下携手深圳广电集团开启视听传播新篇章

    在2025年深圳广播电影电视集团(以下简称“深圳广电集团”)的4K超高清采购项目中,松下凭借卓越的技术实力与丰富的行业经验,成功中标“新闻演播室群”、“外拍设备”等核心项目,标志着松下的新媒体技术与专业视音频产品在深圳广电集团实现了全面落地应用,双方携手开启视听传播新篇章
    的头像 发表于 04-15 15:16 829次阅读

    国产首款量产型七位半万用表!青岛汉泰开启国产高精度测量新篇章

    国产首款量产型七位半万用表!青岛汉泰开启国产高精度测量新篇章。 2025年3月18日,青岛汉泰推出全新HDM3075系列7位半数字万用表。HDM3075系列是国产首款实现量产的七位半万用表产品,它
    发表于 04-01 13:15

    智造未来,工业互联网mes系统开启“工业4.0”新篇章

    的生产方式,更开启了“工业4.0”的新篇章,引领制造业迈向更加智能化、高效化的未来。▲工业互联网mes系统:智能制造的超级大脑工业互联网mes系统,作为连接企业资
    的头像 发表于 03-21 10:32 667次阅读
    智造未来,工业互联网mes系统<b class='flag-5'>开启</b>“工业4.0”<b class='flag-5'>新篇章</b>

    WMS仓储管理系统(WMS系统),开启智能仓库管理新篇章

    在数字化与智能化高速发展的今天,仓储管理作为企业供应链中的关键环节,正经历着前所未有的变革。WMS仓储管理系统作为这场变革的核心驱动力,以其高效、准确、自动化的特点,正逐步开启智能仓库管理的新篇章
    的头像 发表于 03-13 16:02 1819次阅读
    WMS仓储管理系统(WMS系统),<b class='flag-5'>开启</b>智能仓库管理<b class='flag-5'>新篇章</b>

    微软携手长虹佳华开启AI视频广告行业新篇章

    近日,微软重磅发布了新的AI视频广告解决方案,并与长虹佳华在AI视频广告领域达成战略合作。双方共同举办了“智创翼,生态领航”战略合作启动仪式,携手开启广告行业的新篇章
    的头像 发表于 02-26 11:06 1005次阅读

    同星智能与韩国顺天乡大学正式签约,开启教育合作新篇章

    TOSUNNEWS2月17日,同星智能与韩国顺天乡大学签署校企合作协议,开启教育合作新篇章。双方将在产学研合作、技术交流、人才培养等方面展开深度合作,共同推动全球汽车产业优秀人才的培养。韩国顺天乡
    的头像 发表于 02-21 20:03 1398次阅读
    同星智能与韩国顺天乡大学正式签约,<b class='flag-5'>开启</b>教育合作<b class='flag-5'>新篇章</b>!

    智慧路灯:点亮城市,智慧公交站台开启智慧新篇章

    智慧路灯:点亮城市,智慧公交站台开启智慧新篇章
    的头像 发表于 02-11 13:40 674次阅读
    智慧路灯:点亮城市,智慧公交站台<b class='flag-5'>开启</b>智慧<b class='flag-5'>新篇章</b>

    云原生LLMOps平台作用

    云原生LLMOps平台是一种基于计算基础设施和开发工具,专门用于构建、部署和管理大型语言模型(LLM)全生命周期的平台。以下,是对云原生LLMOps平台作用的梳理,由AI部落小编整理。
    的头像 发表于 01-06 10:21 714次阅读

    什么是云原生MLOps平台

    云原生MLOps平台,是指利用计算的基础设施和开发工具,来构建、部署和管理机器学习模型的全生命周期的平台。以下,是对云原生MLOps平台的介绍,由AI部落小编整理。
    的头像 发表于 12-12 13:13 846次阅读

    比亚迪与华工科技开启战略合作新篇章

    近日,比亚迪半导体事业部与华工科技高理公司、激光公司开展座谈交流,开启战略合作新篇章
    的头像 发表于 12-10 14:45 1104次阅读