0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

数据不可估量,亚马逊云科技开启云原生数仓新篇章

华夏大视野 来源:华夏大视野 作者:华夏大视野 2023-01-13 09:49 次阅读

2022年12月,在拉斯维加斯举办的2022亚马逊科技re:Invent全球大会完美落幕,这一标志性的技术盛宴再一次给人们留下了无限的想象空间,等待大家在新的一年去持续探索和发掘。近日,亚马逊云科技中国巡演——广州、深圳站也如期举行,其间对re:Invent全球大会的很多项目进行解读,为中国企业提供更多的可能。

简化数据摄入工作

最好是没有

要想数据分析到位,首先要保证有稳定、可靠的数据摄入通道,来实现端到端的第一环(其实还有第零环,是业务在数据源侧的规划),而这一块也是大部分数据工程中遇到最头疼的问题之一。首先,数据源就包含很多种,最常见的数据源包括关系型数据库、数据湖和实时的流数据。其次,不管是手动还是自动的ETL流水线,都需要专业的数据工程团队来构建和维护,并且经常要处理或介入数据结构的变更等情况。这次,Redshift连发多个功能特性来帮助客户解决或者消除这类问题。

pYYBAGPAuMWAGTjzAAHgs-K_hI8026.png

首先是最常见的关系型数据库,也就是经典的OLTP向OLAP的数据传递。如果是为了更快或者更实时地获取线上业务的事务数据来做分析,通常可以通过开启数据库的binlog来捕捉CDC变更,然后再使用解析CDC的工具如Amazon DMS、Debezium等来实现,这些都需要客户进行不断的监控、配置和优化。此外,不同的数据库和数据表可能会有不同的需求,这样就再加倍了数量级的维护成本。

相信大家对Redshift印象最深的一个功能就是Zero ETL,帮助客户完成从1到0的过程!Redshift通过与Amazon Aurora数据库深度集成,在事务型数据写入Aurora后,数据在底层被持续地复制到Redshift,完成行式数据存储到列式数据存储的转换,彻底消除了自己构建和维护复杂数据管道的工作。没有Hybrid OLTP和OLAP,仍然是熟悉的Amazon Purpose-Build(Aurora还是 Aurora,Redshift还是Redshift)各司其职解决最实际的问题。同时,客户的应用程序架构保持不变,读写端点指向Aurora,分析端点指向Redshift,但是底层已经不再是一大串接一大串的数据抽取、转换和加载,直接无缝衔接并且达到近实时的效果。

然后是数据湖S3,Redshift开始支持从S3数据湖中自动复制,手动挡升级自动挡。之前,如果想要拷贝数据都需要手动或者定时执行COPY命令,现在Redshift新添加了COPY JOB命令自动检测指定路径的新文件,跳过已经加载完毕的旧文件。以前编写的定时任务脚本可以退役了,而且再也不用担心手抖重复执行,生活变得更美好了。

如果业务需求是实时的,那么通过S3作为Staging存储再COPY的方式就跟不上节奏了,所以,流数据也要拿下。re:Invent之前,Redshift流式摄入已经开始支持Amazon Kinesis Data Streams,这次发布更是添加了Amazon Managed Streaming for Apache Kafka(MSK),同时流式摄入也正式推出,告别预览。从上面的图中可以看出,流式摄入合并了数据消费的过程,直接在Redshift中实现并持续加载到数据仓库。在Redshift中,流式摄入是通过物化视图的方式实现的(查找官方文档是在物化视图章节),用户还可以在这个物化视图基础上再配合其他数据叠加物化视图提高查询效率。另外,别忘了还可以给流式摄入开启自动刷新功能。从此,客户可以更简单地完成实时数据分析,包括IoT物联网设备、点击流、应用程序监控、欺诈检测和游戏实时排行榜等。

以上,Redshift简化了各种最经典的数据源ETL方式,数据坐等分析。

更多数据分析的利器

来点火花

数据已经妥妥地进到了数据仓库的碗里来,接下来就请开始它的表演了。此时,数据工程师表示Redshift SQL很好,但是还有些更复杂业务数据逻辑更适合通过代码的方式进行操作和处理(而不是通过UDF)。开源大数据生态体系下有非常丰富的软件供组织采用了,其中功能完善、发展稳定的Apache Spark往往是一个优先的选择。在亚马逊云科技平台上使用Spark并不复杂,有托管服务EMR和Glue保驾护航,还有新发布的Amazon Athena for Apache Spark可以极速启动交互。但是,说到Spark和Redshift之间进行数据分析还是需要折腾一下的,或者是通过将Redshift中的数据导出到S3中,或者是使用各种第三方的Spark连接器,前者需要多走一步浪费时间和资源,后者没有多少人维护不说,性能和安全性都令人堪忧。因此,Amazon Redshift integration for Apache Spark应运而生。

poYBAGPAuMaAFeYeAAEKc7lY0kk657.png

这个内置集成模式基于一个之前的开源项目,提升了性能和安全性,相信后续亚马逊云科技仍将继续跟进这个开源项目,并将各种升级改造的好东西贡献给社区。目前,EMR、EMR on EKS、EMR Serverless和Glue(限定版本)都预置了打包好的连接器和JDBC驱动程序,客户完全可以直接开始编写代码(有爱好者迫不及待连夜在EMR Studio中使用EMR on EKS完成了对Redshift Serverless和集群模式的交互式读写测试,体验极佳),对Redshift中的数据进行处理。如果客户的数据分析工作负载以Spark为主,也可以通过Spark统一对各种数据源的分析。

审核编辑hhy

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据库
    +关注

    关注

    7

    文章

    3591

    浏览量

    63377
  • 开源
    +关注

    关注

    3

    文章

    2991

    浏览量

    41723
收藏 人收藏

    评论

    相关推荐

    讯维融合通信系统:开启企业沟通新篇章,引领行业变革

    讯维融合通信系统以其前瞻性的技术设计和卓越的性能表现,正开启企业沟通的新篇章,引领行业变革。该系统不仅为企业提供了高效、便捷的通信解决方案,更通过跨界融合与创新,推动了整个通信行业的进步。 首先
    的头像 发表于 04-10 16:31 128次阅读

    麦当劳中国携手微软,共创智能化新篇章

    麦当劳中国携手微软,共创智能化新篇章。双方宣布,微软将成为麦当劳在中国的首个智能化深度创新伙伴。基于微软全球智能云矩阵中的Azure云基础设施服务、Microsoft 365现代办公服务以及
    的头像 发表于 03-22 09:25 286次阅读

    鸿蒙生态创新中心正式揭幕!拓维信息旗下开鸿智谷共谱鸿蒙产业新篇章

    3月19日,鸿蒙生态创新中心(以下称“创新中心”)揭幕仪式在深圳举行。拓维信息副总裁、开鸿智谷总裁廖秋林受邀参与揭幕仪式,携手生态伙伴共同助力鸿蒙产业开启发展新篇章。拓维信息高级副总裁
    的头像 发表于 03-21 08:13 219次阅读
    鸿蒙生态创新中心正式揭幕!拓维信息旗下开鸿智谷共谱鸿蒙产业<b class='flag-5'>新篇章</b>

    首个鸿蒙生态创新中心在深揭幕,开启鸿蒙产业新篇章共绘鸿蒙原生应用开发新篇章

    首个鸿蒙生态创新中心在深揭幕 开启鸿蒙产业新篇章 2024年3月19日,鸿蒙生态创新中心揭幕仪式在深圳举行,标志着鸿蒙产业发展迈出新的坚实步伐。深圳市人民政府副秘书长黄强,华为终端BG首席运营官何刚
    发表于 03-20 09:55

    比亚迪匈牙利首批乘用车正式交付 成功开启中东欧市场崭新篇章

    2月23日,在匈牙利外交部部长西雅尔多·彼得与比亚迪集团董事长兼总裁王传福的共同见证下,比亚迪向匈牙利首批车主成功交付了BYD ATTO 3(元PLUS),标志着比亚迪成功开启了中东欧市场的崭新篇章
    的头像 发表于 02-25 09:32 570次阅读

    【鸿蒙千帆起】高德地图携手HarmonyOS NEXT,开启智能出行新篇章

    2024 年 1 月 18 日下午,华为举办了鸿蒙生态千帆启航仪式,对外宣布 HarmonyOS NEXT 星河预览版现已开放申请,同时,首批 200+鸿蒙原生应用加速开发,鸿蒙生态设备数量更是突破
    发表于 02-02 11:09

    联想AI PC新品与Agent个人助理“小乐同学”亮相,品牌营销新篇章开启

    2024年是AI PC元年,犹如一幅时代画卷,描绘着生成式AI等尖端人工智能技术与个人电脑的深刻融合,勾勒出一场前所未有的技术革命。联想一直以来不断突破自我,致力于技术创新,推动科技进步,2024年将继续携手人工智能,开启新篇章
    的头像 发表于 01-20 11:41 875次阅读

    米哈游大数据云原生实践

    近年来,容器、微服务、Kubernetes 等各项云原生技术的日渐成熟,越来越多的公司开始选择拥抱云原生,并开始将 AI、大数据等类型的企业应用部署运行在云原生之上。以 Spark 为
    的头像 发表于 01-09 10:41 265次阅读
    米哈游大<b class='flag-5'>数据云原生</b>实践

    优必选开创人形机器人产业的新篇章

    优必选科技,这家在人形机器人研发与制造领域享有盛誉的中国企业,于2023年12月29日正式在香港联合交易所挂牌上市。这一里程碑式的成就,不仅彰显了其卓越的研发实力和市场口碑,而且成功开创了人形机器人产业的新篇章,缔造出人形机器人第一股的辉煌业绩。
    的头像 发表于 01-03 18:17 783次阅读

    2023香港秋灯展丨移远通信闪耀亮相,开启Matter生态互联新篇章

    丁子文围绕“Matter生态互联新篇章”主题发表演讲,与现场来访者共同探讨在Matter协议推动下的智能家居发展前景。Matter协议实力护航释放智能家居蓝海效应伴
    的头像 发表于 10-28 08:30 630次阅读
    2023香港秋灯展丨移远通信闪耀亮相,<b class='flag-5'>开启</b>Matter生态互联<b class='flag-5'>新篇章</b>

    续写新篇章!德珑集团总部及高端制造基地开工仪式成功举行

    续写新篇章!德珑集团总部及高端制造基地项目开工仪式典礼在佛山南海区顺利举行,磁性元器件行业高端制造领域再添新军。
    的头像 发表于 10-24 10:53 606次阅读

    开启企业数字化转型新篇章,华为云 828 企业节来了

    ,为企业提供了一个展示和学习最新科技的平台,同时也为企业开启数字化转型的新篇章。 数字化转型是指企业利用信息技术和数字化手段,对传统业务模式进行改造和升级,以提高效率、降低成本、增强竞争力。在数字化转型的过程中,云计算
    的头像 发表于 09-26 14:38 159次阅读
    <b class='flag-5'>开启</b>企业数字化转型<b class='flag-5'>新篇章</b>,华为云 828 企业节来了

    开启深度视觉新篇章,知芯传感MEMS结构光投射模组助力工业智造!

    今天,好消息传来:MEMS器件国产化替代的践行者知芯传感,推出了最新开发的产品——MEMS结构光投射模组!这一模组的推出,将有助于解决工业自动化和协作机器人需求上升之后,市场对深度成像技术要求,并提升深度相机的普适性。国纳科技酱认为,这必将开启深度视觉新篇章,助力中国工业
    的头像 发表于 09-09 14:38 852次阅读

    华为开发者大会2023丨软通动力&鸿湖万联邀您共同见证鸿蒙生态新篇章

    原文标题:华为开发者大会2023丨软通动力&鸿湖万联邀您共同见证鸿蒙生态新篇章 文章出处:【微信公众号:软通动力】欢迎添加关注!文章转载请注明出处。
    的头像 发表于 07-31 17:35 543次阅读

    RISC-V入!赛昉科技联合中国电信完成首个RISC-V云原生轻量级虚拟机验证

    适配优化,结合RISC-V精简指令集特性,裁剪了冗余功能,实现了既保证用户应用安全隔离,同时降低资源消耗并提升响应速度,适用于可信云原生、Serverless、函数计算等新型弹性计算业务场景。 作为
    发表于 05-11 14:08