0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

数据分析将成为创新起源与企业核心能力

程序人生 来源:程序人生 作者:程序人生 2022-04-28 10:06 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

据 Gartner 2022 年最新趋势分析,数据分析将成为创新起源与企业核心能力,数据越来越重要了。在更早前 IDC 和数据存储公司希捷的报告表示,我国产生的数据量从 2019 年的约 9.4ZB 将猛增至 2025 年的 48.6ZB。现在,数据工程师需要面对愈加繁杂和庞大的数据、离线场景/实时场景/流式场景等众多不同的分析场景、多个数据库技术栈并存和与之对应的存储计算成本,很多公司的数据团队往往会被这些海量数据与各类底层集群、基础设施的要求所淹没。

如何降本增效,打通数据分析与存储,提高数据分析的灵活性,同时降低底层资源的运维成本,成为了令技术团队头疼的问题。

智能湖仓,数据分析的下一站已到来

这个时代,驾驭数据的能力是所有决策者“技能清单”里最重要的一项。历史告诉我们,无论哪个行业,率先在行业中掌握新工具“利器”是多么重要。

最早的传统型、老式的纯数据仓库已经不适宜半 / 非结构化数据的处理;而单纯的数据湖虽然适合存储数据,但不支持事务处理,不保证数据质量,并且缺乏一致性与隔离性。

站在数据价值出口的角度来看,只有各类数据价值平台全面落地应用,大数据的潜能才会被进一步释放。为了实现数据湖和数据仓库之间的无缝流转,打通数据存储和计算的不同的层面,兼顾数据湖的灵活性和数据仓库的成长性,促进企业更有效的工具应用,像亚马逊云科技就提出了“智能湖仓”架构,帮助企业客户加快大数据价值实现进程。

以创新技术厂商亚马逊云科技为例,2020 年在亚马逊云科技 re:Invent 大会上,亚马逊云科技针对数据分析等相关服务推出了“智能湖仓”架构,不过早在 2017 年,亚马逊就发布了 Amazon Redshift Spectrum,该功能使得 Amazon Redshift 在当时就具备了打通数据湖和数据仓库的能力,实现跨数据湖、数据仓库的数据查询。此外,在 2021 年 re:Invent 大会上,亚马逊云科技更进一步,在存算分离架构基础上,推出更多数据分析服务的无服务器(Severless)版。

b3bafcc4-c689-11ec-bce3-dac502259ad0.png

现在,无服务器架构(以 2014 年推出的 Amazon Lambda 为代表)已经是云原生中最热门的技术类别。无服务器应用程序是由事件驱动的,并通过与技术无关的 API 或消息收发进行松散耦合,可以让开发者更关注于构建产品中的应用,而不需要管理和维护底层堆栈。现在,数据分析服务借助无服务器的能力,可以让用户更便捷地构建数据存储、分析、智能应用解决方案,彻底实现无服务器的数据分析服务,完成底层庞杂数据的高效处理、流转与共享。

能够达到这样的技术水平和高度,离不开时间的沉淀和技术的积累。想要深刻理解“智能湖仓”,就需要了解它的过去与现在。我们能看到,亚马逊云科技所推出的无服务器数据分析服务,经历了几个阶段:

b3cc64aa-c689-11ec-bce3-dac502259ad0.png

(1)2006 年,亚马逊云科技正式推出 Amazon S3,其作为亚马逊第一个云产品,提供了多种经济高效的存储类和易于使用的管理功能,从而满足特定的业务、组织和合规性要求。如今“智能湖仓”就是基于 Amazon S3 构建数据湖,绕湖集成数据仓库、大数据处理、日志分析、机器学习等数据服务。Amazon S3 数据湖的可靠性和大容量的数据存储能力,是确保整个“智能湖仓”架构有效应用的基础。对于软件开发人员来说,现在已经是无服务器架构的 Amazon S3 可以很低的成本提供可扩展、可靠且延迟低的数据存储基础设施,让开发人员利用云计算的规模优势,以极低的前期资源投入换取稳定的数据基础设施,非常适合进行快速技术创新。

b3eefb32-c689-11ec-bce3-dac502259ad0.jpg

(2)Amazon Athena 是一种无服务器的交互式查询服务,用户能够轻松使用标准 SQL 分析 Amazon S3 中的数据。无需 ETL ,具备 SQL 技能的任何人都可以轻松快速地分析数据湖中的大规模数据集,这对技术人员的生产力是一种解放!当我们想使用 SQL 直接进行数据湖上的分析且不想管理任何集群时,Athena 无疑是一个敏捷且快速开始的选择。

(3)Amazon Redshift 使用 SQL 在数据仓库、运营数据库和数据湖间分析结构化和半结构化数据,专注于在急速获取洞察,并交付业务结果,无需考虑管理数据仓库等基础设施。而现如今,无服务器版的 Amazon Redshift Serverless 使得数据仓库更加敏捷,用户无需亲自设置和管理数据仓库基础设施,即可在几秒钟内轻松运行和扩展分析,实现 PB 级数据规模的数据分析。目前来说,已经有很多企业去选择 Amazon Redshift 来缩短他们获得洞察的时间,因为它易于使用,可在任何规模提供可靠的性能分析所有数据,也可能是因为 Amazon Redshift 提供比其他云数据仓库高 3 倍的性价比。Amazon Redshift Serverless 是非常适合难以预测计算需求的情况,例如可变工作负载、具有空闲时间的周期性工作负载以及具有峰值的稳态工作负载。这种方法也非常适合需要快速入门的临时分析需求以及测试和开发环境。

b4031aae-c689-11ec-bce3-dac502259ad0.jpg

(4)Amazon EMR 也推出了 Serverless 无服务器的版本。开发者可以使用无服务器的方式运行使用开源大数据框架(如 Apache Spark、Hive 和 Presto)构建的程序,在云中运行 PB 级数据分析,而无需配置、管理、优化或保护集群。用户无需猜测集群大小,Amazon EMR Serverless 具备自动细粒度扩缩,并且提供性能优化的运行时,速度是开源版本的两倍以上。另外,Amazon EMR 在安装 Spark、Hive、Presto 或 Trino 时可以默认安装 Hudi 组件,以实现开放格式(如 Apache Parquet 和 Apache Avro)维护 Amazon S3 或 HDFS 中的数据。举个例子,使用 Amazon EMR,技术人员可以将 Parquet 数据集转化为 Hudi 数据集,而无需重写数据集,快速将现有数据集迁移至 Apache Hudi 数据集,例如 Amazon S3 上 1TB 的 Parquet 数据集,引导执行的速度已经比批量插入快了五倍!

通过了解,CSDN 看到,上述这些仅仅只是亚马逊云科技中的一小部分数据服务及其无服务器版的发展变化。发布既是无服务器架构的云原生 NoSQL—Amazon DynamoDB,两年前即实现无服务器化的云原生关系型数据库Amazon Aurora Serverless v1(本周第二代v2也已上线),也都是值得挖掘的技术创新。

正是随着这些服务的升级与发展,“智能湖仓”也在向更敏捷,更智能的方向演变。也让技术界看到,数据分析的下一站已到来。

全栈式云原生数据分析服务,让数据真正“敏捷分析”

我们能看到,“智能湖仓”更强调架构,强调数据的自由流动和集中统一治理。“智能湖仓”架构不是简单地将湖与仓打通,而是将湖、仓与专门构建等数据服务连接成为一个整体,让数据在其间移动和访问,进一步实现数据在数据湖、数据仓库,以及在数据查询、数据分析、机器学习等各类专门构建等服务之间按需移动,从而形成统一且连续等整体,满足客户等各种需求。

亚马逊云科技的“智能湖仓”架构具有灵活扩展、专门构建、数据融合、敏捷分析、开源开放等特点。详细来说,背靠 Amazon S3 数据湖存储的高可靠和大容量,对于数据存储资源弹性伸缩扩展,在此之上,技术人员通过使用亚马逊云科技经验总结的具象产品实力,如交互式查询服务 Amazon Athena、云上大数据平台 Amazon EMR、云数据仓库 Amazon Redshift 等专门构建的数据分析服务,以及数据融合统一治理的架构之下,企业可以无需机器学习经验,使用 SQL 语句,甚至不编写代码,去进行数据分析。这种模式可以大大降低数据人员的技术门槛,让更多数据业务人员去拥抱数据,实现敏捷、快速、低成本的数据分析。

在“智能湖仓”架构下,云原生数据分析服务可以全面覆盖流数据分析、数据湖、Hadoop 等常用的分析场景,所有均无服务器化。无服务器的分析工具让客户无需配置、扩展或管理集群或服务器,也不必担心容量配置,从而可以最大程度地为客户减少无差别的繁琐工作,让数据真正实现全栈、敏捷地分析。

面对海量数据与细分环境,亚马逊云科技无服务器的“智能湖仓”架构则将易用、易扩展、高性能、专门构建、安全及智能等特性融于一体,打通数据湖和数据仓库,进一步将各种服务无缝集成,确保数据在不同服务之间顺畅流动,进而帮助客户尽可能最大程度地提高数据价值,加速创新,并成为数据驱动型组织。

从亚马逊的技术布局和发展路径,我们能看到,全栈、云原生的数据分析时代已经到来,智能化的湖仓将成为新一代数据平台架构。而借助智能湖仓,与数据相关的技术与业务人员,将可以摆脱对底层架构与数据处理技术的多个掣肘,专注于挖掘数据的创新性分析与应用,以发现并抓住任何一个创新的机遇。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据分析
    +关注

    关注

    2

    文章

    1507

    浏览量

    35942
  • 数据集
    +关注

    关注

    4

    文章

    1230

    浏览量

    26046
  • 大数据
    +关注

    关注

    64

    文章

    9029

    浏览量

    143072

原文标题:全栈、云原生的数据分析时代已来,我们如何抓住机会?

文章出处:【微信号:coder_life,微信公众号:程序人生】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    经营数据分析可以通过哪些方式

    在数聚股份看来,提起经营数据分析,大家往往会联想到一些密密麻麻的数字表格,或是高级的数据建模手法,再或是华丽的数据报表。其实,“ 分析 ”本身是每个人都具备的
    的头像 发表于 12-05 16:31 360次阅读

    双碳合规+节能提效:智慧供热平台成为企业核心竞争力

    双碳目标下,供热行业面临低碳转型与效益提升的双重诉求,节能提效、合规达标成为企业突围的关键,而智慧供热平台凭借全流程智能化管控能力,精准破解行业痛点,成为
    的头像 发表于 11-12 08:56 307次阅读
    双碳合规+节能提效:智慧供热平台<b class='flag-5'>成为</b><b class='flag-5'>企业</b><b class='flag-5'>核心</b>竞争力

    普迪飞 Exensio®数据分析平台 | Test Operations解锁半导体测试新纪元

    )提供全面的数据分析,帮助企业保障产品质量,提高生产效率。三位一体:测试数据链接、控制与分析ExensioTestOperations旨在捕获测试
    的头像 发表于 08-19 13:53 822次阅读
    普迪飞 Exensio®<b class='flag-5'>数据分析</b>平台 | Test Operations解锁半导体测试新纪元

    Exensio 应用篇:赋能IDM企业的全能型数据分析中枢

    在当今半导体行业,企业面临着海量数据的挑战与机遇,如何高效整合与分析这些数据成为企业提升竞争力
    的头像 发表于 08-19 13:48 701次阅读
    Exensio 应用篇:赋能IDM<b class='flag-5'>企业</b>的全能型<b class='flag-5'>数据分析</b>中枢

    如何通过数据分析识别设备故障模式?

    通过数据分析识别设备故障模式,本质是从声振温等多维数据中提取故障特征,建立 “数据特征 - 故障类型” 的映射关系,核心可通过特征提取、模式匹配、趋势
    的头像 发表于 08-19 11:14 539次阅读
    如何通过<b class='flag-5'>数据分析</b>识别设备故障模式?

    构建自定义电商数据分析API

      在电商业务中,数据是驱动决策的核心。随着数据量的增长,企业需要实时、灵活的分析工具来监控销售、用户行为和库存等指标。一个自定义电商
    的头像 发表于 07-17 14:44 402次阅读
    构建自定义电商<b class='flag-5'>数据分析</b>API

    AI数据分析仪设计原理图:RapidIO信号接入 平板AI数据分析

    AI数据分析仪, 平板数据分析仪, 数据分析仪, AI边缘计算, 高带宽数据输入
    的头像 发表于 07-17 09:20 498次阅读
    AI<b class='flag-5'>数据分析</b>仪设计原理图:RapidIO信号接入 平板AI<b class='flag-5'>数据分析</b>仪

    TDengine 发布时序数据分析 AI 智能体 TDgpt,核心代码开源

    2025 年 3 月 26 日,涛思数据通过线上直播形式正式发布了其新一代时序数据分析 AI 智能体——TDgpt,并同步开源其核心代码。这一创新功能作为 TDengine 3.3.6
    的头像 发表于 03-27 10:30 563次阅读
    TDengine 发布时序<b class='flag-5'>数据分析</b> AI 智能体 TDgpt,<b class='flag-5'>核心</b>代码开源

    七款经久不衰的数据可视化工具!

    的图表和交互能力,不适合企业级的复杂数据分析任务。 5. Qlik Sense 优点:强大的数据发现和多维分析功能,支持自助式
    发表于 01-19 15:24

    电力系统数据分析技术

    随着智能电网技术的发展和大数据时代的到来,电力系统数据分析技术已成为电力行业不可或缺的一部分。这些技术能够帮助电力公司更好地理解电网的运行状态,预测电力需求,优化电力资源分配,提高电网的稳定性
    的头像 发表于 01-18 09:46 1225次阅读

    智能焊接数据分析设备提升工业效率与精度

    如何通过数据采集、分析与应用,实现对焊接过程的精确控制,从而提升工业生产的整体水平。 首先,智能焊接数据分析设备的核心在于其强大的数据
    的头像 发表于 01-15 14:11 677次阅读

    智能焊接数据分析设备提升制造精度与效率

    不稳定、生产效率低等问题。而智能焊接数据分析设备的应用,则为解决这些问题提供了新的思路和技术手段。本文将探讨智能焊接数据分析设备如何通过数据采集、分析及应用,提升焊接制?
    的头像 发表于 01-14 09:36 742次阅读

    Mathematica 在数据分析中的应用

    数据分析是现代科学研究和商业决策中不可或缺的一部分。随着数据量的爆炸性增长,对数据分析工具的需求也在不断增加。Mathematica,作为一种强大的计算软件,以其独特的符号计算能力和广
    的头像 发表于 12-26 15:41 1080次阅读

    首个科学计算基座大模型BBT-Neutron开源,助力突破大科学装置数据分析瓶颈

    ,是揭示宇宙起源、暗物质与暗能量等未解之谜的重要手段。高能物理实验(如粒子对撞实验、暗物质与暗能量实验等)产生的数据量极为庞大且复杂,传统的数据分析方法在处理海量数据和复杂物理结构时,
    的头像 发表于 12-26 15:29 1139次阅读
    首个科学计算基座大模型BBT-Neutron开源,助力突破大科学装置<b class='flag-5'>数据分析</b>瓶颈

    绝缘电阻测试仪数据分析与处理

    绝缘电阻测试仪主要用于检查电气设备或电气线路对地及相间的绝缘电阻。将所测得的结果与有关数据比较,这是对实验结果进行分析判断的重要方法。以下是对绝缘电阻测试仪的数据分析与处理方法的介绍: 一、
    的头像 发表于 12-10 15:00 1519次阅读