0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

现代数据栈构建要选对路,才能上“高速”

科技怪授 来源:科技怪授 作者:科技怪授 2023-04-12 14:31 次阅读

IDC调研显示,大数据分析已在数字化转型战略中成为第一要务。今年1月发布的《大数据技术前瞻》中更指出:超大规模数据如何组织和管理、数据量指数级增长时效性差、数据如何打破多源异构造成的隔阂、从单域走向跨域数据融合、数据治理质量评估等仍是制约大数据发展的瓶颈。当前,湖仓一体是最佳解决方案。

湖仓一体是构建现代数据栈的关键

在近两年的Gartner数据管理技术成熟曲线图中,Lakehouse湖仓一体技术已成为主流架构,其主要观点是结合数据湖和数据仓库的优势,旨在构建高效、灵活、简洁的现代数据平台。

数据湖内承载全量数据,根据业务需求灵活组合,对数据进行批量、实时加工,让企业用一份数据,按需建立AI、BI、数据科学等多工作负载,加速数据在湖内流动,减少80%的数据搬迁,一个数据平台按需支持批处理、流计算、交互式查询和机器学习四大场景,根据上层业务建设多样性数仓集市。

湖仓一体避免了烟囱式割裂建设导致的效率问题,进一步降低多技术平台导致的运维复杂度,降低了跨湖仓来回ETL的时延。

云技术、开源社区和开放技术模式,促使大数据飞速发展

▎头部云厂商引领大数据技术发展

根据《IDC大数据平台市场报告,2021H1》发现大数据平台的Top4厂商均为云厂商。云计算为大数据提供计算、存储资源,具有弹性伸缩,动态扩展等优势,加速了云与大数据技术深度融合。

·优势一:资源弹性发放,业务快速上线

通过云原生大数据服务,实现小时级发放上线,容器化部署,让客户更加聚焦上层业务。

·优势二:存算分离,更低TCO

云计算可以将计算和存储资源分离,实现计算不够扩计算、存储不足扩存储。

·优势三:多服务组合,灵活按需建立多工作负载

通过湖仓一体和云原生技术,围绕全局一份数据,按数据全生命周期展开,灵活按需构建。

▎大数据开源技术蓬勃发展

近十年来,经过全球持续技术投入,大数据开源技术已经成为事实标准,并在客户数字化、智能化转型推动下加速迭代更新。看似免费、易获得的特点,使得开源软件在各领域有意无意获得广泛使用。

根据DB-Engine显示开源license流行度已经超过一半,开源技术仍将持续主导大数据技术发展,即“软件吞噬世界,开源吞噬软件”。

▎开放数据格式更加适合灵活建模分析

大数据如今已经从早期的批量加工深入到政企客户全业务场景,但如果还采用传统的FS-LDM方式建模,将会面临灵活性差、周期长、成本高的问题。处于业务高速发展期的客户,往往要求数据平台要灵活、高效。

大数据技术通过开放的数据格式,帮助客户快速构建面向不同使用者的贴源层-明细层-汇总层-集市层,结合大宽表自助式OLAP分析组件,进一步解决大数据的大表关联问题,面向业务灵活建模,让数据驱动业务创新更加轻量敏捷。

华为云Stack FusionInsight MRS,云原生数据湖让数据走上“高速”路

华为在湖仓一体早有布局,在2020年华为全球分析师大会上华为云CTO张宇昕发布了FusionInsight湖仓一体架构。

作为部署在政企客户本地数据中心的云基础设施,华为云Stack提供FusionInsight MRS云原生数据湖(以下简称“FusionInsight MRS”),采用“一湖+多样集群+数据智能”分层建设,加速现代数据栈构建。

当前,政企客户数据平台存在三种常见的建设方案:

X传统数仓

兴起于上世纪90年代,对于早期仅需求数据OLAP较为常用。随着政企客户业务高速发展,对于面对多样性数据需要匹配业务特定场景的多样化诉求,能力太过单一。

X传统大数据

早期政企往往按业务部门需求,分开建设批处理集群、流处理集群,烟囱式建设导致建设成本居高不下。多系统平台运维复杂,还存在大量数据冗余,造成ETL来回搬迁,制约了政企数据发挥要素关键价值。

X湖外建仓

数仓在上世纪90年代高速发展,当时信息化程度较高的金融、运营商等行业,大量使用了传统数仓。2010-2020年之间,随着Spark、Flink、Hive、HBase、ClickHouse等技术逐步成熟,大数据逐步成为数据处理主要平台,湖外建仓导致湖仓来回搬迁的耗时问题日益凸显,超长的数据处理链路,多系统维护的复杂度,成为政企客户释放数据价值的障碍。

上述三种传统企业数据分析平台,现在都可以平滑演进到FusionInsight MRS。

▎FusionInsight MRS“一湖+多样集群+数据智能”分层建设

FusionInsight MRS通过“一湖+多样集群+数据智能”分层建设,有效整合传统大数据、传统数仓、湖外建仓方案,实现传统大数据平台向云原生数据湖演进、传统数仓数据集可以向MRS多样性集市升级。

·FusionInsight MRS采用湖仓一体架构,结合湖仓优势,即保障了全局一份数据,还实现了数据的一致性,进一步让实现大数据平台SQL化更好的落地;

·政企客户可以采用全局一个数据湖,让内部全量数据充分共享、存储与计算,实现数据资源相关的集约化;

·现代数据栈可以提供多样性集市,政企客户按照业务场景,在一个数据湖之上,匹配最适合当前业务的数仓集市,让数据计算达到极致性能;

·当然,近年来数智融合技术的成熟,在Gartner相关报告建设“以数据为中心的人工智能”的指导下,AI将基于数据湖,实现“数据->信息->知识->智慧”的价值闭环。

▎FusionInsight MRS湖仓一体架构实现集约化建设“一企一湖”

政企客户使用湖仓一体后,可以实现:

·架构开放,让企业数据平台持续演进

相较传统数仓、数据库系统,大数据面向海量数据分析而生,其横向扩展能力强,并随着政企客户业务的高速发展,最大单集群已经可扩至6万多节点,还可以通过集群联邦无限扩容。

·单向流动,数据一致性好

单向流动,无交叉。湖仓一体批流一体技术的成熟,让一份数据在加工时就实现不同业务数据的分层解耦,即保障了灵活性,又保障了时效性,更是实现全局数据的一致性,保障数据的“清洁”,也进一步减轻了数据治理的负担。

·全生命周期数据开发和数据治理,提高数据质量

数据治理是数据分析正确的前提,数据治理为政企客户提供多源数据的集成,通过数据开发编排实现数据作业的ETL和作业自动化,采用数据适量实现政企客户多层级全局统一的数据质量,最终形成可视、可管、可用的高质量数据地图。

·数据“可用不可见”

随着人工智能、密码学、可信执行环境三个关键技术的成熟,以保障数据安全与隐私为前提,数据的可信流通与用数,将通过多域数据联邦分析与训练实现,在数据开放、数据交易、普惠金融、联合营销、联合风控等场景大放异彩。

▎FusionInsight MRS多样集市灵活匹配高速发展的业务诉求

为灵活匹配高速发展的业务诉求,FusionInsight MRS也提供了丰富的组件:

·在多表复杂关联场景

大容量多表复杂关联分析组件Doris可以实现PB级数据亚秒响应的。

·在多维分析场景

ClickHouse支持亚秒级大宽表实时OLAP,单表支持1万多列,万亿行数据。

·在时序分析方面

专业的时序数据库IoTDB提供“专、快、易、稳、省”能力,压缩比相较传统时序数据库压缩比高达20多倍。

同时在众多分析数仓集市场景,还提供了GES图引擎、MRS HBase、Elasticsearch、Redis等其他多样集市,满足客户针对业务场景数据量、时效性等业务特点,按需、经济地建设多样数据集市的诉求。

基于FusionInsight智能数据湖,已经帮助客户数据在“高速”路上驰骋:

工商银行携手华为云Stack提供的FusionInsight MRS湖仓一体批流一体技术,建成同业最大单集群,总规模达5000+节点,支撑300+行内大数据应用,日均承载批量计算作业数达30万+,支撑行内外金融数据服务。

某股份制银行,早期采用批处理集群、数据分析集群、实时处理集群、数据仓库4套集群,存在多集群建设,管理维护复杂,人力填入代价高。

通过采用FusionInsight MRS方案,集群归一化建设,使得集群规模降低28.2%,资源利用率提升20%+,运维工作量减少50%,极大提升行内用数效率。

目前,FusionInsight智能数据湖已服务于全球60多个国家的3500多个客户,累计交付40多万节点,最大单集群已达1万多节点,700多PB,助力政务、金融、泛企业行业加速现代数据栈建设。

审核编辑黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 大数据
    +关注

    关注

    64

    文章

    8663

    浏览量

    136627
  • 华为云
    +关注

    关注

    3

    文章

    2157

    浏览量

    16815
收藏 人收藏

    评论

    相关推荐

    端接电阻没选对,DDR颗粒白费?

    端接可以解决很多反射问题,如果还有问题,有没有一种可能是端接电阻阻值没选对
    的头像 发表于 03-04 15:44 207次阅读
    端接电阻没<b class='flag-5'>选对</b>,DDR颗粒白费?

    IBM Storage Ceph:现代数据湖仓的理想技术底座

    Storage)。在此期间,企业在扩展 AI 时正面临前所未有的数据挑战:在多个位置、以多种形式存储的数据量飙升,但数据质量较差。为了帮助客户解决这一问题,我们需要领先的解决方案对客户的基础架构进行
    的头像 发表于 02-02 10:24 410次阅读
    IBM Storage Ceph:<b class='flag-5'>现代数据</b>湖仓的理想技术底座

    TST嘉硕贴片晶振对路由器的应用和作用

    TST嘉硕贴片晶振对路由器的应用和作用
    的头像 发表于 01-22 15:31 259次阅读

    ADE7880在读取数据进行哪些配置才能使芯片正常工作?

    我采用8位的单片机从ADE7880中读取数据,但是不知道在读取数据进行哪些配置,才能使芯片正常工作,并顺利读取数据。前面有工程师提过关于
    发表于 12-26 07:02

    石英晶振对路由器的作用

    石英晶振对路由器的作用。 首先,石英晶振在路由器中的作用之一是提供时钟信号。路由器是一种网络设备,它用于将数据从一个网络传输到另一个网络。在传输数据时,需要保持各个组件间的同步。石英晶振通过产生一个稳定的振荡
    的头像 发表于 12-15 14:14 265次阅读

    IGBT和MOSFET该用谁?你选对了吗?

    IGBT和MOSFET该用谁?你选对了吗?
    的头像 发表于 12-08 18:25 653次阅读
    IGBT和MOSFET该用谁?你<b class='flag-5'>选对</b>了吗?

    选对一个插座 玩转USB4 第 3 代 Type-C

    选对一个插座 玩转USB4 第 3 代 Type-C
    的头像 发表于 11-27 17:16 479次阅读
    <b class='flag-5'>选对</b>一个插座 玩转USB4 第 3 代 Type-C

    Lambda数据架构和Kappa数据架构——构建现代数据架构

    如何更好地构建我们的数据处理架构,如何对IT系统中的遗留问题进行现代化改造并将其转变为现代数据架构?该怎么为你的需求匹配最适合的架构设计呢,本文将分析两种最流行的基于速度的
    的头像 发表于 11-26 08:04 284次阅读
    Lambda<b class='flag-5'>数据</b>架构和Kappa<b class='flag-5'>数据</b>架构——<b class='flag-5'>构建</b><b class='flag-5'>现代数据</b>架构

    Lambda数据架构和Kappa数据架构——构建现代数据架构

    如何更好地构建我们的数据处理架构,如何对IT系统中的遗留问题进行现代化改造并将其转变为现代数据架构?该怎么为你的需求匹配最适合的架构设计呢,本文将分析两种最流行的基于速度的
    的头像 发表于 11-15 13:32 267次阅读
    Lambda<b class='flag-5'>数据</b>架构和Kappa<b class='flag-5'>数据</b>架构——<b class='flag-5'>构建</b><b class='flag-5'>现代数据</b>架构

    Molex莫仕Mirror Mezz Pro屡获殊荣,为下一代数据中心提供224G解决方案

    Mirror Mezz Pro和Mirror Mezz Enhanced 高速扣板连接器荣获物联网年度产品奖。 为下一代人工智能(AI)和高密度应用的下一代数据中心提供多种创新性能优势。 近日
    的头像 发表于 11-09 15:05 751次阅读
    Molex莫仕Mirror Mezz Pro屡获殊荣,为下一<b class='flag-5'>代数据</b>中心提供224G解决方案

    高速光耦在现代科技领域的应用优势

    高速光耦作为一种关键的电子元件,具有广泛的应用范围和诸多优势。本文将探讨高速光耦的应用优势,并详细分析其在现代科技领域中的重要性和潜力。
    的头像 发表于 11-04 17:47 1431次阅读

    HC-05k蓝牙模块怎么才能作为主使用?

    HC-05k蓝牙模块怎么才能作为主使用
    发表于 10-12 07:45

    数据中心构建I/O结构超级高速公路

    电子发烧友网站提供《在数据中心构建I/O结构超级高速公路.pdf》资料免费下载
    发表于 08-30 11:11 0次下载
    在<b class='flag-5'>数据</b>中心<b class='flag-5'>构建</b>I/O结构超级<b class='flag-5'>高速</b>公路

    用NANO100系列的UART传入数据唤醒功能,在掉电模式接收数据怎么处理才能保证完整?

    请教下,我用NANO100系列的UART传入数据唤醒功能,在掉电模式接收数据怎么处理才能保证完整?
    发表于 06-27 07:02

    数控机床为什么装配高速电主轴?|深圳市恒兴隆机电有限公司

    的强制冷却,从而加快电机局部热量的散发;三、润滑技术在数控车床中应用高速电主轴时,必须采取合理、有效的轴承润滑方式,以加强对轴承不均匀升温问题的控制,现代数控车床产品对于工艺系统的稳定性、精度要求较高
    发表于 06-26 10:55