0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

揭秘湖仓一体:大数据演进的未来趋势与影响

OSC开源社区 来源:OSC开源社区 2024-01-29 14:17 次阅读

随着信息时代的兴起,数据已成为推动业务决策和创新的核心要素;结构化、半结构化等多种类型的数据呈现爆炸式增长,如何高效处理和分析海量数据已经成为关键挑战。

当前业界构建数据分析的技术栈,有两条典型的路线,一个是数仓路线,一个是数据湖的路线。 数据仓库的路线,数据先通过 ETL 统一写入到数仓进行管理,然后构建数据集市来满足 BI 分析的各种需求;优势是数据质量高、查询性能高、具备实时分析的能力、数据治理功能完善等。 而数据湖的路线,通常是未经加工的数据先统一存储在数据湖,作为企业数据的 single sourth of truth,然后按需的使用数据,构建数据应用;优势是通开放生态、扩展性强,性价比高。 数据仓库

d8fe6670-b524-11ee-8b88-92fbcf53809c.png

数据仓库是一种将来自不同源的数据聚合到单个集中式一致数据存储中的系统,以支持企业报表、数据分析、数据挖掘、人工智能机器学习等应用。数据仓库技术经过几十年的发展,产品架构已经经过了多轮的迭代:

1.早期分析场景比较简单,业务采用 Oracle/MySQL 为代表的关系型数据库,在线处理与数据分析在一套系统里完成;但随着数据分析场景的越来越复杂多样化,这种方案的挑战非常大,一是两种负载会相互影响,同时数据分析的性能也不能满足需求。

2.以 Teradata 、Oracle EDW 为代表的商用数据仓库应运而生,专门针对大规模数据的管理与价值挖掘,这类数仓产品功能强大,但其商业成本太高,导致技术无法普及使用。

3.以 Hadoop( Hive) 为代表的开源数仓,基于开源组件构建大数据平台;Hadoop 生态让大数据变成普惠技术,企业能够低成本的基于开源 Hadoop 生态,构建企业级数仓平台。

4.Hadoop 生态使用门槛低,但因为组件繁多,维护代价非常高,随着新技术的发展,Hadoop 生态各组件的技术竞争力也在持续下降,以 Snowflake、Redshift、Bigquery 为代表云原生数仓,帮助企业构建一体化的数据处理与分析平台。 数据湖

d912f11c-b524-11ee-8b88-92fbcf53809c.png

数据湖是以原始格式存储数据的存储库或系统,它按原样存储数据,无需事先对数据进行结构化处理。

•数据湖通常采用 S3 对象存储或 HDFS 分布式文件系统作为底层统一存储,并作为 Single source of truth。 •数据湖通常采用开放的数据格式,同时满足结构化、半结构化等数据等存储需求,并 ACID、Upsert、Time travle 等高级特性,满足企业数据管理方面的各种诉求。 •业界常见的数据湖包括 Apache Iceberg、Apache Hudi、Delta、Apache Paimon 等,业务采用 Trino、Presto、Impala 等引擎按需分析数据湖上的数据。 企业未来数据架构应该是建仓,还是建湖? 其实,大家之所以有现在的纠结,是因为数据仓库和数据湖各有优劣,如果能将优势兼具,IT 架构工程师们也不必一定要选择是湖还是仓。

目前在业界,很多企业正在不断探索湖仓融合的路径。 •湖上建仓:企业的数据先进入到数据湖统一存储,湖上直接性能不足,此时可以采用湖上建仓的方案,将查询性能要求高的部分通过 ETL 导入到新的数据仓库提供服务。 •仓外挂湖:部分数据仓库产品,例如 Redshift、Bigquery 等,开始扩展查询外部数据湖(Hive、Iceberg 等)的能力,实现计算层的统一。 不管是湖上建仓、还是仓外挂湖的方案,本质上数据都是分开存储,可能还会通过不同的引擎服务不同场景的查询,更好的方案是实现湖仓一体化,让数据分析的架构更加简单。那到底什么是湖仓一体?

湖仓一体 当互联网规模发展至一定程度后,企业数据的使用场景发生巨大变化,需求开始从离线转而要求实时的数据分析,同时随着企业数据规模极速增长,企业对于实时数据治理提出更高的要求,要求业务端数据能够实时处理,进一步满足基于数据的实时分析和决策。 湖仓一体是通过一套架构,满足所有的分析需求,抽象化的描述,要能实现 One Data、All Analytics 的业务价值。

1.统一数据存储:在湖仓一体架构下,数据要统一存储管理,一份数据作为 Single source of truth,避免导来导去,造成数据冗余,分析口径不一致等问题;存储层通常采用 S3/HDFS 作为数据存储底层,并采用开放数据湖或者私有的数据格式去管理数据。

2.极速查询引擎:基于统一的数据存储,湖仓一体架构要能满足所有的业务分析场景的诉求,包括 BI 报表、交互式分析、实时分析、ETL 数据加工等场景,这就要求必须要有一个足够强大的分析引擎,能同时满足这些场景的查询需求。

3.按需查询加速:对于部分业务场景特别复杂的查询,数据源数据组织未针对分析优化,直接分析不一定能满足查询延时的需求,湖仓一体架构要具备通用的数据查询加速的能力,并且不破坏 Single source of truth 的原则。

d923b04c-b524-11ee-8b88-92fbcf53809c.png

目前, StarRocks 3.x 推出了存算分离、湖仓分析、物化视图等重量级特性,能够很好的帮助企业构建湖仓一体平台,微信、携程、小红书等数十家大型企业进行实践后,收获极大的简化数据平台的技术栈,同时提升的服务性能。

d93b5a62-b524-11ee-8b88-92fbcf53809c.png

那么,如何构建湖仓一体平台? 用户可以将 StarRocks 当作一站式湖仓,数据统一导入到 StarRocks ,借助存算分离的架构,实现低成本的数据存储,然后利用 StarRocks 查询引擎来服务全场景的数据分析应用; 如果用户的数据已经在开放数据湖(Hive、Hudi、Iceberg、Paimon),就可以通过 StarRocks 直接分析数据湖,同样能获得极高的查询性能。 不管数据统一存储在开放数据湖里还是 StarRocks 里,当查询性能不足时,都可以利用物化视图加速查询性能。

基于此,用户可以方便地构建湖仓一体平台,实现 One Data、All Analytics 的业务价值。 当然,对于有数据的安全、权限管理需要的企业,可以选择基于 StarRocks 开发的企业级产品镜舟湖仓分析引擎。 镜舟湖仓分析引擎能够兼容并加速企业已有的大数据架构如Hive、Iceberg、Hudi、Deltalake、MySQL 和 Oracle 等,有效帮助企业节省传统架构中数据搬运的时间与成本, 通过简化数据链路,实现数据分析性能指数级提升。同时,镜舟湖仓分析引擎部署简单、运维便捷,在为企业提速的同时降低系统及人力成本。 企业可以通过镜舟湖仓分析引擎,支撑不同团队和角色的数据使用诉求,在报表查询、用户画像与行为分析、自助指标分析、实时风控等业务场景实现加速,给业务团队带来极速查询、分析体验,快速响应市场变化,为解决企业数据治理需求和数据集成提供更优解。

审核编辑:黄飞

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据存储
    +关注

    关注

    5

    文章

    895

    浏览量

    50584
  • MySQL
    +关注

    关注

    1

    文章

    775

    浏览量

    26004
  • 数据仓库
    +关注

    关注

    0

    文章

    58

    浏览量

    10399
  • 大数据
    +关注

    关注

    64

    文章

    8649

    浏览量

    136589

原文标题:大数据演进观察:到底什么是湖仓一体?

文章出处:【微信号:OSC开源社区,微信公众号:OSC开源社区】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    7寸Linux工控一体机智能终端工业平板RK3566# #农业物联网

    工控一体智能终端
    广州微智达
    发布于 :2024年01月26日 15:43:17

    下面是我们的人脸识别酒精检测一体机: 防代吹

    一体人脸识别
    jf_66410442
    发布于 :2024年01月25日 18:42:02

    人脸考勤打卡一体

    一体
    jf_66410442
    发布于 :2024年01月09日 11:09:22

    鸿蒙原生应用/元服务开发-新版本端云一体化模板体验反馈

    Ability模板即可。 三、体验 新增: 最新端云一体化新增“云数据库端云一体组件”, 版本对比(旧版本未加入云数据库组件) 优化: 云函数的本地调试 云开发控制台 各云服务调用
    发表于 12-05 14:57

    物联网应用之智慧档案馆八防十防一体化平台

    ​ 原标题:智能化档案馆八防九防十防十二防一体化监控系统方案​ 监控室角 随着科技的快速发展,智能化已成为现代档案馆发展的必然趋势。为了提高档案馆的安全性、可靠性和管理效率,本文将介绍
    发表于 09-14 10:33

    峰会回顾第7期 | 视窗绘制技术演进和新趋势

    的显示性能和质量,以及用户操作的响应快慢和流畅体验。在万物智联的新场景下,视窗绘制技术的发展有哪些挑战,技术上又有哪些演进趋势呢?华为终端OS资深架构师陈秋林在第届OpenHarmony技术峰会
    发表于 08-22 16:33

    大数据未来的前景怎么样?

    随着科技的迅猛发展和互联网的普及,大数据已成为当今社会中不可或缺的重要资源。大数据是指庞大而复杂的数据集合,这些数据通过高级计算技术进行处理和分析,可以揭示出有价值的信息和
    的头像 发表于 07-28 15:03 1973次阅读

    21.5寸安卓工业一体机 嵌入式工控一体机 微嵌工业平板电脑厂家

    一体
    jf_91874718
    发布于 :2023年07月05日 16:44:25

    15.6寸工控触摸一体 嵌入式工业平板电脑 微嵌工业平板电脑公司

    一体
    jf_91874718
    发布于 :2023年07月05日 16:33:14

    15寸工业触摸一体机-工业平板电脑厂家-微嵌工业一体

    一体
    jf_91874718
    发布于 :2023年07月05日 16:27:09

    工业平板电脑-工业一体机-微嵌7寸无壳触摸一体

    一体
    jf_91874718
    发布于 :2023年07月05日 16:21:19

    国产化一体

    一体
    jf_22764069
    发布于 :2023年06月27日 14:38:48

    扬宇光电人脸测温一体

    一体
    jf_22764069
    发布于 :2023年06月27日 14:36:57

    石油石化室内外一体化定位解决方案

    一体
    中海达
    发布于 :2023年06月21日 11:44:11