0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

数据湖是什么,它的快速搭建方法介绍

独爱72H 来源:ITPUB 作者:ITPUB 2020-04-03 20:38 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

(文章来源:ITPUB)

数据湖概念最早是在2011年提出,到现在也就9年左右的时间,算是一个较新的概念。虽然各方理解上有些差异,也存在一些争议,但概念不重要,关键是否能真正帮助企业解决在业务快速发展过程中不断遭遇的新问题。对于希望从数据资产中获取更多经济价值的企业而言,数据湖可能是一个可行的选择。但对不少国内企业来说,数据湖显然还是一个未知的领域。

数据显示,全球数据湖市场在2019年的规模为37.4亿美元,预计到2025年将达到176亿美元,预计2020 - 2025年期间的复合年增长率为29.9%。在国外,尤其是北美,数据湖应用已经比较成熟,但在国内,还属于初期阶段。因此,第一次搭建数据湖,从哪里开始?如何成功搭建数据湖?对一些企业而言可能很难获知,无论从时间还是投入上来说,试错的成本都很高,那么,企业应该怎么做才能最大程度的降低风险并确保获得回报?而这将是本文要探讨的。

什么是数据湖,简单的说,数据湖更像是数据仓库的进化,比传统数据仓库涉及面更广。但这并不是说数据湖能直接代替数据仓库,两者可以互补,大量案例显示,数据仓库作为数据湖的一类“数据应用”存在,协同工作。

众所周知,传统数据仓库都是由数据库发展而来,因此,无论是传统的还是新型数据仓库(分布式、云原生数仓),主要应用于结构化数据。而数据湖是多结构数据的存储库,无论是结构化、非结构化或半结构化数据,都能以其原始格式存储,不需要进行初始转换过程,因此,更加灵活,并且存储与计算是分离的,数据存储在便宜的对象存储中,如Hadoop或Amazon S3,能更好的优化成本,而各种工具和服务(如Apache Presto、Elasticsearch和Amazon Athena)可以用来查询这些数据。

数据湖的产生,源于大数据时代企业面临的一系列挑战,例如:数据孤岛,分析各种数据集的难度,数据管理,数据安全等。而云计算人工智能则是推动数据湖发展的重要因素,云计算提供了快速查询、海量存储的能力,而机器学习需要原始数据做分析,而用到的数据,也不止于结构化数据,用户的评论、图像这些非结构化数据,也都可以应用到机器学习中。目前,数据湖最为人所知的应用,当属亚马逊Galaxy(内部代号),如今已经成为了亚马逊核心竞争力之一。

Galaxy数据湖建于2019年,构建的原因是亚马逊运营团队需要做大量的数据分析,但基于传统的数据仓库无法满足扩展的需要,并且维护的复杂度和成本都很高。基于自身强大的技术能力,亚马逊Galaxy实施了基于Amazon S3的数据湖方案,使用Amazon Redshift,Redshift Spectrum,和Amazon EMR运行分析的操作。下图展示了Galaxy使用的一些AWS服务:Galaxy的部署,让数据存储量从50PB提升至100PB,在减少成本的同时加快了从数据中挖掘有用信息的速度。

数据湖是什么,它的快速搭建方法介绍

目前,每天在Galaxy上执行的分析任务高达60万个,涉及各个方面,如为用户推荐、运营信息、库存信息、购买信息、物价信息等。再来看一个国内的应用,出海电商新秀Club Factory。Club Factory 是2016年由嘉云数据在杭州成立, 定位于创新型出口电商、轻自营跨境电商平台。或许国内很多人都没听说过这家公司,但这家公司很厉害,手握的全球用户已经超过1亿,其APP在超过10个国家APP购物榜单排名前5,14个国家排名前10。

在数据湖的构建上,Club Factory采用了基于AWS数据湖的解决方案,通过使用数据湖来实现基于用户在平台上的所有行为做实时自动推荐,BI报表(内部运营、分析),供应链管理创新。据公开资料显示,其数据湖平台日均处理15亿条行为数据分析,支撑80多位数据工程师的分析和算法需求,支撑180个活跃的数据分析调度任务,每日同步4000多个业务数据到数据仓库,支撑的数据总量达到约600TB。

如何快速搭建数据湖?搭建数据湖无非2种选择,一种是基于开源解决方案,一种是基于商业解决方案。开源解决方案的优势是没有授权成本,但有个前提,即你所在的企业得有一个能够驾驭开源技术的团队,有能力自己解决问题。因为,开源解决方案通常都比较零散,不成系统。对于初次搭建数据湖的企业而言,复杂性很高,成功搭建难度大。基于商业的解决方案则相反,对于较小或刚开始使用数据湖的公司来说,基于公有云的数据湖解决方案实现数据湖的快速构建是可行的选择。

不仅搭建和管理维护的复杂性降低,并且成本可监控。其次,基于云的数据湖解决方案技术成熟度更高。能得到更为成熟的技术环境支持,包括工具的多样性。最后,可扩展性和安全也是重要原因之一。目前,数据湖已经在公有云上得到了完美的实现和应用,例如:可以基于Amazon S3、AWS Glue等多个基本云服务快速构建出一套数据湖服务 。近期,AWS宣布,AWS Glue、Amazon Athena在由西云数据运营的AWS中国(宁夏)区域正式上线。

AWS Glue是一种全托管的数据提取、转换和加载 (ETL) 服务及元数据目录。它的价值在于,能让准备数据更容易加载数据到数据库、数据仓库和数据湖,用于数据分析。Amazon Athena则是一种交互式查询服务,使用标准的SQL,可以直接对Amazon S3上的数据做交互查询。而这两种服务都是无服务器服务,意味着不需要管理基础设施,只需要为运行的查询付费。

官方已经给出了如何使用 AWS Glue 和 Amazon S3 构建数据湖基础和如何使用Amazon Athena 分析数据的具体教程,本文就不再赘述。当然,如果你觉得这种方式还有些复杂,那么接下来的一项服务,可以重点关注。去年,AWS发布了一项名为AWS Lake Formation的新服务,进一步降低了数据湖搭建的门槛,该服务简化了数据湖的创建过程,并在几天(而不是几个月)内构建一个安全的数据湖。

不过,该服务目前还未在中国正式推出。当然,你也可以视自身情况自行选择其他供应商,本文推荐基于AWS数据湖解决方案来实现快速搭建数据湖,是因为,到目前为止,AWS数据湖/数据分析解决方案是最完整,提供服务最丰富的,也是成功案例最多的。
(责任编辑:fqj)

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据
    +关注

    关注

    8

    文章

    7347

    浏览量

    95004
  • 云计算
    +关注

    关注

    39

    文章

    8041

    浏览量

    144742
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    【米尔全志T153开发板评测】介绍、环境搭建、工程测试

    【米尔全志T153开发板评测】介绍、环境搭建、工程测试 本文介绍了米尔全志 T153 开发板的相关信息,包括外观、资源分布、参数特点等,结合米尔官方预烧录系统,实现 LED 闪烁、获取主控温度、连接
    发表于 03-28 13:23

    【RA-Eco-RA4M2开发板评测】介绍、环境搭建、工程测试

    【RA-Eco-RA4M2开发板评测】介绍、环境搭建、工程测试 本文介绍了 RA-Eco-RA4M2-100PIN-V2.0 开发板的基本信息,包括产品特点、参数资源、原理图、环境搭建
    发表于 03-21 15:35

    瑞萨RA MCU众测宝典 | 环境搭建之【RA-Eco-RA6E2-64PIN-V1.0 开发板】介绍、环境搭建、工程测试

    “RAMCU众测宝典”环境搭建专题再添实用干货!这次咱们聚焦高性能入门级开发板——【RA-Eco-RA6E2-64PIN-V1.0】。本文介绍了RA-Eco-RA6E2-64PIN-V1.0开发板
    的头像 发表于 03-20 16:23 7894次阅读
    瑞萨RA MCU众测宝典 | 环境<b class='flag-5'>搭建</b>之【RA-Eco-RA6E2-64PIN-V1.0 开发板】<b class='flag-5'>介绍</b>、环境<b class='flag-5'>搭建</b>、工程测试

    生态水量动态监测与管理系统

    生态水量是维持水生态系统健康的关键要素,关系到生物多样性、水质净化与景观维护。传统河湖水量管理多依赖人工观测与经验调度,难以实现动态精准调控,容易造成生态用水不足或浪费。同时,在进行数据汇总
    的头像 发表于 02-05 13:36 267次阅读
    河<b class='flag-5'>湖</b>生态水量动态监测与管理系统

    两个MCU之间快速传输数据方法

    ,但目前容量最大的也只128位,因为是“先进先出”结构,所以不管传递数据多少,接收方必须移完整个寄存器,灵活性差而且大容量的移位寄存器也是少见难买的。一种被称为“铁电存储器”芯片的出现,给我们带来了解决方法
    发表于 01-19 07:07

    RK3588采集Cameralink图像快速搭建系统办法

    : CL-U3,便携式应用。 瑞芯微的RK3588开发板很多,种类各式各样。如何快速搭建一套自己的基于RK3588的嵌入式Cameralink图像采集处理方案呢。下面推荐一下。 快速原型机的
    发表于 12-19 10:07

    射频线缆快速性能判断实用指南

    本文介绍射频线缆快速测试方法,涵盖外观检查、直流参数测试及绝缘测试,帮助现场快速判断性能是否达标
    的头像 发表于 12-13 11:52 1371次阅读

    【瑞萨RA6E2地奇星开发板试用】介绍、环境搭建、工程测试

    电平循环交替反转。 保存文件,构建工程,使用 J-Link 调试和上传固件。 效果 板载 LED 闪烁 动态演示见底部视频。 总结 本文介绍了 RA6E2 地奇星开发板的基本信息,包括产品特点、参数资源、开发环境搭建以及工程测试等,为相关产品的开发设计和
    发表于 12-07 15:27

    GPIOB模拟spi的方法及lcd屏幕的接入

    越高,数据传输速率越快。由于spi接口较为简单,同时《RISC-V架构与嵌入式开发快速入门》书中也详细介绍过,在此原理部分介绍从略。 二、spi接口及lcd主要代码实现 lcd所需
    发表于 10-30 07:59

    部署Denodo与数据仓架构联用,用户可获得345%投资回报率(ROI),实现3–4倍数据洞察提速

    AI Hackathon 2025,助力企业通过可信数据和先进 AI 技术加速创新。此次新闻稿覆盖两大重点:数据仓价值释放的最新研究,以及全球开发者参与的 AI 创新赛事。 研究发现:逻辑
    的头像 发表于 10-23 17:27 838次阅读

    【匠芯创D133CBS KunLun Pi开发板试用体验】介绍、环境搭建

    【匠芯创D133CBS KunLun Pi开发板试用体验】介绍、环境搭建、工程测试 本文介绍了匠芯创 D133CBS KunLun Pi 开发板的相关信息,包括开发板和主控参数特点、系统框图、资源
    发表于 09-17 10:35

    水利水文监测与河长制管理平台解决方案

    一、方案背景 在水生态环境保护与水资源可持续管理的宏观框架下,河长制作为一项重要的制度创新,对于促进河健康、维护生态平衡、推动经济社会高质量发展具有不可替代的作用。 然而,传统河管理模式依赖
    的头像 发表于 08-25 14:27 817次阅读
    水利水文监测与河<b class='flag-5'>湖</b>长制管理平台解决方案

    生态流量监测平台解决方案 

    依赖人工测流、定点观测,存在数据采集频次低、覆盖范围有限、生态流量达标评估滞后等问题,不仅难以实时掌握河生态基流变化,还可能因相关措施不及时而导致河道断流、水质恶化、生物多样性减少等生态问题,制约流域生态
    的头像 发表于 08-22 17:08 692次阅读
    河<b class='flag-5'>湖</b>生态流量监测平台解决方案 

    微软推出全新Microsoft Sentinel数据国际版

    近期,MicrosoftSentinel数据(国际版)正式开放公开预览,重塑安全运营架构。通过统一所有安全数据,以远低于传统方案的成本,解决了海量
    的头像 发表于 08-04 15:36 1095次阅读

    搭建算力中心,从了解的GPU 特性开始

    ABSTRACT摘要本文介绍如何搭建算力,并介绍A100、H100、H200和B200这些GPU的特性。JAEALOT2025年4月23日随着人工智能、大数据和高性能计算(HPC)的
    的头像 发表于 04-24 11:08 3689次阅读
    <b class='flag-5'>搭建</b>算力中心,从了解的GPU 特性开始