0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

数据湖是什么,它的快速搭建方法介绍

独爱72H 来源:ITPUB 作者:ITPUB 2020-04-03 20:38 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

(文章来源:ITPUB)

数据湖概念最早是在2011年提出,到现在也就9年左右的时间,算是一个较新的概念。虽然各方理解上有些差异,也存在一些争议,但概念不重要,关键是否能真正帮助企业解决在业务快速发展过程中不断遭遇的新问题。对于希望从数据资产中获取更多经济价值的企业而言,数据湖可能是一个可行的选择。但对不少国内企业来说,数据湖显然还是一个未知的领域。

数据显示,全球数据湖市场在2019年的规模为37.4亿美元,预计到2025年将达到176亿美元,预计2020 - 2025年期间的复合年增长率为29.9%。在国外,尤其是北美,数据湖应用已经比较成熟,但在国内,还属于初期阶段。因此,第一次搭建数据湖,从哪里开始?如何成功搭建数据湖?对一些企业而言可能很难获知,无论从时间还是投入上来说,试错的成本都很高,那么,企业应该怎么做才能最大程度的降低风险并确保获得回报?而这将是本文要探讨的。

什么是数据湖,简单的说,数据湖更像是数据仓库的进化,比传统数据仓库涉及面更广。但这并不是说数据湖能直接代替数据仓库,两者可以互补,大量案例显示,数据仓库作为数据湖的一类“数据应用”存在,协同工作。

众所周知,传统数据仓库都是由数据库发展而来,因此,无论是传统的还是新型数据仓库(分布式、云原生数仓),主要应用于结构化数据。而数据湖是多结构数据的存储库,无论是结构化、非结构化或半结构化数据,都能以其原始格式存储,不需要进行初始转换过程,因此,更加灵活,并且存储与计算是分离的,数据存储在便宜的对象存储中,如Hadoop或Amazon S3,能更好的优化成本,而各种工具和服务(如Apache Presto、Elasticsearch和Amazon Athena)可以用来查询这些数据。

数据湖的产生,源于大数据时代企业面临的一系列挑战,例如:数据孤岛,分析各种数据集的难度,数据管理,数据安全等。而云计算人工智能则是推动数据湖发展的重要因素,云计算提供了快速查询、海量存储的能力,而机器学习需要原始数据做分析,而用到的数据,也不止于结构化数据,用户的评论、图像这些非结构化数据,也都可以应用到机器学习中。目前,数据湖最为人所知的应用,当属亚马逊Galaxy(内部代号),如今已经成为了亚马逊核心竞争力之一。

Galaxy数据湖建于2019年,构建的原因是亚马逊运营团队需要做大量的数据分析,但基于传统的数据仓库无法满足扩展的需要,并且维护的复杂度和成本都很高。基于自身强大的技术能力,亚马逊Galaxy实施了基于Amazon S3的数据湖方案,使用Amazon Redshift,Redshift Spectrum,和Amazon EMR运行分析的操作。下图展示了Galaxy使用的一些AWS服务:Galaxy的部署,让数据存储量从50PB提升至100PB,在减少成本的同时加快了从数据中挖掘有用信息的速度。

数据湖是什么,它的快速搭建方法介绍

目前,每天在Galaxy上执行的分析任务高达60万个,涉及各个方面,如为用户推荐、运营信息、库存信息、购买信息、物价信息等。再来看一个国内的应用,出海电商新秀Club Factory。Club Factory 是2016年由嘉云数据在杭州成立, 定位于创新型出口电商、轻自营跨境电商平台。或许国内很多人都没听说过这家公司,但这家公司很厉害,手握的全球用户已经超过1亿,其APP在超过10个国家APP购物榜单排名前5,14个国家排名前10。

在数据湖的构建上,Club Factory采用了基于AWS数据湖的解决方案,通过使用数据湖来实现基于用户在平台上的所有行为做实时自动推荐,BI报表(内部运营、分析),供应链管理创新。据公开资料显示,其数据湖平台日均处理15亿条行为数据分析,支撑80多位数据工程师的分析和算法需求,支撑180个活跃的数据分析调度任务,每日同步4000多个业务数据到数据仓库,支撑的数据总量达到约600TB。

如何快速搭建数据湖?搭建数据湖无非2种选择,一种是基于开源解决方案,一种是基于商业解决方案。开源解决方案的优势是没有授权成本,但有个前提,即你所在的企业得有一个能够驾驭开源技术的团队,有能力自己解决问题。因为,开源解决方案通常都比较零散,不成系统。对于初次搭建数据湖的企业而言,复杂性很高,成功搭建难度大。基于商业的解决方案则相反,对于较小或刚开始使用数据湖的公司来说,基于公有云的数据湖解决方案实现数据湖的快速构建是可行的选择。

不仅搭建和管理维护的复杂性降低,并且成本可监控。其次,基于云的数据湖解决方案技术成熟度更高。能得到更为成熟的技术环境支持,包括工具的多样性。最后,可扩展性和安全也是重要原因之一。目前,数据湖已经在公有云上得到了完美的实现和应用,例如:可以基于Amazon S3、AWS Glue等多个基本云服务快速构建出一套数据湖服务 。近期,AWS宣布,AWS Glue、Amazon Athena在由西云数据运营的AWS中国(宁夏)区域正式上线。

AWS Glue是一种全托管的数据提取、转换和加载 (ETL) 服务及元数据目录。它的价值在于,能让准备数据更容易加载数据到数据库、数据仓库和数据湖,用于数据分析。Amazon Athena则是一种交互式查询服务,使用标准的SQL,可以直接对Amazon S3上的数据做交互查询。而这两种服务都是无服务器服务,意味着不需要管理基础设施,只需要为运行的查询付费。

官方已经给出了如何使用 AWS Glue 和 Amazon S3 构建数据湖基础和如何使用Amazon Athena 分析数据的具体教程,本文就不再赘述。当然,如果你觉得这种方式还有些复杂,那么接下来的一项服务,可以重点关注。去年,AWS发布了一项名为AWS Lake Formation的新服务,进一步降低了数据湖搭建的门槛,该服务简化了数据湖的创建过程,并在几天(而不是几个月)内构建一个安全的数据湖。

不过,该服务目前还未在中国正式推出。当然,你也可以视自身情况自行选择其他供应商,本文推荐基于AWS数据湖解决方案来实现快速搭建数据湖,是因为,到目前为止,AWS数据湖/数据分析解决方案是最完整,提供服务最丰富的,也是成功案例最多的。
(责任编辑:fqj)

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据
    +关注

    关注

    8

    文章

    7315

    浏览量

    93986
  • 云计算
    +关注

    关注

    39

    文章

    8003

    浏览量

    143112
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    部署Denodo与数据仓架构联用,用户可获得345%投资回报率(ROI),实现3–4倍数据洞察提速

    AI Hackathon 2025,助力企业通过可信数据和先进 AI 技术加速创新。此次新闻稿覆盖两大重点:数据仓价值释放的最新研究,以及全球开发者参与的 AI 创新赛事。 研究发现:逻辑
    的头像 发表于 10-23 17:27 430次阅读

    【匠芯创D133CBS KunLun Pi开发板试用体验】介绍、环境搭建

    【匠芯创D133CBS KunLun Pi开发板试用体验】介绍、环境搭建、工程测试 本文介绍了匠芯创 D133CBS KunLun Pi 开发板的相关信息,包括开发板和主控参数特点、系统框图、资源
    发表于 09-17 10:35

    微软推出全新Microsoft Sentinel数据国际版

    近期,MicrosoftSentinel数据(国际版)正式开放公开预览,重塑安全运营架构。通过统一所有安全数据,以远低于传统方案的成本,解决了海量
    的头像 发表于 08-04 15:36 751次阅读

    搭建算力中心,从了解的GPU 特性开始

    ABSTRACT摘要本文介绍如何搭建算力,并介绍A100、H100、H200和B200这些GPU的特性。JAEALOT2025年4月23日随着人工智能、大数据和高性能计算(HPC)的
    的头像 发表于 04-24 11:08 2988次阅读
    <b class='flag-5'>搭建</b>算力中心,从了解的GPU 特性开始

    搭建云电脑,怎样搭建云电脑方便

    统,实现资源的最大化利用,提高工作和学习的效率。这次给大家介绍怎样搭建云电脑方便?    怎样搭建云电脑方便?    Windows系统(以Windows10为例),开启远程桌面功能:右键点击“此电脑”,选择“属性”,在弹出的窗
    的头像 发表于 02-06 10:08 766次阅读
    <b class='flag-5'>搭建</b>云电脑,怎样<b class='flag-5'>搭建</b>云电脑方便

    低代码平台:快速搭建与优化MES系统,提升生产效率

    一、低代码平台概述 低代码平台是一种可视化的软件高效开发平台,通过抽象和最小化手工编码的方式,为开发和部署定制化应用提速。低代码平台的主要特点是让使用者通过可视化的方式,以更少的编码、更快速地构建
    的头像 发表于 01-23 09:37 588次阅读
    低代码平台:<b class='flag-5'>快速</b><b class='flag-5'>搭建</b>与优化MES系统,提升生产效率

    电脑搭建虚拟云,电脑搭建虚拟云电脑的具体方法

        从早期的简单远程登录到如今的高清视频远程协作,远程连接技术经历了漫长的发展历程。这次给大家介绍电脑搭建虚拟云电脑的具体方法?    电脑搭建虚拟云电脑的具体
    的头像 发表于 01-22 10:27 1137次阅读
    电脑<b class='flag-5'>搭建</b>虚拟云,电脑<b class='flag-5'>搭建</b>虚拟云电脑的具体<b class='flag-5'>方法</b>

    苹果电脑搭建私有云,苹果电脑搭建私有云的详细操作步骤

        随着云计算技术的飞速发展,云电脑逐渐走进了人们的视野。像一朵神奇的云,承载着我们的数据和应用,让我们随时随地都能享受到高效的计算服务。今天就为大家介绍苹果电脑搭建私有云的详细
    的头像 发表于 01-17 10:17 2060次阅读
    苹果电脑<b class='flag-5'>搭建</b>私有云,苹果电脑<b class='flag-5'>搭建</b>私有云的详细操作步骤

    搭建家庭云平台电脑,搭建家庭云平台电脑的操作方法

    在数字化浪潮的汹涌冲击下,传统电脑逐渐显露出局限性,而云电脑犹如一颗璀璨的新星,在信息技术的天空中冉冉升起,以其独特的魅力吸引着众多目光。今天就为大家介绍搭建家庭云平台电脑的操作方法。    
    的头像 发表于 01-13 14:26 1331次阅读
    <b class='flag-5'>搭建</b>家庭云平台电脑,<b class='flag-5'>搭建</b>家庭云平台电脑的操作<b class='flag-5'>方法</b>

    旧电脑搭建私有云群晖,怎么用群晖搭建旧电脑私有云

    存储服务器,支持数据存储,文件共享,虚拟机备份,异地容灾备份等功能。低成本,可扩展的数据存储产品,提供专业的存储解决方案,满足不同存储场景。接下来将介绍的使用
    的头像 发表于 01-13 14:06 2088次阅读
    旧电脑<b class='flag-5'>搭建</b>私有云群晖,怎么用群晖<b class='flag-5'>搭建</b>旧电脑私有云

    用普通电脑搭建私有云,用普通电脑搭建私有云教程

    随着云存储的普及,越来越多的用户开始考虑搭建自己的私有云系统。那普通电脑也能搭建私有云吗?当然可以,并且方法很简单。首先,私有云是什么?与公有云存储不同,私有云存储是指将文件存储和管理完全控制在自己
    的头像 发表于 01-13 13:55 1197次阅读
    用普通电脑<b class='flag-5'>搭建</b>私有云,用普通电脑<b class='flag-5'>搭建</b>私有云教程

    基于华为云 Flexus 云服务器 X 实例快速搭建 Halo 博客平台

    如何基于华为云 Flexus 云服务器 X 实例快速搭建 Halo 博客平台,帮助大家掌握从选购服务器到部署应用的完整流程。 一、Flexus 云服务器 X 介绍 1.1 Flexus 云服务器 X 实例简介 Flexus云服务
    的头像 发表于 01-08 11:46 852次阅读
    基于华为云 Flexus 云服务器 X 实例<b class='flag-5'>快速</b><b class='flag-5'>搭建</b> Halo 博客平台

    云电脑需要怎么去搭建,云电脑需要怎么快速搭建

    搭建云电脑可以让您随时随地通过网络访问强大的计算资源,无论是用于远程办公、娱乐还是开发,都能提供灵活的解决方案。以下是快速搭建云电脑的详细步骤:    1.硬件准备    选择合适的硬件:需要一台
    的头像 发表于 01-06 15:46 1320次阅读
    云电脑需要怎么去<b class='flag-5'>搭建</b>,云电脑需要怎么<b class='flag-5'>快速</b>去<b class='flag-5'>搭建</b>

    自己电脑搭建云主机,自己电脑如何搭建云主机?

      如今,服务器远程连接技术正逐渐成为行业的新宠,代表着服务器管理领域向高效化、智能化迈进的发展趋势。本文将带你剖析自己电脑如何搭建云主机。 自己电脑搭建云主机是一种经济实惠且具有可行性的选择
    的头像 发表于 01-06 09:55 1449次阅读
    自己电脑<b class='flag-5'>搭建</b>云主机,自己电脑如何<b class='flag-5'>搭建</b>云主机?

    电脑怎么搭建云存储,电脑怎么搭建云存储的教程,个人云电脑是什么以及怎么连接

        远程连接助力企业市场调研精准洞察需求。调研人员通过线上问卷、视频访谈等方式远程连接目标客户群体,覆盖范围广、样本量大,快速收集反馈数据;利用大数据分析平台远程接入多源数据,挖掘
    的头像 发表于 12-30 14:06 780次阅读
    电脑怎么<b class='flag-5'>搭建</b>云存储,电脑怎么<b class='flag-5'>搭建</b>云存储的教程,个人云电脑是什么以及怎么连接