0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

阿里云为什么要重构数据湖解决方案 主推下一代技术

ss 来源:IT168 作者:IT168 2020-11-11 14:38 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

数据湖并不是一个新概念,大概在十多年前,从有Hadoop开始,就有很多人提出这样的设想。面对海量数据增长,要想挖掘数据价值,首先得有一个能够存储各类数据的“湖”,这个湖的“蓄水能力”要足够强大,能存储、分析和处理各类数据,包括结构化数据、非结构化数据、机器数据以及来自物联网设备的数据等等。

之后,随着大数据、云计算以及云存储技术的不断成熟,数据湖解决方案被主流云计算厂商极力推崇,并且演绎出不同版本。走到今天,数据湖解决方案似乎已足够成熟,但从应用场景来看,一切才刚刚开始,还有大量变革空间,这也是阿里云为什么要重构数据湖解决方案,主推下一代技术的根本原因。

什么是下一代数据湖解决方案?

如何理解阿里云数据湖解决方案的最新特性?阿里云智能存储产品资深总监陈起鲲认为,数据湖解决方案由数据分析架构演化而来。

早期大数据分析架构,是强耦合扩容模式,同一份数据需要在不同的计算集群中重复拷贝,空间利用率低,计算资源过剩;但数据是不断积累状态,并且有波峰波谷期,为了满足业务需求,承载更多数据,计算和存储要一起扩容。因为是两套系统,从生产导入数据肯定需要时间,所以会出现数据导入缓慢的状况,最终无法实时洞察业务。

这时,聪明人就提出了数据湖架构。早期的数据湖架构一般是分布式文件存储,可以横向扩展,通过纠删码提高资源利用率;同时,计算和存储是分离状态,你可以按需扩展算力。另外,底层是分布式文件存储,基于块存储、对象存储等很多协议,用户可以把结构化和半结构化数据放在一起,数据可以统一管理,底层的分布式存储对元数据、小文件和性能都有一定提升。

对于用户来说,数据湖带来的好处显而易见,不管是过去的数据仓库,还是现在的大数据、运营数据、交互式查询,以及可视化数据、实时分析以及预测分析数据,都能基于数据湖进行存储、分析,进而获得更大的商业价值。

而从服务提供商的角度来看,各家都在说自己是最先提供数据湖解决方案的企业。事实上,数据在哪里,分析就在哪里。这也是为什么云厂商在推出数据库产品的时候,很多用户都愿意去尝试。

因为产品本身就在承载互联网场景应用,具有海量数据云上处理能力,有更强大的计算引擎,能真正和生产环境融合在一起。云与互联网应用场景结合,才能孕育出最强大功能的解决方案,而在这方面,谁更具有独特优势?非阿里云莫属!

至于,阿里云的数据湖解决方案到底在哪些地方进行了重构?其实一句话就可以概括,那就是“云湖共生,数仓同步”。

云湖共生,数仓同步

“作为业内首个云原生、企业级数据湖解决方案,阿里云数据湖解决方案可提供EB级数据存储、分析能力,能实现一站式湖存储、湖加速、湖管理、湖计算,帮助企业深入挖掘与分析数据。”陈起鲲强调,数据湖虽然是一个早已存在的概念,但阿里云的数据湖在继承以往优势的基础上已演绎出新的特色。

首先,最新数据湖解决方案要能承载移动、互联网、IoT业务的生产数据。数据湖不应该只是解决分析环节的问题,而是要和生产环境结合。尤其在现代业务环境下,很多企业的大部分数据都来源于移动应用或者社交媒体,这种数据搬到分析引擎上,通常都是PB级别,如果等搬完后再分析,已不具备实时性。

所以,真正的数据湖解决方案必须基于企业级的生产环境做大数据分析,在线生成环境产生的数据,直接可以分析。其次,必须是一个能承载EB级数据量的数据湖。其三,具有秒级响应能力,有SLA的保证,能满足高性能和高弹性需求。其四,能对数据加密,并对数据高效管理,确保业务安全。

如何理解这些能力呢?其实一切都是客户应用价值驱动。比如:五年前,你问一个客户,建了一个多大量的数据湖?用来干什么?他会说,有多少个TB,主要功能就是每天晚上做数据分析,等早晨把数据分析的结果打印出来,给领导看,用于当天决策。

但是五年后的今天,很多分析都是PB级,领导需要实时看到分析结果。如何让生产环境具有高度的弹性和稳定性?如何让数据分析和业务保持强耦合状态?一定要有SLA的保证!另外,数据是企业最宝贵的资源,必须要安全地存放,统一管理。

基于客户应用场景的最新需求,阿里云在底层技术以及整体架构上进行了四个方面的重构。

阿里云提供了全球领先的、最高水平的SLA,引领对象存储可用性SLA进入5位数。阿里云承诺,在每十万次请求中,单可用区错误概率不超过10次,多可用区错误概率不超过5次,这比其他云厂商提供的服务提高了10-20倍的可用性。同时,最多有12个9的持久性设计,有多层的冗余架构设计和主动排查故障的能力。

能支持全球数十EB级数据规模。在阿里云的数据湖应用场景中,每天有上万亿次的读

写或者API调用请求,因为数据量非常大,通常会分标准型、低频访问型、归档型,用户可以按数据类型分类。同时,数据架构也是强一致性模型,用户可以做全生命周期管理,系统会提供Bucket清单,方便企业盘点、查找资源。所以,用户如果使用阿里云的数据湖解决方案,等于在用上EB别的数据管理功能去管理企业的数据。

用户可以灵活、更具弹性地选择计算引擎。在算力方面,阿里云承诺在单客户、单可用区3分钟提供50万核vCPU交付能力。在存储上,阿里云可以提供上TB级别的数据吞吐量,同时有海量数据的处理能力。在现实业务环境中,企业应用往往遭遇巨大的性能挑战,如果有一个资源爆掉,其他资源会受影响。比如:在一个Bucket里面,可能会有很多业务在同时分析,会互相干扰。

即使只有一个业务在分析,也有脚本的优先级。为了从性能方面保障高可用性,阿里云提供了同Bucket分业务的QoS性能隔离功能,满足客户不同业务分析需求。最重要的是,不管是机器学习引擎还是深度学习引擎,都可以自然接入阿里云OSS, 让一份数据用于多个计算引擎。

数据安全。很多人担心上云后数据不安全。实际上,只有上云后数据才安全。在阿里云上,只需点击几个按钮,就可以全链路加密云上数据,并且密钥可管可控,你可以集成阿里云的密钥管理服务,也可以集成自己的KMS服务,系统支持多种加密算法

另外,云上数据加密,不能影响性能,还要有防误删、自带DDoS攻击防护功能。可能有人会问,那万一阿里的人干了什么坏事,怎么办?这点无需担心!阿里云资源的所有操作,都通过日志这种不能篡改的方式记录,并且阿里内部对用户资源的日志可以实现对外透明化,你可以通过第三方审计来核实。

值得一提的是,为了更好地提升客户体验,阿里云围绕数据湖解决方案推出了一系列新产品。比如:对象存储OSS加速器功能,主要用于数据湖重复复读场景,能极大地解决读吞吐挑战,从根本上解决数据读取的一致性问题。

同时,阿里云针对对象存储OSS,还重磅发布了冷归档存储类型产品,提供接近磁带级的成本,并解决磁带方案在兼容性、数据失效、取回效率低等的问题,是海量数据长期留存的最佳解决方案。另外,在构建数据洞察力方面,开源Spark性能差,资源成本较高,阿里云最新发布的Databricks数据洞察产品内置了商业版的Spark和DataLake,可以为用户带来高于开源Spark50倍的性能计算能力,确保结构化数据、半结构化数据以及流式数据处理的高性能、高可靠和弹性扩展。

目前,阿里云最新推出的数据湖解决方案已经在互联网、金融、教育、游戏等技术前沿领域落地,尤其在人工智能、物联网、自动驾驶等拥有海量数据场景的新兴行业,未来大有广阔空间。另外,混合云趋势的到来,也会加速推动数据湖解决方案的落地。

公共云+私有云的结合,导致很多企业会把一部分数据迁移到云端,因为相对于IDC架构,云更有弹性、技术创新更快,企业成本更低、业务迭代可以更敏捷。同时,随着业务数字化、在线化,数据的容灾保护更加重要,企业会更重视对生产环境的灾备。而从降本增效的角度考虑,企业也更愿意对数据进行冷热分层,把一部分数据留在本地,把剩余的数据放在云端,然后在云上可以基于大数据、AI来做训练和分析。

总体来看,数据湖的未来发展前景更加可期,而随着企业应用上云进程的加快,阿里云将勇往直前,秒杀所有对手!

责任编辑:xj

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 互联网
    +关注

    关注

    55

    文章

    11350

    浏览量

    110434
  • 数据中心
    +关注

    关注

    18

    文章

    5756

    浏览量

    75195
  • 阿里云
    +关注

    关注

    3

    文章

    1046

    浏览量

    45860
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    Kapsch TrafficCom借助TomTom Traffic打造下一代智能出行产品

    TomTom,地图与定位技术领域的专家,今天宣布全球交通管理和收费站解决方案领导者 Kapsch TrafficCom(KTCG)已选用 TomTom Traffic 来为其下一代智能出行产品提供
    的头像 发表于 04-01 15:26 382次阅读

    DirectScan 技术解析:下一代半导体电子束检测的创新路径与应用

    量产应用。DirectScan检测通过核心技术创新破解了这行业痛点,为下一代半导体制造提供了高效、精准的检测解决方案。本文将从技术原理、核
    的头像 发表于 03-24 09:05 432次阅读
    DirectScan <b class='flag-5'>技术</b>解析:<b class='flag-5'>下一代</b>半导体电子束检测的创新路径与应用

    伟创力携手博通,推进下一代AI液冷解决方案落地

    近日,伟创力宣布旗下先进液冷解决方案公司 JetCool 与 博通(Broadcom)展开合作,为博通 下一代 AI XPU(定制化 AI 计算加速芯片) 提供创新液冷解决方案,助力高性能 AI
    的头像 发表于 03-17 10:44 621次阅读
    伟创力携手博通,推进<b class='flag-5'>下一代</b>AI液冷<b class='flag-5'>解决方案</b>落地

    探索MAX25252:下一代相机传感器的理想电源管理解决方案

    探索MAX25252:下一代相机传感器的理想电源管理解决方案 在当今的汽车电子领域,相机传感器的应用越来越广泛,如环视摄像头、后视摄像头、侧视摄像头和前视摄像头等。这些摄像头对电源管理的要求也愈发
    的头像 发表于 02-06 10:50 292次阅读

    LitePoint与高通合作加速下一代Wi-Fi 8创新

    无线测试解决方案先进供应商LitePoint宣布,已使用其行业先进的LitePoint IQxel-MX平台,实现高通技术公司的下一代Wi-Fi 8物理层(PHY)验证。这里程碑标志
    的头像 发表于 01-12 17:24 1568次阅读

    SK海力士在CES 2026展示面向AI的下一代存储器解决方案

    SK海力士(或‘公司’)6日宣布,公司将于当地时间1月6日至9日,在美国拉斯维加斯举办的“CES 2026”威尼斯人会展中心设立专属客户展馆,并集中展示面向AI的下一代存储器解决方案
    的头像 发表于 01-08 12:57 1953次阅读

    Amphenol Multi-Trak™:下一代高速互连解决方案

    Amphenol Multi-Trak™:下一代高速互连解决方案 在高速互连技术不断发展的今天,Amphenol推出的Multi - Trak™产品无疑是颗耀眼的新星。它为电子工程师
    的头像 发表于 12-11 15:30 542次阅读

    Amphenol PCI Express® Gen 6 卡边缘连接器:下一代系统的高速解决方案

    Amphenol PCI Express® Gen 6 卡边缘连接器:下一代系统的高速解决方案 在电子设备不断追求更高性能和更快数据传输速度的今天,连接器作为数据传输的关键部件,其性能
    的头像 发表于 12-10 15:25 732次阅读

    Amphenol PCIe® Gen 6 Mini Cool Edge IO连接器:下一代高速互连解决方案

    Amphenol PCIe® Gen 6 Mini Cool Edge IO连接器:下一代高速互连解决方案 在高速互连领域,Amphenol推出的PCIe® Gen 6 Mini Cool Edge
    的头像 发表于 12-10 11:10 655次阅读

    Amphenol RaptorLink 64X50 SOSA以太网交换机:下一代网络解决方案

    Amphenol RaptorLink 64X50 SOSA以太网交换机:下一代网络解决方案 在当今高速发展的电子科技领域,网络设备的性能和可靠性至关重要。Amphenol的RaptorLink
    的头像 发表于 12-10 10:25 594次阅读

    罗姆面向下一代800 VDC架构发布电源解决方案白皮书

    ROHM(罗姆半导体)宣布,作为半导体行业引领创新的主要企业,发布基于下一代800 VDC架构的AI数据中心用的先进电源解决方案白皮书。 本白皮书作为2025年6月发布的“罗姆为英伟达800V
    的头像 发表于 11-04 16:45 881次阅读

    安森美SiC器件赋能下一代AI数据中心变革

    电源解决方案。特别是近期,安森美携手英伟达,共推下一代AI数据中心加速向800V直流供电方案转型,这种技术能力的广度和深度使安森美成为少数能
    的头像 发表于 10-31 13:47 958次阅读

    Flex Power Modules将与瑞萨电子合作推出下一代电源管理解决方案

    的CPU、GPU、FPGA、ASIC和加速器卡推出下一代板载电源管理解决方案。 瑞萨电子的性能算力部门副总裁Tom Truman对此表示:"通过将我们最新一代的智能功率级与Flex Power
    的头像 发表于 09-17 22:52 696次阅读

    适用于下一代 GGE 和 HSPA 手机的多模/多频段 PAM skyworksinc

    电子发烧友网为你提供()适用于下一代 GGE 和 HSPA 手机的多模/多频段 PAM相关产品参数、数据手册,更有适用于下一代 GGE 和 HSPA 手机的多模/多频段 PAM的引脚图、接线图、封装
    发表于 09-05 18:34
    适用于<b class='flag-5'>下一代</b> GGE 和 HSPA 手机的多模/多频段 PAM skyworksinc

    安森美携手英伟达推动下一代AI数据中心发展

    安森美(onsemi,美国纳斯达克股票代号:ON)宣布与英伟达(NVIDIA)合作,共同推动向800V直流(VDC)供电架构转型。这变革性解决方案将推动下一代人工智能(AI)数据中心
    的头像 发表于 08-06 17:27 1672次阅读