0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

云原生存储在实际场景中可以做什么

汽车玩家 来源:阿里云云栖号 作者:阿里云云栖号 2020-04-04 16:53 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

引言

随着云原生应用对可迁移性、扩展性和动态特性的需求,对云原生存储也带来了相应的密度、速度、混合度的要求,所以对云存储基本能力之上又提出了在效率、弹性、自治、稳定、应用低耦合、GuestOS 优化和安全等方面的诉求。

新的企业负载/智能工作负载容器化、迁云、存储方面遇到的性能、弹性、高可用、加密、隔离、可观测性及生命周期等方面的问题,不但需要存储产品层次的改进,还需要在云原生的控制/数据平面的改进,推进云原生存储和云存储的演进。下文将分别介绍一下问题场景及问题,探讨可行的解决方案,最终可以得出云原生存储、云存储目前可以做什么和未来还需要做什么。

存储性能

1. 长时延增加

场景

高性能计算场景中,集中处理批量数据,通过容器集群,同时启动数千 Pod,弹出数百 ECS 对共享性文件系统读写。

问题

重负载终负载下时延增加,高延迟毛刺增多,读写稳定性不足。

云原生存储在实际场景中可以做什么

解决方案

分散负载到多文件系统,通过容器编排分散 IO 到多文件系统

存储产品的盘古 2.0 改造

2. 集中式高吞吐写对共享存储池冲击

场景

高性能计算场景中,集中处理批量数据,10Gbps 读写请求进入同一存储集群。

问题

同一存储集群中的带宽挤占,造成访问质量下降。

云原生存储在实际场景中可以做什么

解决方案

分散负载到多文件系统和多个存储集群/多个可用区,通过容器编排分散 IO 到多文件系统;

使用独占高性能并行文件系统。

**3. 峰值吞吐不足**

场景

大规模生物数据处理,文件数目少,峰值吞吐高 10Gbps-30Gbps,请求密集 1W/s。

问题

接近独占集群的极限带宽。

云原生存储在实际场景中可以做什么

解决方案

读写分流,分流读请求到 OSS,写请求负载分流到独占文件系统和本地/远程块存储,通过容器编排分散 IO 到多文件系统;

使用应用层分布式缓存降低网络读 IO;

存储产品的盘古 2.0 改造。

时延增加导致 GPU 等待

场景

多机多卡 GPU 训练,直接读取 OSS 数据,读密集型。

问题

时延增加导致 IOwait 和 GPU 等待。

云原生存储在实际场景中可以做什么

解决方案

应用层透明 POSIX 读访问 OSS;

使用应用层分布式缓存降低网络读 IO。

存储弹性

场景

数据库扩容, MySQL and etc;元数据管理应用在线扩容 Zookeeper/etcd;本地盘存储容量无法扩容。

解决方案

云盘在线扩容,应用控制面文件系统/逻辑卷离线,在线扩容能力;

单机云盘挂载密度;

存储产品 ESSD 的替换使用。

存储高可用

场景

应用运维,系统运维;块存储随容器迁移的稳定性和可发现性。

解决方案

控制平面声明式存储快照,备份,定时快照备份,本地快照加速备份和恢复;控制平面云盘 SerialNum 的可发现性改造。

存储的加密

场景

用户应用的全链路数据加密需求;操作系统盘加密。

解决方案

产品存储的 CMK,BYOK 支持控制平面的加密声明支持RAM 权限的最小化控制

存储的隔离性

场景

单盘多应用共享,单机日志盘块存储切分

单块本地盘/云盘吞吐能力不足

文件系统多租户环境的容量配额

集群级文件系统共享访问的权限控制

解决方案

控制面 LVM 切分,控制面块存储 blkio buffer IO 应用级限速

控制面 LVM 多盘聚合和条带

存储产品共享文件系统的目录级 Quota

控制面文件系统的目录级 ACL

存储的可观测性

场景

多租户 Zookeeper/etcd,租户/应用级的 IO 指标监控和预警。

解决方案

控制面应用级 IO Metrics 采集能力

控制面设备级 IO Metrics 采集能力

控制面挂载点级 IO Metrics 采集能力

存储的生命周期

场景

共享文件系统/缓存系统的声明式创建和删除。

解决方案

Operator: 云盘/本地盘 (TiDB)

Operator: 文件系统,CPFS

Operator: 对象存储

云原生存储 v2

针对以上在新的计算模式下,存储方面遇到的性能,弹性,高可用,加密,隔离,可观测性,生命周期等方面的问题,不但是需要存储产品层次的改进,更需要在云原生的控制/数据平面的改进,在不久的将来实现稳定,安全,自治,和效率并举的云原生存储 v2。

稳定:阿里云存储的全品类支持可观测性, Flexvolume and CSI plugins/IO metrics (CSI for 1.14);安全:全连路数据存储的可靠/可信存储支持,CSI 快照加密,系统盘加密;自治:云盘快照 /本地快照 ,离线在线的存储扩容能力, 元数据自动发现;效率:I/O 隔离 、可伸缩性/云盘再次分割提升密度/分布式存储缓存。

云原生存储在实际场景中可以做什么

需要在云原生应用层、存储云产品层、底层存储适配和存储核心层都需要做相应的改进和提升才有可能提供更加稳定,安全,自治和高效的面向应用的云原生存储。

云原生存储在实际场景中可以做什么

总结

云原生存储是云存储 UI 和效率等能力的集合;分层存储,不重新发明轮子;新的工作负载推进云原生存储和云存储的演进,云原生控制平面实现效率,自治方面能力,从数据面提升存储稳定和减小安全隐患,云存储继续夯实性能,容量,弹性,密度等基础能力,共建云原生环境下的存储生态。

在云原生存储 v2 的演进过程中,仍然需要容器团队和存储团队,通力合作,共同提升的云原生时代的存储能力。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5271

    浏览量

    136070
  • 云存储
    +关注

    关注

    7

    文章

    781

    浏览量

    47382
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    块RAM存储的地址冲突场景

    块 RAM 是基于 FPGA 的系统设计的关键组件,通常用于其高速数据存储功能。然而,地址冲突可能会带来重大挑战,影响系统的可靠性和性能。本文我们将探讨简单双端口 RAM 模块地址冲突的概念,并
    的头像 发表于 04-24 09:59 3230次阅读
    块RAM<b class='flag-5'>存储</b>器<b class='flag-5'>中</b>的地址冲突<b class='flag-5'>场景</b>

    瀚高数据库深度参编国家标准《信息技术 云原生关系数据库管理系统技术要求》正式发布

    济南2026年4月15日 /美通社/ -- 近日,国家市场监督管理总局、国家标准化管理委员会正式发布国家标准 GB/T 47343-2026《信息技术 云原生关系数据库管理系统技术要求》。作为我国
    的头像 发表于 04-15 16:41 344次阅读

    云原生全球广域网架构深度科普:从单点集中到全域互联

    用与资源分散部署不同地域的虚拟私有云、线下数据中心等多个节点时,如何将这些分散的资源整合成一个逻辑统一的整体,成为企业数字化进程的核心命题。而云原生网络架构,正
    的头像 发表于 03-10 13:40 515次阅读
    <b class='flag-5'>云原生</b>全球广域网架构深度科普:从单点集中到全域互联

    微电网稳定性理论实际应用面临哪些挑战

    受微电网自身结构特性、运行环境复杂性、设备多样性及控制策略适配性等多重因素影响,现有微电网稳定性理论实际工程应用面临诸多瓶颈,理论模型与实际运行
    的头像 发表于 03-09 10:37 567次阅读
    微电网稳定性理论<b class='flag-5'>在</b><b class='flag-5'>实际</b>应用<b class='flag-5'>中</b>面临哪些挑战

    如何评估忆联Gen5 eSSD UH812aAI场景的性能表现

    随着AI大模型进入万亿参数时代,传统存储性能测试已难以真实反映存储系统实际训练场景对成本与效
    的头像 发表于 02-05 09:56 1418次阅读
    如何评估忆联Gen5 eSSD UH812a<b class='flag-5'>在</b>AI<b class='flag-5'>场景</b><b class='flag-5'>中</b>的性能表现

    时空安全隔离装置实际应用场景的价值与意义

    在时间和空间上实现精准控制,为各类关键设施提供全方位的保护。本文将深入探讨时空安全隔离装置的应用理念,解析其实际场景的价值与意义。时空安全隔离装置的核心概念时空
    的头像 发表于 01-22 16:37 677次阅读
    时空安全隔离装置<b class='flag-5'>在</b><b class='flag-5'>实际</b>应用<b class='flag-5'>场景</b><b class='flag-5'>中</b>的价值与意义

    NVIDIA BlueField-4数据处理器重塑新型AI原生存储基础设施

    NVIDIA 宣布,NVIDIA BlueField®-4 数据处理器作为全栈 NVIDIA BlueField 平台的一部分,为 NVIDIA 推理上下文记忆存储平台提供支持,这是一种新型 AI 原生存储基础设施,专为 AI 新前沿而打造。
    的头像 发表于 01-09 10:33 643次阅读

    “放开”与“限制”的夹缝:构建不依赖“地点”的芯片出厂能力

    ”,通过软件定义标准化流程、云原生数据平台、分布式制造服务节点实现。构建关键在于突破技术标准化、数据跨境治理、网络建设成本等瓶颈,以应对供应链新常态。
    的头像 发表于 12-11 16:52 672次阅读

    哪些场景适合使用DMA?

    的中断所占用,尤其高采样率时非常有效。 数模转换器(DAC)输出数据: 类似于ADC,当需要输出一系列数据(例如生成音频波形)时,DMA可以将内存的波形数据自动传输到DAC数据寄存器,无需CPU干预
    发表于 11-12 07:13

    如何评估电能质量在线监测装置实际场景的适配性?

    评估电能质量在线监测装置实际场景的适配性,核心是判断装置能否 “贴合场景需求、适应现场环境、融入现有系统、支撑
    的头像 发表于 10-22 16:38 1218次阅读

    气象多要素场景实际运用

    气象监测体系,风速、风向、温度、湿度、气压、雨量、光照七大核心要素的精准捕捉构成气象服务的基础支撑。这些要素的协同监测通过多传感器集成技术实现,其数据质量直接影响气象预报准确性与行业应用价值。
    的头像 发表于 10-20 11:48 586次阅读
    气象多要素<b class='flag-5'>在</b>各<b class='flag-5'>场景</b><b class='flag-5'>中</b>的<b class='flag-5'>实际</b>运用

    K8s存储类设计与Ceph集成实战

    云原生时代,存储是制约应用性能的关键瓶颈。本文将带你深入理解K8s存储类的设计原理,并手把手实现与Ceph的完美集成,让你的集群存储性能提
    的头像 发表于 08-22 11:50 1095次阅读

    软国际全场景AI实践

    ,回顾了软国际与华为云以云原生技术为基石、AI 为驱动力的深度协同历程,印证了社会对 AI 技术确定性的共识,同时也直面落地挑战 —— 客户付费意愿、概念验证(POC)效果及实际价值闭环成为关键攻坚
    的头像 发表于 07-24 16:32 1190次阅读

    【原创】labview布尔控件机械动作单击时转换和其它值变化的区别以及实际场景应用

    ”的布尔控件可以创建局部变量存储状其态,其它的5种机械动作都不可以创建局部变量。 3、事件结构中观察本质区别: “单击时转换“ 触发事件后,程序
    发表于 07-02 18:05

    云原生环境里Nginx的故障排查思路

    本文聚焦于云原生环境下Nginx的故障排查思路。随着云原生技术的广泛应用,Nginx作为常用的高性能Web服务器和反向代理服务器,容器化和编排的环境面临着新的故障
    的头像 发表于 06-17 13:53 1162次阅读
    <b class='flag-5'>云原生</b>环境里Nginx的故障排查思路