0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

AI大模型疯长,存储扛住了吗?

科技云报到 来源:jf_60444065 作者:jf_60444065 2024-04-15 14:31 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

科技云报道原创。

AI大模型正在倒逼数字基础设施产业加速升级。

过去一年半,AI大模型标志性的应用相继出现,从ChatGPT到Sora一次次刷新人们的认知。震撼的背后,是大模型参数指数级的增长。

这种数据暴涨的压力,快速传导到了大模型的底层基础设施。作为支撑大模型的底座“三大件”——算力、网络、存储,都在快速的迭代。

算力方面,英伟达用了两年的时间就将GPU从H100升级到了H200,让模型的训练性能提升了5倍。

网络方面,从之前的25G升级到现在的200G,网络带宽提升了6倍。随着RDMA大规模的应用,网络延迟也降低了60%。

存储方面,华为、阿里云、百度智能云、腾讯云等大厂,都相继推出了面向AI大模型的存储方案。

那么作为基础设施的三大件之一的存储,在AI大模型的场景下到底发生了哪些变化?又有哪些新的技术挑战?

AI大模型带来的 存储挑战

算力、算法、数据,在发展AI过程中的重要性早已为人所熟知,但是作为数据的承载,存储却往往被忽略。

在训练AI大模型的过程中,需要大量数据的交换,存储作为数据的基础硬件,并非仅仅只是简单地记录数据,而是深刻参与到了数据归集、流转、利用等大模型训练的全流程。

如果存储性能不强,那么可能需要耗费大量时间才能完成一次训练,这就会严重制约大模型的发展迭代。

事实上,不少企业在开发及实施大模型应用过程中,已经开始意识到存储系统所面临的巨大挑战。

从AI大模型的研发生产流程看,可分为数据采集、清洗、训练和应用四个阶段,各阶段都对存储提出了新的要求,比如:

在数据采集环节,由于原始训练数据规模海量,且来源多样,企业希望能够有一个大容量、低成本、高可靠的数据存储底座。

在数据清洗阶段,网络上收集的原始数据是不能直接用于AI模型训练的,需要将多格式、多协议的数据进行清洗、去重、过滤、加工,行业内称其为“数据预处理”。

与传统单模态小模型训练相比,多模态大模型所需的训练数据量是其1000倍以上,一个典型的百TB级大模型数据集,预处理时长超过10天,占比AI数据挖掘全流程的30%。

同时,数据预处理伴随高并发处理,对算力消耗巨大。这就要求存储能够提供多协议、高性能的支持,用标准文件的方式完成海量数据的清洗和转换,以缩短数据预处理的时长。

在模型训练环节,通常会出现训练集加载慢、易中断、数据恢复时间长等问题。

相较于传统学习模型,大模型训练参数、训练数据集指数级增加,如何实现海量小文件数据集快速加载,降低 GPU等待时间是关键。

目前,主流预训练模型已经有千亿级参数,而频繁的参数调优、网络不稳定、服务器故障等多种因素带来训练过程不稳定,易中断返工,需要Checkpoints机制来确保训练回退到还原点,而不是初始点。

当前,由于Checkpoints需要天级的恢复时长,导致大模型整体训练周期陡增,而面对单次超大的数据量和未来小时级的频度要求,需要认真考虑如何降低Checkpoints恢复时长。

因此,存储能否快速地读写checkpoint(检查点)文件,也成了能否高效利用算力资源、提高训练效率的关键。

在应用阶段,存储需要提供比较丰富的数据审核的能力,来满足鉴黄鉴暴安全合规的诉求,保证大模型生成的内容是合法、合规的方式去使用。

总的来说,AI大模型训练的效率要达到极致,减少不必要的浪费,必须在数据上下功夫。准确地说,必须要在数据存储技术上进行创新。

AI倒逼存储技术创新

根据投资机构ARK Invest预算,到2030年,产业有望训练出比GPT-3多57倍参数、多720倍Token的AI模型,成本将从今天的170亿美元降至60万美元。随着计算价格降低,数据将成为大模型生产的主要限制因素。

面对数据桎梏问题,不少企业已经开始进行前瞻性布局。

比如百川智能、智谱、元象等大模型企业,都已采用腾讯云AIGC云存储解决方案来提升效率。

数据显示,腾讯云AIGC云存储解决方案,可将大模型的数据清洗和训练效率均提升一倍,需要的时间缩短一半。

科大讯飞、中科院等大模型企业和机构,则采用了华为AI存储相关产品。

数据显示,华为OceanStor A310可实现从数据归集、预处理到模型训练、推理应用的AI全流程海量数据管理,简化数据归集流程,减少数据搬移,预处理效率提升30%。

目前,国内各大厂商也相继发布了面向AI大模型场景的存储方案。

2023年7月,华为发布两款面向AI大模型的存储产品——OceanStor A310深度学习数据湖存储和FusionCube A3000训/推超融合一体机。

2023年11月云栖大会上,阿里云推出一系列针对大模型场景的存储产品创新,用AI技术赋能AI业务,帮助用户更轻松地管理大规模多模态数据集,提高模型训练、推理的效率和准确性。

2023年12月,百度智能云发布了“百度沧海·存储”统一技术底座,同时面向数据湖存储和AI存储能力进行了全面增强。

2024年4月,腾讯云宣布云存储解决方案面向AIGC场景全面升级,针对AI大模型数据采集清洗、训练、推理、数据治理全流程提供全面、高效的云存储支持。

综合各大厂商的存储技术创新,可以发现技术方向较为统一,都是基于AI大模型生产研发的全流程,对存储产品进行有针对性的性能优化。

以腾讯云为例,在数据采集与清洗环节,首先需要存储能够支持多协议、高性能、大带宽。

因此,腾讯云对象存储COS能够支持单集群管理百 EB 级别存储规模,提供便捷、高效的数据公网接入能力,并支持多种协议,充分支持大模型PB级别的海量数据采集。

同时,数据清洗时,大数据引擎需要快速地读取并过滤出有效数据。腾讯云对象存储COS通过自研数据加速器GooseFS提升数据访问性能,实现了高达数TBps的读取带宽,支撑计算高速运行,大大提升数据清洗效率。

在模型训练环节,通常需要每2-4小时保存一次训练成果,以便能在GPU故障时时能回滚。

腾讯云自主研发并行文件存储CFS Turbo ,面向AIGC训练场景的进行了专门优化,每秒总读写吞吐达到TiB/s级别,每秒元数据性能高达百万OPS,均为业界第一。3TB checkpoint 写入时间从10分钟,缩短至10秒内,使大模型训练效率大幅提升。

大模型推理场景对数据安全与可追溯性提出更高要求。

腾讯云数据万象CI为此提供图片隐式水印、AIGC内容审核、智能数据检索MetaInsight等能力,为数据生产从“用户输入——预处理——内容审核——版权保护——安全分发——信息检索”业务全流程提供有力支撑,优化AIGC内容生产与管理模式,顺应监管导向,拓宽存储边界。

同时,随着训练数据和推理数据的增长,需要提供低成本的存储能力,减少存储开销。腾讯云对象存储服务提供了高达12个9的数据持久性和99.995%的数据可用性,能够为业务提供持续可用的存储服务。

总的来说,随着AI大模型的推进,数据存储出现了新的趋势。市场渴望更高性能、大容量、低成本的存储产品,并加速大模型各个环节的融合和效率提升。

而各大厂商也在通过技术创新不断满足大模型各环节的需求,为企业实施大模型降低门槛。

在AI大模型的倒逼下,存储创新已在路上。

【关于科技云报道】

专注于原创的企业级内容行家——科技云报道。成立于2015年,是前沿企业级IT领域Top10媒体。获工信部权威认可,可信云、全球云计算大会官方指定传播媒体之一。深入原创报道云计算、大数据、人工智能区块链等领域。

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 存储
    +关注

    关注

    13

    文章

    4701

    浏览量

    89582
  • AI
    AI
    +关注

    关注

    89

    文章

    38184

    浏览量

    296972
  • 腾讯云
    +关注

    关注

    0

    文章

    224

    浏览量

    17383
  • AIGC
    +关注

    关注

    1

    文章

    391

    浏览量

    3153
  • 大模型
    +关注

    关注

    2

    文章

    3454

    浏览量

    4974
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    国产AI芯片真能住“算力内卷”?海思昇腾的这波操作藏了多少细节?

    反而压到了310W。更有意思的是它的异构架构:NPU+CPU+DVPP的组合,居然能同时住训练和推理场景,之前做自动驾驶算法时,用它跑模型时延直接降了20%。 但疑惑也有:这种算力密度下,散热怎么解决?而且昇腾的生态适配速度能跟上行业需求吗?
    发表于 10-27 13:12

    AI模型的配置AI模型该怎么做?

    STM32可以跑AI,这个AI模型怎么搞,知识盲区
    发表于 10-14 07:14

    霄云科技银河存储:重构AI时代的存储新范式

    在人工智能与高性能计算需求呈指数级增长的今天,数据存储的效率与可靠性已成为算力释放的关键支撑。上海霄云信息科技有限公司正式推出全新一代AI存储产品--霄云银河存储。这款专为人工智能
    的头像 发表于 08-21 10:36 743次阅读
    霄云科技银河<b class='flag-5'>存储</b>:重构<b class='flag-5'>AI</b>时代的<b class='flag-5'>存储</b>新范式

    ai_cube训练模型最后部署失败是什么原因?

    ai_cube训练模型最后部署失败是什么原因?文件保存路径里也没有中文 查看AICube/AI_Cube.log,看看报什么错?
    发表于 07-30 08:15

    群晖发布AI模型全流程存储解决方案,破局训练效率与数据孤岛难题

    兼容数据归集、高速训练、高可用部署全场景,支持 Llama2 等千亿参数模型,读写效率提升 90% 上海 2025年6月24日 /美通社/ -- 当算力狂奔时,数据存储正成为AI进化的新瓶颈。 据
    的头像 发表于 06-25 16:03 522次阅读
    群晖发布<b class='flag-5'>AI</b><b class='flag-5'>模型</b>全流程<b class='flag-5'>存储</b>解决方案,破局训练效率与数据孤岛难题

    【「零基础开发AI Agent」阅读体验】+ 入门篇学习

    很高兴又有机会学习ai技术,这次试读的是「零基础开发AI Agent」,作者叶涛、管锴、张心雨。 大模型的普及是近三年来的一件大事,万物皆可大模型已成为趋势。作为大
    发表于 05-02 09:26

    部署image_classification模型住了怎么解决?

    我按照如下教程部署,然后编译卡住了,谁能帮忙看看是咋回事。 https://github.com/STMicroelectronics/stm32ai-modelzoo-services/blob
    发表于 04-27 06:29

    首创开源架构,天玑AI开发套件让端侧AI模型接入得心应手

    AI的演进正在逼近“终端智能涌现”的拐点,从通用模型向场景落地迁移成为关键议题。联发科以“AI随芯,应用无界”为主题召开天玑开发者大会2025(MDDC 2025),不仅聚合了全球生态资源,还
    发表于 04-13 19:52

    曙光存储全新升级AI存储方案

    近日,曙光存储全新升级AI存储方案,秉持“AI加速”理念,面向AI训练、AI推理和
    的头像 发表于 03-31 11:27 1058次阅读

    存力接棒算力,慧荣科技以主控技术突破AI存储极限

    电子发烧友网报道(文/黄山明)在AI的高速增长下,尤其是以DeepSeek为代表的AI模型推动存储需求激增,算力增长倒逼存力升级。而存储
    的头像 发表于 03-19 01:29 2349次阅读
    存力接棒算力,慧荣科技以主控技术突破<b class='flag-5'>AI</b><b class='flag-5'>存储</b>极限

    利用RAKsmart服务器托管AI模型训练的优势

    AI模型训练需要强大的计算资源、高效的存储和稳定的网络支持,这对服务器的性能提出了较高要求。而RAKsmart服务器凭借其核心优势,成为托管AI模型
    的头像 发表于 03-18 10:08 526次阅读

    训练好的ai模型导入cubemx不成功怎么处理?

    训练好的ai模型导入cubemx不成功咋办,试了好几个模型压缩了也不行,ram占用过大,有无解决方案?
    发表于 03-11 07:18

    霍尔电流传感器的原边端如何接入AI模型

    霍尔电流传感器的原边端如何接入AI模型,以便AI分析问题解决问题?话题会不会太超前?现在正式AI风口啊,猪都要起飞了
    发表于 03-03 15:18

    AI模型托管原理

    AI模型托管的核心在于将训练好的AI模型部署在云端或边缘服务器上,由第三方平台提供模型运行、管理和优化等服务。下面,
    的头像 发表于 02-26 10:31 921次阅读

    企业AI模型部署攻略

    当下,越来越多的企业开始探索和实施AI模型,以提升业务效率和竞争力。然而,AI模型的部署并非易事,需要企业在多个层面进行细致的规划和准备。下面,AI
    的头像 发表于 12-23 10:31 1314次阅读