0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

华为给大模型穹顶,树一根存力支柱

脑极体 来源:脑极体 作者:脑极体 2023-07-15 09:31 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

建一座殿堂之前,首先要立起足够支撑其屋顶重量的支柱。

段玉裁在《说文解字注》里说,“柱之言主,屋之主也”。也就是说,支柱是一座屋子最主要,最基础的东西。支柱不牢,再美好的雕梁画栋也会归为泡影。

在今天,我们正在以拳拳之心建设一座名为AI大模型的穹顶。预训练大模型通用性好、泛化性强的优势,让各个行业都看到了走向智能化的曙光,点燃了社会经济的炽热追寻。根据相关数据,几天之前在上海举办的世界人工智能大会上,就有超过30款中国AI大模型集中亮相。通观整个中国,更是来到了“百模大战”的盛况。根据科技部新一代人工智能发展研究中心等机构发布的《中国人工智能大模型地图研究报告》显示,中国研发的大模型数量排名全球第二,并且在一些垂直领域实现了全球领先。

仰望大模型的穹顶固然重要。但此时更该去思考,这座穹顶的支柱是否坚实可靠,能撑起多大的重量?在传输、算力两大AI基础设施之外,存力对大模型发展的支撑意义,正在引发更多关注。

wKgZomSxXlSAEEuyAAPZLvxgbSc691.jpg

(华为数据存储产品线总裁 周跃峰)

7月14日,大模型时代华为AI存储新品发布会举办。期间,华为详尽展示了大模型带给存储底座的挑战,以及华为在技术、产品、生态上选择的应对之道。

华为数据存储产品线总裁周跃峰在“数据新范式,释放AI新动能”主题分享中表示:“大模型时代,数据决定AI智能的高度。作为数据的载体,数据存储成为AI大模型的关键基础设施。华为数据存储未来将持续创新,面向AI大模型时代提供多样化的方案与产品,携手伙伴共同推进AI赋能千行百业。”

当世界醉心于建设大模型的穹顶,存储产业需要先树起能够支撑智能世界的支柱。面对大模型时代,华为存储选择了自己的担当。

假想:缺乏存力支撑的大模型时代会怎样?

我们都知道,发展AI大模型还有很多层面的问题需要解决。比如可供训练的中文语料、数据集不足;大模型过于依赖人工调优,落地成本过大;对高端算力有依赖,算力资源稀缺等。

但在这些问题之外,我们必须正视这样一个现实:假设大模型缺乏适配的存储产品与存储资源,那么结果可能也不容乐观。在华为看来,在AI发展的不同领域与阶段,面临着数据存储方面的4大挑战。

首先是数据归集太慢。大模型有着庞大的数据规模,且需要用到大量的非结构化数据进行训练。这就导致AI训练需要从跨地域的多个数据源,进行大量的原始数据拷贝,如果这个过程过于复杂,效率过低,就会导致AI开发进度被搁置。尤其会严重限制那些本地数据规模庞大的行业落地大模型。

其次是数据预处理周期长。AI训练首先需要进行大量的数据预处理。尤其大模型数据规模庞大,数据预处理的工作量也随之递增。一个典型的百TB级大模型数据集,数据预处理工作经常要超过10天,占AI数据挖掘全流程的30%。如果没有针对性的存力帮助,随着模型的不断增大,数据预处理的工作量、工作时长以及消耗算力将持续增大,导致大模型的训练愈发艰难。

wKgaomSxXlWAbQOYAAPjLcnTYeM669.jpg

然后是数据集加载慢,训练易中断。大模型的训练参数、训练数据集规模特别庞大,这就导致多种状况都会影响到数据集的加载,从而导致模型训练的中断甚至重来。尤其在训练复杂的模型结构时,数据加载不顺畅,易出错会导致巨大的工作开销增加。

比如根据相关数据,OpenAI 在 GPT-4 的训练使用了约 25000 个 A100 GPU的算力,进行了90到100天的训练。其模型 flops 利用率仅有32%到36%。大量故障导致重新启动检查点,就是其算力利用率低的主要原因。如果不能解决这个问题,大模型不断发展就意味着无尽的算力资源与人力资源将消耗在数据故障当中,让大模型的应用成本难以承受。

此外还有一个挑战,是模型的推理实时性和精准度低。大模型在推理部署时,需要将最新的数据随时联接进来,而目前主流方法训练时间长且成本高。如果不能克服这个挑战,将让大模型的推理部署效果大打折扣,从而影响智能化的最终落地效果。

由此可见,大模型时代各家不仅需要比算法,比算力,比数据,更需要比存力。具体而言,就是比拼存储资源,比拼存储体系应对大模型需求的准确性,比拼在数据侧提升大模型训练推理效果的软硬件适配。如果缺少存力这根支柱,就像缺少AI算力、缺少数据、缺少落地场景一样,大模型时代是根本是不成立的。

建立:针对AI大模型的存储支柱

好在,针对这样的现实,存储产业已经行动了起来。比如面对大模型时代的AI存储,就可以提供4大能力:针对数据归集难题,华为可以通过数据编织能力,实现跨系统、跨地域、跨云的全局统一数据视图和调度;针对数据预处理周期长的问题,华为打造了近存计算能力,让数据在存储完成数据准备,更好释放AI算力资源;针对训练易中断等问题,华为通过预处理加速、AI训练/推理加速等技术,实现训练过程0等待 。

把这些长期建设的技术能力与针对性解题思路聚合在一起,最终形成能够应对大模型存力挑战,适配大模型的开发与部署需求的产品与解决方案——这就是华为存储为大模型穹顶,建立存储支柱的方式。

这些技术能力,最终凝结成了本次发布的两款产品:面向AI全流程,提供领先性能的OceanStor A310深度学习数据湖存储,以及能够大幅降低AI使用门槛的FusionCube A3000训/推超融合一体机。

面向数据量不断扩张,模型日新月异的AI大模型,高性能、有针对性的数据存储底座是发展的必要条件,OceanStor A310深度学习数据湖存储就为此而生。其具备超高可扩展性,混合负载高性能,多协议无损融合互通,能够实现数据归集、预处理、训练、推理的AI全流程海量数据管理。

wKgZomSxXlWAcIrwAAOgIgEk5N8893.jpg

面对AI计算与HPC合流的产业趋势,OceanStor A310可以提供面向AI、HPC、大数据场景的同源数据分析能力,最大支持4096节点扩展,单框5U支持业界最高的400GB/s带宽以及1200万IOPS的最高性能,支持多协议无损融合互通,实现数据的0拷贝,全流程效率提升60%。OceanStor A310存储通过近存计算,可以实现训练数据的预处理,预处理效率提升30%。利用全局文件系统GFS,接入分散在各地域的原始数据,简化数据归集流程,从而将华为应对AI大模型的存储能力集中释放,一次性接触AI开发全流程的数据难题与存力挑战。

未来,AI将融入千行百业,重塑千行百业。这也就导致能够适配更多行业场景、应用场景的超融合一体机将成为产业智能化进程中的刚需。

wKgaomSxXlWAS4QeAAKYoszVv40285.jpg

为此,华为推出了FusionCube A3000训/推超融合一体机,面向行业大模型训练/推理场景,针对百亿级模型应用,集成了OceanStor A300高性能存储节点、训/推节点、交换设备、AI平台软件与管理运维软件,为大模型伙伴提供拎包入住式的部署体验,实现一站式交付,做到开箱即用,2小时内即可完成部署,可以说是打通了大模型落地的最后一公里。

训/推节点与存储节点均可独立水平扩展,以匹配不同规模的模型需求。同时FusionCube A3000通过高性能容器实现多个模型训练推理任务共享GPU,将资源利用率从40%提升到70%以上。

在这两款产品的加持下,无论是探索智能化天花板的大模型开发训练,还是实现智能化落地的场景化部署,AI大模型都将得到有力的存力支持。

存力支柱,就这样树立在AI大模型时代的穹顶下。

未来:存储支柱向上生长,AI穹顶指向天宇

面向纵深性、长期化的AI大模型发展,存储产业如何提供持续的支持与帮助?对于这个问题,华为在发布会当中也给出了自己的答案。在华为看来,大模型爆发并不应该仅仅成为存储产业的短期机遇。长期来看,AI与存储应该彼此促进,互为助力,形成长期积极发展的良性局面。

为此,华为首先将积极投入未来,持续在AI数据存储方面进行研究和准备。发布会现场,周跃峰与华为天才少年张霁进行了对话,讨论了华为在数据归集、数据训练、数据推理等方面如何提升存储能力,帮助AI开发与落地做到更好。

比如说,面向跨地域归集的数据安全流转难题,华为正在研究被称为“数据方舱”的技术。这项技术使得数据及其访问权限、凭证信息实现全封装,从而确保在流转过程中数据处于安全、可靠的环境当中。

这类对于未来AI技术发展趋势的预判与研发投入,将成为华为在AI存储领域持续打开产业空间的钥匙,也将成为推动存储产业迎接AI时代机遇的新动力。

另一方面,想要适配AI大模型带来的产业发展空间,存储产业必须依靠合作,建设生态,从而才能够向用户提供综合性、行业性的解决方案。

在生态化发展的驱动下,用户开发大模型、应用大模型过程中多样性、复杂性的软硬件需求将得到持续满足,从而确保模型开发、落地畅通无阻。

整体而言,华为存储既为火爆的AI大模型,提供了即刻能够解决问题、实现资源满足的存储解决方案,也着眼未来发展,在存储技术、生态上进行不断的革新、生长。AI大模型与存储底座,就像是穹顶与支柱的关系,支柱越来越高,穹顶的高度也自然提升,智能化的极限才能不断被打破。

为了能够建好AI大模型的穹顶,华为存储带来了三方面的价值,真正实现了以存储为支柱的产业担当。

首先,面对数据归集、数据训练中断等一系列真实存在AI训练部署难题,华为存储以更好的技术带来了解题思路,提供了应对策略,从而在存储与AI两个技术领域间架起了桥梁,达成了供需之间的沟通。

其次,华为面向大模型训练与落地,都提供了资源更加充沛、利用更加合理的存储底座。这将有助于优化大模型的综合成本,提升各行业利用大模型,适配大模型的可能性。

再次,华为在存储领域推动的开放合作方案,可以推动存储生态与AI生态相互促进。让更多软硬件企业加入到AI大模型的机遇中,分享智能时代红利,从而全面促进存储产业的发展与进化。

向下扎到根,向上捅破天的AI存储支柱,在这些价值的凝聚下逐渐成型。

用好这根支柱,可以支撑AI大模型发展,提升大模型从训练到推理的全流程效率。

发展这根支柱,可以助力千行百业的智能化落地,打造出智能时代新的基础设施。

站在这根支柱上,我们能够看到第四次工业革命的晨光破晓。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 华为
    +关注

    关注

    218

    文章

    36190

    浏览量

    262689
  • 存储
    +关注

    关注

    13

    文章

    4889

    浏览量

    90287
  • AI
    AI
    +关注

    关注

    91

    文章

    41114

    浏览量

    302599
  • 算力
    +关注

    关注

    2

    文章

    1673

    浏览量

    16833
  • 大模型
    +关注

    关注

    2

    文章

    3771

    浏览量

    5272
  • 存力
    +关注

    关注

    0

    文章

    29

    浏览量

    320
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    忆联UH812a以极致破局大模型载入瓶颈

    随着大模型技术规模化落地,AI应用的实时性正成为企业竞争的核心。然而,在算力持续升级的同时,模型从存储层加载至计算单元的环节却日渐成为制约系统效率与弹性的关键瓶颈。缓慢或波动的加载过程,不仅会导致
    的头像 发表于 03-04 16:22 1054次阅读
    忆联UH812a以极致<b class='flag-5'>存</b><b class='flag-5'>力</b>破局大<b class='flag-5'>模型</b>载入瓶颈

    曙光存储两大核心技术与全栈产品矩阵推动范式革新

    当AI大模型参数规模迈入万亿级别,万卡级超集群已成为前沿AI研发与应用的核心载体。然而澎湃算的背后,数据算速度正成为关键瓶颈,的性能
    的头像 发表于 01-23 11:37 870次阅读

    华为荣获算服务商互联能力成熟度模型参编证书

    在2025算互联网大会期间,算互联网服务论坛在成都成功举办。论坛现场举行了《算服务商互联能力成熟度模型》参编证书颁发仪式,华为凭借在算
    的头像 发表于 12-31 11:50 806次阅读

    一根好线的标准:你几乎感觉不到它的存在

    ,往往是一根真正的好HDMI线。 它不抢镜、不报错、不中断,甚至让你完全忘记它的存在。 而这,恰恰是它最了不起的地方。 好线从不制造问题,只默默解决问题 劣质线缆常常以各种方式“刷存在感”: 开机黑屏,需反复插拔; 播放4K HD
    的头像 发表于 12-11 17:48 662次阅读

    光电复合缆——一根线缆的“双面人生”

    在5G基站林立的都市、横跨海洋的通信工程,或是智慧城市的监控网络中,总能看到种特殊的线缆:它既承载着光纤的轻盈,又蕴含着电缆的厚重,这便是光电复合缆——一根线缆同时完成电力传输与信号通信的“全能
    的头像 发表于 10-29 09:41 823次阅读

    一根线也能有“责任感”?HDMI线守护每次重要放映

    体验。而在这类“不容出错”的场景中,有一根常被忽视的线缆,始终处于信号链路的最后环——HDMI线。 它没有屏幕去展示画面,没有扬声器去传递声音,却决定着信号能否完整抵达。它的“责任感”,不体现在宣传语中,而藏在每
    的头像 发表于 10-20 17:50 733次阅读

    新华三的网络杠杆,撬动AI智算新天地

    新华三一根网络杠杆,撬动智能中国的算未来
    的头像 发表于 09-06 10:10 1717次阅读
    新华三的网络杠杆,撬动AI智算新天地

    一根线也能决定体验好坏?揭秘HDMI线在影音系统中的关键作用

    整个系统的视听体验。今天,我们就来深入探讨下,为什么说“一根线也能决定体验好坏”,以及HDMI线在影音系统中扮演的关键角色。 HDMI线:不仅仅是连接工具 很多人认为HDMI线只是个简单的连接工具,其主要功能是将视频和音频信
    的头像 发表于 07-01 17:41 1661次阅读

    电线一根黑线一根白线代表什么线

    意义、用途以及相关的安全注意事项。 、家庭电路中的黑线与白线 在家庭电路中,黑线和白线是最常见的两种电线,它们分别承担着不同的功能。根据国际电工委员会(IEC)的标准,黑线通常代表“火线”(Live Wire),而白线则
    的头像 发表于 06-12 17:24 1.7w次阅读

    max9979把DOUT也share到一根线上,如果我次只片选其中个CS#, 其他未被片选的芯片DOUT会是高阻态吗?

    我有10路max9979, 共用路SPI控制接口(其中CS#是独立的)。 当我把DOUT也share到一根线上,如果我次只片选其中个CS#, 其他未被片选的芯片DOUT会是高阻态
    发表于 06-11 06:19

    微定义“AI芯片”,让每比特数据创造更多智能

    在AI技术重塑全球产业格局的进程中,计算范式正经历从运算器为中心到存储器为中心的范式跃迁。这变革重新定义了“先进”的边界。 得微电子首次创造性地提出“AI
    的头像 发表于 06-04 09:03 935次阅读

    8芯网线断了一根可以用吗

    8芯网线断了一根是否可以使用,需结合具体应用场景、网线类型以及网络协议来综合判断,以下是详细分析: 、网线结构与标准 8芯网线的结构:8芯网线通常由4对双绞线组成,每对线由两线缆组成,颜色分别为
    的头像 发表于 05-27 10:21 4783次阅读

    河南淮滨一根智慧路灯杆&apos;挑&apos;起城市治理新变革

    河南淮滨一根智慧路灯杆'挑'起城市治理新变革
    的头像 发表于 05-23 09:19 707次阅读
    河南淮滨<b class='flag-5'>一根</b>智慧路灯杆&apos;挑&apos;起城市治理新变革

    纯干货!可以替换RS485接口电路的设计攻略=两线上供电及通讯,无需加隔离

    二总线是种通过两线同时实现供电和数据传输的通信技术 - 核心特点: - 两线完成供电+通信 - 低功耗、长距离传输 - 适用于分布式设备联网 二总线:一根双绞线解决供电与通信,节
    发表于 05-07 11:33

    充电桩3C认证,压死小微桩企的最后一根“稻草”?

    充电桩3C认证,压死小微桩企的最后一根“稻草”?
    的头像 发表于 04-29 17:38 1220次阅读
    充电桩3C认证,压死小微桩企的最后<b class='flag-5'>一根</b>“稻草”?