0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

模型“狂欢”之下,算力之困何解?

sakobpqhz 来源:算力基建 2023-08-23 16:09 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

“百模大战”愈演愈烈,AI产业化前夜似乎已在不知不觉中来临。海量数据爆发,计算量指数级增长,传统基础设施架构下的算力已经无法满足模型时代的需求。据OpenAI测算,全球AI训练所用的计算量呈现指数级增长,平均每3.43个月便会增长一倍,目前计算量已扩大30万倍,远超算力增长速度。国家信息中心联合浪潮信息发布的《智能计算中心创新发展指南》显示,当前我国超过30个城市正在建设或提出建设智算中心,但仍然无法满足相关需求。模型建设究竟需要多少算力?如何更大程度挖掘出现有算力的潜力?又该如何通过优化资源调度让算力价值最大化?模型“狂欢”之后,是时候回归“冷静”了。

01. 供需失衡下的算力之困

打造一个AI大模型究竟需要多少算力?公开数据显示,ChatGPT初始所需的算力就是1万块英伟达A100(一种AI芯片),价格超过7亿元。后续的调优训练每天消耗算力大概是3640PFLOPS,需要7至8个算力达500PFLOPS的数据中心支持,建设成本约为三、四十亿元。

“大模型的用户量、访问速度、网络带宽、训练模式等都会影响到其算力需求的大小。”中国科学院计算技术研究所研究员张云泉在接受《中国电子报》记者采访时表示,“要训练一个中国版的ChatGPT,首先要部署价值至少7亿元的硬件设施,还要准备大笔训练调优的费用。”

腾讯云异构计算产品负责人宋丹丹对《中国电子报》记者介绍称,大模型对算力的要求分为训练和推理两个阶段。训练需要短时间内的并行算力,而且要在短时间内能够做到交付,对算力的量、算力的稳定性和性能、弹性扩缩容能力有高要求。进入推理阶段,对于单位算力的性价比、成本、算力所处的位置、端应用服务是否能够快速连接等要求比较高。这就要求企业具备海量的可扩缩容的高性能算力,并且这些算力能够稳定交付。

近日,广发证券对国内AI大模型的训练和推理阶段算力需求,以及相应的成本进行了测算。结果显示,在暂不考虑软件层面算法优化带来的模型消耗算力成本下降的前提下,国内大模型在训练与推理阶段或将产生相当于1.1万台或3.8万台(乐观假设下)高端AI服务器的算力需求,以单片A100售价10万元、AI加速卡价值量占服务器整机约70%计算,则对应约126亿元或434亿元增量AI服务器市场规模。

“实际上,算力之困已经爆发了。”张云泉坦言,国内目前大模型存在技术水平不高、同质化等问题,主要是算力层面和国外差距比较大,没有算力基础,后面算法等都无法进一步发展。大模型企业不是不愿意尽快更新迭代,而是算力不够用,只能精打细算。

浪潮云首席技术官孙思清在接受《中国电子报》记者采访时表示,从通用算力到智能算力,算力需求的变化其实与场景需求密切相关。伴随模型参数规模越来越大,智能化程度越来越高,对并行计算能力以及包括存储、网络等在内的底层基础硬件能力,以及扩展性、灵活性的要求也越高。此外,算力还要与大模型本身进行更好的适配。

模型层出不穷,智能算力需求随之激增。据一些服务器厂商透露,目前智算服务器出货量已经超过通用CPU。不过,孙思清表示,未来,随着软硬件升级和大模型核心技术的提升,同等规模的大模型所需算力也许会逐渐减少。

实际上,不只是大模型,人工智能应用已无处不在。这些看得见的应用背后,皆是看不见的智能算力在支撑。如何破解算力供需失衡的新课题?业内专家普遍认为,要做“加法”,也要做“减法”。

02. 做“加法”:软硬皆施,提升利用率

“我国算力的利用率只有30%。”中国工程院院士邬贺铨坦言。工信部最新数据显示,中国算力总规模居全球第二,保持30%左右的年增长率。新增算力设施中,智能算力占比已超过50%。在多个权威市场分析机构的排名中,美国和中国都属于算力的领跑者,主要差距在于计算效率和应用水平。

提升算力供给能力是重中之重。“不同于超算需要的64位双精度浮点运算,智能算力多为32及以下的低精度运算,它是分阶段的,可以通过硬件加速来实现算力提升。”张云泉表示。比如,随着数据量的增长和计算任务的复杂化,CPU、GPU需要具备更高的计算和处理能力,存储器需要具备更大的容量和更快的读写速度。同时,算力提升还需要更大的网络带宽、速度更快的网络设备,从而更快地完成大规模数据传输和处理。

“硬件层面,CPU、GPU等核心硬件的性能越来越高,将有效提升算力供给能力;软件层面,模型算法和计算框架的优化,也能缓解一定的算力压力,减少对算力的依赖。”孙思清表示。这“一增一减”之间,算力供需平衡将找到新的出路。

“智算即异构计算。相对于只用CPU的通用计算,在服务器里CPU+GPU就是异构计算。背后的逻辑,是让最适合的专用硬件去做最适合的事。”宋丹丹表示,“对于整个算力的优化是分层级解决的。除了计算资源自身的架构和性能提升,也就是卡的迭代外,我们会在虚拟化层,通过GPU虚拟化或者计算池化等等一系列的技术,把算力做更多的多机多卡互联,然后把它以云服务、容器、Serverless或者实例的模式更灵活地对外使用。在平台层,通过任务流的模式,以深入上层服务的方式进一步优化计算效率。”

邬贺铨指出,降低算力使用门槛,才能让更多企业用得上、用得起现有的算力资源。目前国外有些企业已经把硬件服务器资源开放出来,也包括算力、算法的模型平台。而在国内,百度、阿里、华为等大企业也已开放平台,这意味着中小企业只要有意愿需求,都可以利用这些平台做数据训练。“目前国内已经意识到要让算力更简单、降低算力使用门槛的趋势。”他说道。

03. 做“减法”:化繁为简,优化资源调度

要让算力发挥更大价值,除了提升现有算力利用率,还可以通过简化算力资源匹配与调度过程的方式实现事半功倍的效果。

日前,复旦大学率先选择将智能计算平台CFFF部署在公有云上。据复旦大学“浩清”教授、人工智能创新与产业研究院院长漆远透露,有赖于公共云模式,跑在CFFF平台上的项目可享受到超千卡并行的智能算力,千卡并行的有效算力达到行业领先的92%,可拓展性达到万卡,万卡并行有效算力也可达90%。

中国工程院院士、阿里云创始人王坚指出,从计算到智算,公共云提供的是像电一样的计算服务,把算力基础设施部署在公共云上将加速推动产业步入开放发展的新阶段。在他看来,AI大模型的训练和运营需要集约化、在线的算力基础设施。集约化的算力基础设施是基础支撑,要求更高的计算并行性、更高的计算效率、更低的计算成本,并且要求适配各类专用计算芯片。在线化对算力提出更高要求,从模型训练和应用看,需要形成“用户膨胀、使用反馈、模型进化”的飞轮效应,海量用户在线使用和大规模API调用集成等都需要在线化的算力资源。这种集约化、在线化的需求,与公共云集中建设运维、弹性伸缩、按需服务的商业模式不谋而合。

“云是大模型最好的承载方式,也是训练和应用大模型的最佳平台。”宋丹丹指出,一方面,云上具备领先的软硬件架构、面向未来的技术架构和研发体系。对AI企业而言,从本地搭建服务器架构可能不是一个合适的选择。借助云上丰富的能力和产品,如云上的算力、网络、向量数据库,企业可以聚焦于大模型研发本身,业务开发的敏捷度也能进一步提升。另一方面,打造大模型需要的算力规模,对企业现金流的挑战很大。云上的算力形式,可以根据用户需求灵活分配计算资源,同时也提升了大模型的训练和推理效率。

孙思清认为,公有云集约化的特点有助于算力共享模式的实现。大模型的训练并不是一直满负荷进行的,空闲的时候,可以利用云的模式将算力池化,与其他有算力需求的企业共享。但同时他也指出,现实操作起来存在困难,数据归属、隐私保护、合规性等问题都需要考虑。

他表示,算力可以当作“水电”来用,但数据不可以。“水电”能动,但“水厂”“电厂”不能动,分布式算力并不能适用所有场景。此外,算力互联还需建立标准化的运营体系,算力如何计量、如何付费、如何结算都需要探讨。

张云泉表示,具体问题要具体分析,不能一概而论。几十亿参数规模的大模型放在云上可以,几百亿、上千亿规模的大模型肯定不行。中等规模以下的智算中心可以部署在公有云上,但大规模的智算中心如果部署在公有云上,网络延迟会很大,难以支撑高端计算。另外,运营商也会考虑到用云成本以及上云后是否会被云厂商“锁定”等问题。

他认为,优化算力调度不能光靠算力网络的互联互通来解决问题。首先要尽快推进接口协议,定义标准、建立标准;其次要优化算力调度管理软件,同时建设安全体系;此外,要选择成熟芯片和生态完善的技术路线,这样智算中心用起来效率才能达到比较高的水平。建议组建生态联合体,共同打造1~2个大规模的智算中心,协同训练少数几个通用大模型,共享算力资源。”

“未来,大模型将走向相对开放的生态,开源是一个重要趋势。”孙思清说道。他建议,政府层面应做好算力资源的统筹,重点聚焦合规性管控和集约化建设,把握好节奏,避免“一窝蜂”导致大量算力的浪费。企业层面应持续加打技术创新与场景实践力度,分工合作,协同发展。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 运营商
    +关注

    关注

    4

    文章

    2426

    浏览量

    46301
  • AI
    AI
    +关注

    关注

    89

    文章

    38091

    浏览量

    296590
  • 算力
    +关注

    关注

    2

    文章

    1385

    浏览量

    16564
  • 大模型
    +关注

    关注

    2

    文章

    3440

    浏览量

    4964

原文标题:模型“狂欢”之下, 算力之困何解?

文章出处:【微信号:算力基建,微信公众号:算力基建】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    湘军,让变成生产

    脑极体
    发布于 :2025年11月25日 22:56:58

    国产AI芯片真能扛住“内卷”?海思昇腾的这波操作藏了多少细节?

    反而压到了310W。更有意思的是它的异构架构:NPU+CPU+DVPP的组合,居然能同时扛住训练和推理场景,之前做自动驾驶算法时,用它跑模型时延直接降了20%。 但疑惑也有:这种密度下,散热怎么解决?而且昇腾的生态适配速度能
    发表于 10-27 13:12

    科技上线赤兔推理引擎服务,创新解锁FP8大模型

    模型轻量化部署方案。用户通过远程平台预置的模型镜像与AI工具,仅需50%的GPU即可解
    的头像 发表于 07-30 21:44 724次阅读

    施耐德电气Galaxy VXL UPS助力智中心发展

    随着智中心处理数据的规模不断攀升,其物理基础关键设施所经受的考验也日益严峻,空间、功率压、散热危、可用之艰、AI之难、运维
    的头像 发表于 07-15 10:06 644次阅读

    AI原生架构升级:RAKsmart服务器在超大规模模型训练中的突破

    近年来,随着千亿级参数模型的崛起,AI训练对的需求呈现指数级增长。传统服务器架构在应对分布式训练、高并发计算和显存优化等场景时逐渐显露瓶颈。而RAKsmart为超大规模模型训练提供
    的头像 发表于 04-24 09:27 612次阅读

    芯片的生态突围与革命

    据的爆发式增长,大芯片已成为科技竞争的核心领域之一。   大芯片的核心应用场景丰富多样。在人工智能训练与推理方面,大模型(如 GPT
    的头像 发表于 04-13 00:02 2610次阅读

    智能最具潜力的行业领域

    智能最具潜力的行业领域 一、金融行业 智能风控与精准服务‌:大型银行通过集群(6.27万台服务器)支撑AI模型训练,实现风险预警、智
    的头像 发表于 04-11 08:20 1031次阅读
    智能<b class='flag-5'>算</b><b class='flag-5'>力</b>最具潜力的行业领域

    DeepSeek推动AI需求:800G光模块的关键作用

    随着人工智能技术的飞速发展,AI需求正以前所未有的速度增长。DeepSeek等大模型的训练与推理任务对的需求持续攀升,直接推动了服务
    发表于 03-25 12:00

    模型遭遇墙,探索超级应用的发展路径

    最近,开源中国 OSCHINA、Gitee 与 Gitee AI  全文如下: 大模型撞上 “墙”,超级应用的探寻之路 文 / 傅聪 近日,大模型教父 Sam Altman 在 R
    的头像 发表于 02-10 17:24 1477次阅读
    大<b class='flag-5'>模型</b>遭遇<b class='flag-5'>算</b><b class='flag-5'>力</b>墙,探索超级应用的发展路径

    DeepSeek对芯片的影响

    DeepSeek模型,尤其是其基于MOE(混合专家)架构的DeepSeek-V3,对芯片的要求产生了深远影响。为了更好地理解这一影响,我们可以从几个方面进行分析。一.MOE架构对
    的头像 发表于 02-07 10:02 1619次阅读
    DeepSeek对芯片<b class='flag-5'>算</b><b class='flag-5'>力</b>的影响

    中心的如何衡量?

    作为当下科技发展的重要基础设施,其的衡量关乎其能否高效支撑人工智能、大数据分析等智能应用的运行。以下是对智中心算衡量的详细阐述:一、
    的头像 发表于 01-16 14:03 4200次阅读
    <b class='flag-5'>算</b>智<b class='flag-5'>算</b>中心的<b class='flag-5'>算</b><b class='flag-5'>力</b>如何衡量?

    科技云报到:要更要“利”,“精装”触发大模型产业新变局?

    科技云报到:要更要“利”,“精装”触发大模型产业新变局?
    的头像 发表于 01-16 10:24 796次阅读

    燧原科技AIGC生态破局

    近日,“太湖智·芯火燎原”AI产业生态大会在江苏省无锡市顺利召开,大会携手“政、产、学、研、投”各方伙伴,共同探讨人工智能领域的最新技术成果与未来发展趋势。区领导顾国栋、李桂林、阙尧尧参加活动。
    的头像 发表于 01-15 14:27 1062次阅读

    浪潮信息与智源研究院携手共建大模型多元生态

    近日,浪潮信息与北京智源人工智能研究院正式签署战略合作协议,双方将紧密合作,共同构建大模型多元开源创新生态。 此次合作旨在提升大模型创新研发的
    的头像 发表于 12-31 11:49 873次阅读