0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

大模型AI算力剧增,谁来扛国产GPU大旗?

智能计算芯世界 来源:智能计算芯世界 2023-08-15 16:51 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

AI算力、算法和数据人工智能行业三要素中,AI算力更是重中之重,业界厂商通过对各类AI硬件不断迭代为算力狂飙的需求提供强有力保障。自ChatGPTAI、GPT-4模型发布火爆出圈后,在引发了普罗大众对AI大模型热情的同时,也引燃了AI算力的战火。全球科技巨头纷纷发布AI大模型、AI训练卡产品都是入场者争夺AI制高点的战争缩影。

1、AI异构计算三分天下,GPU表现异常亮眼

众所周知,人工智能(尤其是大模型新兴应用领域)对AI算力需求超过了通用CPU的摩尔定律的发展速度,而异构计算的性能增长恰恰能够满足这些新兴领域的算力需求发展方向和趋势。异构计算领域,目前呈现出GPU、FPGAASIC芯片三分天下的局面,GPU、FPGA、ASIC芯片都会有自己独特的技术特长和应用领域,有自己独特的客户群体。

4ddb3086-3aff-11ee-9e74-dac502259ad0.png

ASIC芯片可以获得最优性能,即面积利用率高、速度快、功耗低;但AISC开发风险极大,算法是固定,而且从研发到市场的时间周期很长,不适合例如深度学习快速迭代的领域。大多是具备AI算法又擅长芯片研发的巨头参与,如 Google 的TPU。 FPGA称为现场可编程门阵列,用户可以根据自身的需求进行重复编程,相比之下,具有可硬件编程的特点,灵活性好;但基本单元的计算能力有限,速度和功耗存在不足。FPGA 在工业互联网领域、工业机器人设备领域应用前景十分巨大。 GPU具备高效的并行性、高密集的运算、超长流水线,以及成熟生态,最先被引入深度学习;GPU针对不同应用领域的需求,增加了专用向量、张量、矩阵运算指令,提升浮点运算精度和性能,以满足天气预报、工业设计、基因工程、药物发现、金融工程、自动驾驶等不同计算场景的需求。 综合考虑性能、能效比和编程灵活性等因素,GPU明显优于ASIC、FPGA等芯片,并成为目前AI加速服务器的最主流选择。 目前,英伟达AMD是目前全球GPU的领军企业,两家合计获取了全球GPU绝大部分市场份额。国内海光信息、寒武纪等公司的GPU产品已经实现规模化销售。 全球来看,英伟达的H100及A100、AMD的MI100及MI200等均为主流的GPGPU产品型号。据IDC数据显示,2021年GPU服务器份额占国内AI加速服务器市场的88.4%,2021-2025年间年复合增速为19.1%。据Jon Peddie Research数据显示2022Q1英伟达占据79%市场份额,AMD占据21%。英伟达在独立GPU领域一枝独秀。

在中国市场上,根据IDC数据,2021年英伟达占国内AI加速卡80%以上市场份额,2015-2021年间年复合增速高达77.4%,处于市场领先地位。

2、英伟达中国版GPU限制及可供应性风险

无论在HPC高性能计算,科学研发领域,还是人工智能大模型场景,尤其是对算力要求的比较高Training(训练)环节,AMD的MI 100、MI 200以及Nvidia的A100,H100都是GPU领域的超强算力芯片,极其普遍的应用在AI服务器中实现加速计算,提供计算精度,减少训练周期。 NVIDIA A100、H100等加速计算卡的需求过于火爆,即便在台积电增加了大量的订单,紧急提升产能,依然无法满足。但在中国市场上,由于美国的禁令,NVIDIA基于中市场策略定制了特供版A800、H800。那么,中国特供版A800和H800与A100和H100的具体差距?主要差距是互联后整体集群带宽的下降。A800的互联带宽从A100的600GB/s下降到400GB/s,H800的互联带宽从H100的900GB/s下降到450GB/s。本身单卡的算力不变,但是集群卡间互联的带宽限制整个集群的算力规模,从而限制了集群性能,相当于限制了AI模型训练精度以及中国AI技术发展。

4e347d9e-3aff-11ee-9e74-dac502259ad0.png

即便如此,NVIDIA特供版A800、H800发布也是异常抢手,在国内大型互联网企业在采购潮的推动下,涨价幅度已经超过40%。在如此大模型高算力市场需求下,依靠国外GPU技术发展AI技术本身就是伪命题,如同沙滩筑高楼;同时,在可供应性和技术演进上成了极大风险。

3、国内GPU厂商概述及国产化应对策略

美国对中国GPU等芯片的“卡脖子”制裁也给国内产品替代英伟达带来非常大的机会。国产AI芯片厂商持续发力,对标行业龙头已缩小差距。在AI加速和高性能计算领域,国内主要有GPGPU和NPU两条技术路径;GPGPU技术沉淀深、生态兼容广,NPU发展迅速,但算力供给单一性和生态壁垒比较难打破,两条路径都得到相应厂商的支持和发展,在特定领域性能都达到业界一流水平。

相较而言,GPGPU路线更加符合AI算力发展需求,更具潜力。GPGPU也叫做通用GPU,优势在于具备大规模并行计算的能力,可快速开发高能效的应用程序,在产品性能、通用性、易用性等方面优势明显,全球9成以上商用AI系统的选择GPGPU架构芯片,在训练负载方面更是如此。而且,当前AI应用基本全都建立在GPGPU架构的软件开发平台上,生态体系更加完善,好用,易用。AI技术发展日新月异,AI软件开发者通过在GPGPU平台开发,能够更好的提高生产力。

ASIC架构,优势在于根据产品的需求,进行特定设计和制造的集成电路,因此计算速度快,能耗更低。它的出现存在一个理论前提,即算法发展相对成熟,已发现最优算法,通过将软件固化到硬件执行,以实现最优效率。由于当前AI算法、模型快速迭代发展,ASIC架构需要投入大量的资金,以及经历较长的研发和工程周期,容易出现量产即落后的局面。另外,国际上还有基于FPGA架构开发AI芯片,虽然可根据自身需求进行重复编程,但缺点在于频率较低,单元计算能力有限,价格昂贵。而且,基于FPGA的AI应用开发,需要软件工程师同时具备软件、硬件能力,开发难度较大;并且目前FPGA被国外巨头垄断,因此很少有FPGA架构的国产AI芯片。

相对于ASIC与FPGA而言,国内对GPGPU芯片其实需求更为迫切。大模型预训练面临着计算资源需求、数据集规模、训练时间和效率、参数调优和模型调整、以及泛化能力和适应性等多个难题。应对这些难题需要综合考虑硬件资源、数据管理、算法设计等多方面因素。因此,算力领先、软件完善的 GPGPU成为先进大模型的首选算力来源。而且,随着AI应用向多模态进一步发展,通用性更优的GPGPU可以更好的支持这类应用发展

另外,国内对GPGPU芯片的需求不止于芯片可提供多少算力,是否能满足应用场景所需的计算精度也同样重要。原因在于,AI应用视场景不同,需要算力精度不同。例如AICG领域对图像和语音的处理,用32位、16位计算精度即可;而部分科学计算,则需要用到FP64双精度浮点运算,才可保证模型训练和预测结果的准确性。总而言之,AI算力的全面发展,需要全精度、通用性强的GPGPU芯片支撑。

当前,国内AI芯片厂商数量约在6000+家,其中主流厂商数量约60余家,主要分为三个梯队,第一梯队包括海光、华为、寒武纪等。划分原因在于,第一梯队厂商有成熟产品,且已有商业化量产规模的应用。

海光:DCU产品深算系列,兼容通用的“类 CUDA”环境以及国际主流商业计算软件和人工智能软件,对标主流 NVIDIA A100 产品,海光 DCU 单芯片产品基本能达到与其相近的性能水平。并且,海光DCU深算一号,国内唯一能支持全部算力精度,可以满足需要更高精度的数学计算的需要。GPGPU架构,让其通用性更强,海光DCU产品在AI计算、大数据处理、商业计算等领域发挥着重要作用。

华为昇腾:产品包括昇腾310、910,自研达芬奇架构实现较低功耗和较好散热,可在华为庞大的AI软件工程师支持下,通过运行华为的全栈软硬件平台,并且深度适配、迁移和优化,可以应用于云边端全场景覆盖,目前已形成较为完善的生态。

寒武纪:产品主要由云端芯片与边缘芯片等组成,产品体系丰富,适配AI应用及各类算法,产品的能效较好,并掌握了智能芯片架构、编译器、工具链等核心技术。但因为AISC架构芯片的天然劣势,使得寒武纪产品在实际应用中需要大量资金、人才投入,落地部署困难重重,实际应用限制多多。

第二梯队包括,燧原、昆仑芯、天数、壁仞、沐曦等近几年成立的初创企业。这几家厂商虽然发布了产品,但由于AI芯片产品化、复杂度等原因,在实际应用中进展有限,或开始在某些领域局部试水,或者还在努力建设软件生态,集群部署方案等。

第三梯队包括龙芯、景嘉微等,这两家厂商有意向进军AI计算领域,但尚无AI芯片量产。龙芯作为国产CPU领域的主流厂商,5月份宣布集成龙芯自研GPGPU的第一款AI计算芯片,预计将于 2024 年一季度流片。而景嘉微作为国内最早投入GPU研发的厂商之一,近期也宣布募资42亿元投入高性能GPGPU芯片研发及产业化项目。这两家厂商作为国内计算芯片代表厂商,如今在布局AI计算芯片研发,终于迈出了第一步。

4、总结

AI大模型催生GPU市场需求剧增,在严峻的国际形势下,GPU的国产替代进程刻不容缓,海光信息深算一号已基本具备英伟达高端 GPU的技术能力,在紧张的局势背景下,未来有望推动高端GPU国产替代进程。

在特定AI应用领域(尤其是GPU图形计算和AI推理领域),国内GPU厂商从技术到生态都具备一定积累,随着产品不断迭代更新,以及在AI训练领域持续发力,未来在争夺AI制高点的战争中发光发热,从而缓解“卡脖子”问题和供应风险。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5099

    浏览量

    134471
  • 人工智能
    +关注

    关注

    1813

    文章

    49743

    浏览量

    261583
  • 算力
    +关注

    关注

    2

    文章

    1385

    浏览量

    16566
  • 大模型
    +关注

    关注

    2

    文章

    3444

    浏览量

    4970

原文标题:大模型AI算力剧增,谁来扛国产GPU大旗?

文章出处:【微信号:AI_Architect,微信公众号:智能计算芯世界】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    华为发布AI容器技术Flex:ai平均利用率提升30%

    决方案。   当前,AI产业正处于高速发展的黄金时期,海量需求如潮水般涌来。然而,资源利用率偏低的问题却成为了产业发展的关键桎梏。具
    的头像 发表于 11-26 08:31 7150次阅读

    湘军,让变成生产

    脑极体
    发布于 :2025年11月25日 22:56:58

    国产AI芯片真能住“内卷”?海思昇腾的这波操作藏了多少细节?

    最近行业都在说“AI的命门”,但国产芯片真的能接住这波需求吗? 前阵子接触到海思昇腾910B,实测下来有点超出预期——7nm工艺下
    发表于 10-27 13:12

    科技上线赤兔推理引擎服务,创新解锁FP8大模型

    模型轻量化部署方案。用户通过远程平台预置的模型镜像与AI工具,仅需50%的GPU
    的头像 发表于 07-30 21:44 725次阅读

    加速卡是什么东西?它真能在AI战场上干掉GPU和TPU!

    随着AI技术火得一塌糊涂,大家都在谈"大模型"、"AI加速"、"智能计算",可真到了落地环节,才是硬通货。你有没有发现,现在越来越多的
    的头像 发表于 06-05 13:39 1291次阅读
    智<b class='flag-5'>算</b>加速卡是什么东西?它真能在<b class='flag-5'>AI</b>战场上干掉<b class='flag-5'>GPU</b>和TPU!

    摩尔线程与AI平台AutoDL达成深度合作

    近日,摩尔线程与国内领先的AI平台AutoDL宣布达成深度合作,双方联合推出面向个人开发者的“摩尔线程专区”,首次将国产GPU
    的头像 发表于 05-23 16:10 1430次阅读

    点动科技战略聚焦AI,领航服务新征程

    点动科技战略聚焦,AI领域取得阶段性成果 点动科技近日宣布完成战略重心全面转向AI领域,以“
    的头像 发表于 05-07 09:29 463次阅读

    芯片的生态突围与革命

    据的爆发式增长,大芯片已成为科技竞争的核心领域之一。   大芯片的核心应用场景丰富多样。在人工智能训练与推理方面,大模型(如 GPT
    的头像 发表于 04-13 00:02 2612次阅读

    智能最具潜力的行业领域

    ‌; 数据治理与联合创新‌:民生银行与华为、阿里云等共建AI实验室,通过“数据湖+模型体系”提升服务精准度‌; 需求驱动‌:金融大模型
    的头像 发表于 04-11 08:20 1034次阅读
    智能<b class='flag-5'>算</b><b class='flag-5'>力</b>最具潜力的行业领域

    DeepSeek推动AI需求:800G光模块的关键作用

    随着人工智能技术的飞速发展,AI需求正以前所未有的速度增长。DeepSeek等大模型的训练与推理任务对
    发表于 03-25 12:00

    千卡破局:科通技术以&quot;AI模型+AI芯片&quot;重构智底座

    2025年,随着DeepSeek大模型的开源迭代,AI技术在云计算领域的应用加速渗透,市场对高性能AI芯片的需求迎来爆发式增长。作为AI
    的头像 发表于 03-17 11:14 709次阅读

    GPU租用平台有什么好处

    当今,GPU租用平台为科研机构、企业乃至个人开发者提供了灵活高效的解决方案。下面,AI
    的头像 发表于 02-07 10:39 724次阅读

    中心的如何衡量?

    (ComputationalPower)是指智中心通过其内部的计算设备(如CPU、GPUAI芯片等)对数据进行处理和计算的能力。它体现了智中心在单位时间内能够完成的计算任务量,
    的头像 发表于 01-16 14:03 4219次阅读
    <b class='flag-5'>算</b>智<b class='flag-5'>算</b>中心的<b class='flag-5'>算</b><b class='flag-5'>力</b>如何衡量?

    科技云报到:要更要“利”,“精装”触发大模型产业新变局?

    科技云报到:要更要“利”,“精装”触发大模型产业新变局?
    的头像 发表于 01-16 10:24 797次阅读

    北电数智前进·AI异构计算平台,绘制国产商业化落地新蓝图

    潜在规模千亿量级的蓝海市场。在AI产业快速发展与信创支持国产替代的大环境下,国产迎来广阔发展前景,
    的头像 发表于 12-24 11:54 1187次阅读