0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

大模型AI算力剧增,谁来扛国产GPU大旗?

智能计算芯世界 来源:智能计算芯世界 2023-08-15 16:51 次阅读

AI算力、算法和数据人工智能行业三要素中,AI算力更是重中之重,业界厂商通过对各类AI硬件不断迭代为算力狂飙的需求提供强有力保障。自ChatGPTAI、GPT-4模型发布火爆出圈后,在引发了普罗大众对AI大模型热情的同时,也引燃了AI算力的战火。全球科技巨头纷纷发布AI大模型、AI训练卡产品都是入场者争夺AI制高点的战争缩影。

1、AI异构计算三分天下,GPU表现异常亮眼

众所周知,人工智能(尤其是大模型新兴应用领域)对AI算力需求超过了通用CPU的摩尔定律的发展速度,而异构计算的性能增长恰恰能够满足这些新兴领域的算力需求发展方向和趋势。异构计算领域,目前呈现出GPU、FPGAASIC芯片三分天下的局面,GPU、FPGA、ASIC芯片都会有自己独特的技术特长和应用领域,有自己独特的客户群体。

4ddb3086-3aff-11ee-9e74-dac502259ad0.png

ASIC芯片可以获得最优性能,即面积利用率高、速度快、功耗低;但AISC开发风险极大,算法是固定,而且从研发到市场的时间周期很长,不适合例如深度学习快速迭代的领域。大多是具备AI算法又擅长芯片研发的巨头参与,如 Google 的TPU。 FPGA称为现场可编程门阵列,用户可以根据自身的需求进行重复编程,相比之下,具有可硬件编程的特点,灵活性好;但基本单元的计算能力有限,速度和功耗存在不足。FPGA 在工业互联网领域、工业机器人设备领域应用前景十分巨大。 GPU具备高效的并行性、高密集的运算、超长流水线,以及成熟生态,最先被引入深度学习;GPU针对不同应用领域的需求,增加了专用向量、张量、矩阵运算指令,提升浮点运算精度和性能,以满足天气预报、工业设计、基因工程、药物发现、金融工程、自动驾驶等不同计算场景的需求。 综合考虑性能、能效比和编程灵活性等因素,GPU明显优于ASIC、FPGA等芯片,并成为目前AI加速服务器的最主流选择。 目前,英伟达AMD是目前全球GPU的领军企业,两家合计获取了全球GPU绝大部分市场份额。国内海光信息寒武纪公司的GPU产品已经实现规模化销售。 全球来看,英伟达的H100及A100、AMD的MI100及MI200等均为主流的GPGPU产品型号。据IDC数据显示,2021年GPU服务器份额占国内AI加速服务器市场的88.4%,2021-2025年间年复合增速为19.1%。据Jon Peddie Research数据显示2022Q1英伟达占据79%市场份额,AMD占据21%。英伟达在独立GPU领域一枝独秀。

在中国市场上,根据IDC数据,2021年英伟达占国内AI加速卡80%以上市场份额,2015-2021年间年复合增速高达77.4%,处于市场领先地位。

2、英伟达中国版GPU限制及可供应性风险

无论在HPC高性能计算,科学研发领域,还是人工智能大模型场景,尤其是对算力要求的比较高Training(训练)环节,AMD的MI 100、MI 200以及Nvidia的A100,H100都是GPU领域的超强算力芯片,极其普遍的应用在AI服务器中实现加速计算,提供计算精度,减少训练周期。 NVIDIA A100、H100等加速计算卡的需求过于火爆,即便在台积电增加了大量的订单,紧急提升产能,依然无法满足。但在中国市场上,由于美国的禁令,NVIDIA基于中市场策略定制了特供版A800、H800。那么,中国特供版A800和H800与A100和H100的具体差距?主要差距是互联后整体集群带宽的下降。A800的互联带宽从A100的600GB/s下降到400GB/s,H800的互联带宽从H100的900GB/s下降到450GB/s。本身单卡的算力不变,但是集群卡间互联的带宽限制整个集群的算力规模,从而限制了集群性能,相当于限制了AI模型训练精度以及中国AI技术发展。

4e347d9e-3aff-11ee-9e74-dac502259ad0.png

即便如此,NVIDIA特供版A800、H800发布也是异常抢手,在国内大型互联网企业在采购潮的推动下,涨价幅度已经超过40%。在如此大模型高算力市场需求下,依靠国外GPU技术发展AI技术本身就是伪命题,如同沙滩筑高楼;同时,在可供应性和技术演进上成了极大风险。

3、国内GPU厂商概述及国产化应对策略

美国对中国GPU等芯片的“卡脖子”制裁也给国内产品替代英伟达带来非常大的机会。国产AI芯片厂商持续发力,对标行业龙头已缩小差距。在AI加速和高性能计算领域,国内主要有GPGPU和NPU两条技术路径;GPGPU技术沉淀深、生态兼容广,NPU发展迅速,但算力供给单一性和生态壁垒比较难打破,两条路径都得到相应厂商的支持和发展,在特定领域性能都达到业界一流水平。

相较而言,GPGPU路线更加符合AI算力发展需求,更具潜力。GPGPU也叫做通用GPU,优势在于具备大规模并行计算的能力,可快速开发高能效的应用程序,在产品性能、通用性、易用性等方面优势明显,全球9成以上商用AI系统的选择GPGPU架构芯片,在训练负载方面更是如此。而且,当前AI应用基本全都建立在GPGPU架构的软件开发平台上,生态体系更加完善,好用,易用。AI技术发展日新月异,AI软件开发者通过在GPGPU平台开发,能够更好的提高生产力。

ASIC架构,优势在于根据产品的需求,进行特定设计和制造的集成电路,因此计算速度快,能耗更低。它的出现存在一个理论前提,即算法发展相对成熟,已发现最优算法,通过将软件固化到硬件执行,以实现最优效率。由于当前AI算法、模型快速迭代发展,ASIC架构需要投入大量的资金,以及经历较长的研发和工程周期,容易出现量产即落后的局面。另外,国际上还有基于FPGA架构开发AI芯片,虽然可根据自身需求进行重复编程,但缺点在于频率较低,单元计算能力有限,价格昂贵。而且,基于FPGA的AI应用开发,需要软件工程师同时具备软件、硬件能力,开发难度较大;并且目前FPGA被国外巨头垄断,因此很少有FPGA架构的国产AI芯片。

相对于ASIC与FPGA而言,国内对GPGPU芯片其实需求更为迫切。大模型预训练面临着计算资源需求、数据集规模、训练时间和效率、参数调优和模型调整、以及泛化能力和适应性等多个难题。应对这些难题需要综合考虑硬件资源、数据管理、算法设计等多方面因素。因此,算力领先、软件完善的 GPGPU成为先进大模型的首选算力来源。而且,随着AI应用向多模态进一步发展,通用性更优的GPGPU可以更好的支持这类应用发展

另外,国内对GPGPU芯片的需求不止于芯片可提供多少算力,是否能满足应用场景所需的计算精度也同样重要。原因在于,AI应用视场景不同,需要算力精度不同。例如AICG领域对图像和语音的处理,用32位、16位计算精度即可;而部分科学计算,则需要用到FP64双精度浮点运算,才可保证模型训练和预测结果的准确性。总而言之,AI算力的全面发展,需要全精度、通用性强的GPGPU芯片支撑。

当前,国内AI芯片厂商数量约在6000+家,其中主流厂商数量约60余家,主要分为三个梯队,第一梯队包括海光、华为、寒武纪等。划分原因在于,第一梯队厂商有成熟产品,且已有商业化量产规模的应用。

海光:DCU产品深算系列,兼容通用的“类 CUDA”环境以及国际主流商业计算软件和人工智能软件,对标主流 NVIDIA A100 产品,海光 DCU 单芯片产品基本能达到与其相近的性能水平。并且,海光DCU深算一号,国内唯一能支持全部算力精度,可以满足需要更高精度的数学计算的需要。GPGPU架构,让其通用性更强,海光DCU产品在AI计算、大数据处理、商业计算等领域发挥着重要作用。

华为昇腾:产品包括昇腾310、910,自研达芬奇架构实现较低功耗和较好散热,可在华为庞大的AI软件工程师支持下,通过运行华为的全栈软硬件平台,并且深度适配、迁移和优化,可以应用于云边端全场景覆盖,目前已形成较为完善的生态。

寒武纪:产品主要由云端芯片与边缘芯片等组成,产品体系丰富,适配AI应用及各类算法,产品的能效较好,并掌握了智能芯片架构、编译器、工具链等核心技术。但因为AISC架构芯片的天然劣势,使得寒武纪产品在实际应用中需要大量资金、人才投入,落地部署困难重重,实际应用限制多多。

第二梯队包括,燧原、昆仑芯、天数、壁仞、沐曦等近几年成立的初创企业。这几家厂商虽然发布了产品,但由于AI芯片产品化、复杂度等原因,在实际应用中进展有限,或开始在某些领域局部试水,或者还在努力建设软件生态,集群部署方案等。

第三梯队包括龙芯、景嘉微等,这两家厂商有意向进军AI计算领域,但尚无AI芯片量产。龙芯作为国产CPU领域的主流厂商,5月份宣布集成龙芯自研GPGPU的第一款AI计算芯片,预计将于 2024 年一季度流片。而景嘉微作为国内最早投入GPU研发的厂商之一,近期也宣布募资42亿元投入高性能GPGPU芯片研发及产业化项目。这两家厂商作为国内计算芯片代表厂商,如今在布局AI计算芯片研发,终于迈出了第一步。

4、总结

AI大模型催生GPU市场需求剧增,在严峻的国际形势下,GPU的国产替代进程刻不容缓,海光信息深算一号已基本具备英伟达高端 GPU的技术能力,在紧张的局势背景下,未来有望推动高端GPU国产替代进程。

在特定AI应用领域(尤其是GPU图形计算和AI推理领域),国内GPU厂商从技术到生态都具备一定积累,随着产品不断迭代更新,以及在AI训练领域持续发力,未来在争夺AI制高点的战争中发光发热,从而缓解“卡脖子”问题和供应风险。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • gpu
    gpu
    +关注

    关注

    27

    文章

    4424

    浏览量

    126724
  • 人工智能
    +关注

    关注

    1776

    文章

    43899

    浏览量

    230646
  • 算力
    +关注

    关注

    1

    文章

    659

    浏览量

    14364
  • 大模型
    +关注

    关注

    2

    文章

    1543

    浏览量

    1139

原文标题:大模型AI算力剧增,谁来扛国产GPU大旗?

文章出处:【微信号:AI_Architect,微信公众号:智能计算芯世界】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    模型时代,国产GPU面临哪些挑战

    国产GPU在不断成长的过程中也存在诸多挑战。   在大模型训练上存在差距   大语言模型是基于深度学习的技术。这些模型通过在海量文本数据上
    的头像 发表于 04-03 01:08 3137次阅读
    大<b class='flag-5'>模型</b>时代,<b class='flag-5'>国产</b><b class='flag-5'>GPU</b>面临哪些挑战

    国产GPUAI模型领域的应用案例一览

    电子发烧友网报道(文/李弯弯)近一年多时间,随着大模型的发展,GPUAI领域的重要性再次凸显。虽然相比英伟达等国际大厂,国产GPU起步较晚
    的头像 发表于 04-01 09:28 2463次阅读
    <b class='flag-5'>国产</b><b class='flag-5'>GPU</b>在<b class='flag-5'>AI</b>大<b class='flag-5'>模型</b>领域的应用案例一览

    盘点国产GPU在支持大模型应用方面的进展

    ,近些年国内也有不少GPU企业在逐步成长,虽然在大模型的训练和推理方面,与英伟达GPU差距极大,但是不可忽视的是,不少国产GPU企业也在
    的头像 发表于 03-29 00:27 3098次阅读
    盘点<b class='flag-5'>国产</b><b class='flag-5'>GPU</b>在支持大<b class='flag-5'>模型</b>应用方面的进展

    FPGA在深度学习应用中或将取代GPU

    现场可编程门阵列 (FPGA) 解决了 GPU 在运行深度学习模型时面临的许多问题 在过去的十年里,人工智能的再一次兴起使显卡行业受益匪浅。英伟达 (Nvidia) 和 AMD 等公司的股价也大幅
    发表于 03-21 15:19

    防止AI模型被黑客病毒入侵控制(原创)聆思大模型AI开发套件评测4

    神经网络的电路实现 // 比如说我们已经有一台神奇的AI黑科技在默默工作... endmodule // 我们召唤出这个神秘的AI模型
    发表于 03-19 11:18

    使用cube-AI分析模型时报错的原因有哪些?

    使用cube-AI分析模型时报错,该模型是pytorch的cnn转化成onnx ``` Neural Network Tools for STM32AI v1.7.0 (STM.
    发表于 03-14 07:09

    大茉莉X16-P,5800M大称王称霸

    Rykj365
    发布于 :2024年01月25日 14:54:52

    AI模型可以取代大学教育吗?

    AI模型
    电子发烧友网官方
    发布于 :2024年01月02日 16:27:52

    AI模型怎么解决芯片过剩?

    AI模型
    电子发烧友网官方
    发布于 :2024年01月02日 15:42:05

    AI模型可以设计电路吗?

    AI模型
    电子发烧友网官方
    发布于 :2024年01月02日 15:09:29

    FPGA和CPU、GPU有什么区别?为什么越来越重要?

    是“XPU”等加速器兴起的原因。 图1:CPU 面临瓶颈的原因 同时, 自 2010 年 AI 兴起, AI 模型的训练所需
    发表于 11-09 14:09

    【KV260视觉入门套件试用体验】Vitis AI 构建开发环境,并使用inspector检查模型

    Vitis AI 的所有工具和库,而不需要在本地安装任何依赖。CPU版本的Vitis AI docker 可以在没有 GPU 的机器上运行,但是模型优化的速度会比
    发表于 10-14 15:34

    英码科技精彩亮相火爆的IOTE 2023,多面赋能AIoT产业发展!

    硬件为基础,搭载自研的0代码移植工具链,在不触碰客户模型文件的前提下,实现算法从GPU到XPU的一键移植,最快1天实现算法适配,快、易、省赋能长尾
    发表于 09-25 10:03

    盘古ai模型用的什么芯片?

    ,具有自学能力,能够自动从大量数据中提取并学习规律,从而实现人工智能的基础。 盘古AI模型采用了GPU(图形处理器)加速技术,GPU优化的算法使其在短时间内能够完成非常庞大的数据集的
    的头像 发表于 08-31 09:01 2417次阅读

    沐曦基于曦云C500发布国产首台GPU千亿参数大模型训推一体机

    首台GPU千亿参数大模型训推一体机由数字宁夏倡议发起技术攻关,基于沐曦最新发布的曦云C500旗舰GPU芯片提供的算力支持、智谱华章的AI模型
    的头像 发表于 08-21 14:41 2931次阅读