超算硝烟再起，CPU+GPU还能玩出新花样？-电子发烧友网

从去年11月公布的最新TOP500超算系统排名上，我们可以看出AMD已经开始蚕食原本属于英特尔的份额，而且速度不容小觑。而英伟达则因为在GPU上的头号交椅地位，成了坚持所有坚持CPU+GPU架构超算的首选。

非但如此，英伟达开始在ARM生态上有所动作，推出了Grace这样的高性能CPU，并被瑞士超算中心的超级计算机系统阿尔卑斯所用。然而近来的一系列动向表明，超算市场并不会就此维持定局。

英特尔：GPU和异构开始猛追

英特尔耕耘了这么多年HPC和超算市场，自然不会白白认输，尤其是自己的图形部门正在崛起的情况下。于是，就在上周的投资者大会上，英特尔公布了全新的HPC-AI超算策略，以CPU+GPU融合在同一个Xeon插槽的设计，由此推出全新的XPU，代号名为FalconShores。

FalconShores将融合通用x86处理器核心和高度并行计算的Xe-HPC GPU核心，并结合英特尔自研的高带宽共享内存。根据英特尔的说法，这种CPU+GPU+通用内存的架构可以将单个插槽的计算密度提升5倍，与现有的设计相比，可将性能功耗比提升5倍以上。

FalconShoresXPU / 英特尔

这对于英特尔目前的战略来说，基本上可以说是必选的一条技术路线。考虑到英特尔在先进封装技术上并未止步，工艺节点也开始跟上主流代工厂的节奏，异构计算的设计已经在英特尔近期推出的诸多产品中得到了验证，通用内存也已经在业界成了改善延迟提高带宽的常用手段之一。况且英特尔已经在其Sapphire Rapids Xeon服务器处理器上用到了HBM2e这类高带宽内存，FalconShores中自研的高带宽内存会有何等性能确实令人好奇。

FalconShores的另一大优势在与灵活的核心配比，根据工作负载来调整x86核心与Xe核心。英特尔在会上不断给出十万亿亿级的概念，这样的性能在FalconShores的性能下似乎是可行的，不过这一XPU正式进入超算市场的时间不会太快，而是要等到2024年，借助那时的埃米级工艺和Foveros封装技术才能实现。

英伟达：不放弃ARM，也不放弃互联

前阵子英伟达收购ARM失败的消息传来，不少人认为英伟达会就此放弃这块蛋糕，然而英伟达CEO黄仁勋却表示他们并不会就此放弃ARM生态，未来将继续推出Grace这样基于ARM架构的CPU。之所以能有如此的底气，在于英伟达那20年的ARM架构授权。

目前拥有ARM架构授权的企业屈指可数，更不用说64位的授权，并将其用于HPC市场了。英伟达如今这种ARM CPU+GPU的路线，看似是在抢英特尔和AMD的生意，但面向的市场其实又有所不同。

GraceCPU /英伟达

Grace虽然性能不差，但与这些x86 CPU在通用计算上相比还是略逊一筹，况且也不是所有研究机构或超算中心都会像日本一样，构建富岳或紫藤花这种规模的ARM超算。英伟达追求的并不是在通用计算上超过其他两家数十年的积累，而是专注于AI算力。训练自然语言处理模型、利用GPU加速深度学习，这才是英伟达的优势所在。

这时问题来了，为何超算不选择其它通用CPU或其它的GPU产品呢？这样既能兼顾通用计算性能，也能用的GPU的加速性能。这是因为英伟达准备了专用于自家CPU和GPU的互联技术NVLink。过去仅有GPU产品的英伟达仅仅将NVLink技术用于GPU之间的互联，如今在Grace出现后，NVLink4.0可以为GraceCPU和英伟达GPU牵线搭桥。

更不用说英伟达已经在2020年收购了Mellanox，要知道在最新的TOP500超算中，除了使用常规的25/100G以太网互联外，基本都用到了Mellanox的互联技术。英伟达与Mellanox的结合，直接覆盖了三分之二的顶级超算系统。未来的NVLink有了Mellanox的帮忙更是难以匹敌，所以并不是英伟达担心竞品的出现，而是其性能表现之强，让你不得不选择他们旗下的产品。

小结

英特尔在超算上的发力归根结底还是靠XeHPC这样的GPU核心，但作为GPU新秀的英特尔短时间还是无法撼动英伟达在超算上的地位。而英伟达的ARM计划未来如何演进也令人十分期待，毕竟这一产品线不像其消费级GPU，还未有任何路线图公布。但喜人的一点是，超算从百亿亿级过渡到十万亿亿级的过程中，势必会有更多的创新方案出现。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉