0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

超算硝烟再起,CPU+GPU还能玩出新花样?

21克888 来源:电子发烧友网 作者:周凯扬 2022-02-24 09:33 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

从去年11月公布的最新TOP500超算系统排名上,我们可以看出AMD已经开始蚕食原本属于英特尔的份额,而且速度不容小觑。而英伟达则因为在GPU上的头号交椅地位,成了坚持所有坚持CPU+GPU架构超算的首选。

非但如此,英伟达开始在ARM生态上有所动作,推出了Grace这样的高性能CPU,并被瑞士超算中心的超级计算机系统阿尔卑斯所用。然而近来的一系列动向表明,超算市场并不会就此维持定局。

英特尔:GPU和异构开始猛追

英特尔耕耘了这么多年HPC和超算市场,自然不会白白认输,尤其是自己的图形部门正在崛起的情况下。于是,就在上周的投资者大会上,英特尔公布了全新的HPC-AI超算策略,以CPU+GPU融合在同一个Xeon插槽的设计,由此推出全新的XPU,代号名为FalconShores。

FalconShores将融合通用x86处理器核心和高度并行计算的Xe-HPC GPU核心,并结合英特尔自研的高带宽共享内存。根据英特尔的说法,这种CPU+GPU+通用内存的架构可以将单个插槽的计算密度提升5倍,与现有的设计相比,可将性能功耗比提升5倍以上。
FalconShoresXPU / 英特尔

这对于英特尔目前的战略来说,基本上可以说是必选的一条技术路线。考虑到英特尔在先进封装技术上并未止步,工艺节点也开始跟上主流代工厂的节奏,异构计算的设计已经在英特尔近期推出的诸多产品中得到了验证,通用内存也已经在业界成了改善延迟提高带宽的常用手段之一。况且英特尔已经在其Sapphire Rapids Xeon服务器处理器上用到了HBM2e这类高带宽内存,FalconShores中自研的高带宽内存会有何等性能确实令人好奇。

FalconShores的另一大优势在与灵活的核心配比,根据工作负载来调整x86核心与Xe核心。英特尔在会上不断给出十万亿亿级的概念,这样的性能在FalconShores的性能下似乎是可行的,不过这一XPU正式进入超算市场的时间不会太快,而是要等到2024年,借助那时的埃米级工艺和Foveros封装技术才能实现。

英伟达:不放弃ARM,也不放弃互联

前阵子英伟达收购ARM失败的消息传来,不少人认为英伟达会就此放弃这块蛋糕,然而英伟达CEO黄仁勋却表示他们并不会就此放弃ARM生态,未来将继续推出Grace这样基于ARM架构的CPU。之所以能有如此的底气,在于英伟达那20年的ARM架构授权。

目前拥有ARM架构授权的企业屈指可数,更不用说64位的授权,并将其用于HPC市场了。英伟达如今这种ARM CPU+GPU的路线,看似是在抢英特尔和AMD的生意,但面向的市场其实又有所不同。
GraceCPU /英伟达

Grace虽然性能不差,但与这些x86 CPU在通用计算上相比还是略逊一筹,况且也不是所有研究机构或超算中心都会像日本一样,构建富岳或紫藤花这种规模的ARM超算。英伟达追求的并不是在通用计算上超过其他两家数十年的积累,而是专注于AI算力。训练自然语言处理模型、利用GPU加速深度学习,这才是英伟达的优势所在。

这时问题来了,为何超算不选择其它通用CPU或其它的GPU产品呢?这样既能兼顾通用计算性能,也能用的GPU的加速性能。这是因为英伟达准备了专用于自家CPU和GPU的互联技术NVLink。过去仅有GPU产品的英伟达仅仅将NVLink技术用于GPU之间的互联,如今在Grace出现后,NVLink4.0可以为GraceCPU和英伟达GPU牵线搭桥。

更不用说英伟达已经在2020年收购了Mellanox,要知道在最新的TOP500超算中,除了使用常规的25/100G以太网互联外,基本都用到了Mellanox的互联技术。英伟达与Mellanox的结合,直接覆盖了三分之二的顶级超算系统。未来的NVLink有了Mellanox的帮忙更是难以匹敌,所以并不是英伟达担心竞品的出现,而是其性能表现之强,让你不得不选择他们旗下的产品。

小结

英特尔在超算上的发力归根结底还是靠XeHPC这样的GPU核心,但作为GPU新秀的英特尔短时间还是无法撼动英伟达在超算上的地位。而英伟达的ARM计划未来如何演进也令人十分期待,毕竟这一产品线不像其消费级GPU,还未有任何路线图公布。但喜人的一点是,超算从百亿亿级过渡到十万亿亿级的过程中,势必会有更多的创新方案出现。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • cpu
    cpu
    +关注

    关注

    68

    文章

    11326

    浏览量

    225865
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5271

    浏览量

    136059
  • 超算
    +关注

    关注

    1

    文章

    118

    浏览量

    9546
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    基于openEuler平台的CPUGPU与FPGA异构加速实战

    随着 AI、视频处理、加密和高性能计算需求的增长,单一 CPU 已无法满足低延迟、高吞吐量的计算需求。openEuler 作为面向企业和云端的开源操作系统,在 多样力支持 方面表现出色,能够高效调度 CPU
    的头像 发表于 04-08 11:02 635次阅读
    基于openEuler平台的<b class='flag-5'>CPU</b>、<b class='flag-5'>GPU</b>与FPGA异构加速实战

    代码开源啦!用ESP32-P4 MINI开发板搭建双摄像头,带你玩出新花样

    物联网应用的广袤天地中,构建一套稳定、高效、成本适宜的双摄像头方案并非易事,这背后需要优质的硬件支持和精妙的技术整合。启明云端自研的WT9932P4-MINI开发板及其扩展板POE的搭配在这场角逐中崭露头角。WT9932P4-MINI开发板体积小巧的同时,集成丰富功能,为开发项目提供便捷与灵活的选择;POE扩展板则借助以太网供电技术,简化布线流程,提升系统稳
    的头像 发表于 03-16 18:35 743次阅读
    代码开源啦!用ESP32-P4 MINI开发板搭建双摄像头,带你<b class='flag-5'>玩出新花样</b>!

    GPU 利用率<30%?这款开源智云平台让力不浪费 1%

    作为 AI 开发者,你是否早已受够这些困境:花数百万采购的 GPU 集群,利用率常年低于 30%,力闲置如同烧钱;跨 CPU/GPU/NPU 异构资源调度难如登天,模型训练卡在资源分
    的头像 发表于 01-26 14:20 280次阅读

    AI硬件全景解析:CPUGPU、NPU、TPU的差异化之路,一文看懂!​

    CPU作为“通用基石”,支撑所有设备的基础运行;GPU凭借并行力,成为AI训练与图形处理的“主力”;TPU在Google生态中深耕云端大模型训练;NPU则让AI从“云端”走向“身边”(手机、手表
    的头像 发表于 12-17 17:13 2222次阅读
    AI硬件全景解析:<b class='flag-5'>CPU</b>、<b class='flag-5'>GPU</b>、NPU、TPU的差异化之路,一文看懂!​

    UART 串口通信还能玩出什么花样

    还记得打印机、鼠标和调制解调器曾经使用粗线和笨重连接器吗?那些必须拧进电脑里的连接器?这些设备很可能使用UART与电脑通信。虽然USB几乎完全取代了那些老式的线缆和连接器,但UART绝非过时之物。你会发现UART在许多DIY电子项目中被用于将GPS模块、蓝牙模块和RFID读卡器模块连接到你的RaspberryPi、Arduino或其他微控制器。UART是通用
    的头像 发表于 11-24 19:05 563次阅读
    UART 串口通信<b class='flag-5'>还能玩出</b>什么<b class='flag-5'>花样</b>?

    CPUGPU到NPU,美格智能持续优化异构力计算效能

    前言AI力已成为数字经济时代的核心生产力,但全球AI产业正面临“供给不足、成本高企、生态待建”三重挑战。据行业统计,行业力资源平均利用率仅为30%~40%,存在严重的力浪费现象。国内领先
    的头像 发表于 11-21 16:05 1299次阅读
    从<b class='flag-5'>CPU</b>、<b class='flag-5'>GPU</b>到NPU,美格智能持续优化异构<b class='flag-5'>算</b>力计算效能

    国产数据库的AI战事

    国产数据库硝烟再起,Vastbase V100构筑企业智能基座
    的头像 发表于 10-24 20:45 4387次阅读
    国产数据库的AI战事

    如何看懂GPU架构?一分钟带你了解GPU参数指标

    分析GPU核心参数体系:力、显存大小、显存带宽、热门架构特性等关键指标,旨在帮您理解不同应用场景下,如何选择最合适的GPU力解决方案。1、
    的头像 发表于 10-09 09:28 1521次阅读
    如何看懂<b class='flag-5'>GPU</b>架构?一分钟带你了解<b class='flag-5'>GPU</b>参数指标

    节点+集群”:华为撞出来的力之路

    节点+集群”,成为彻底解决AI力困局的契机
    的头像 发表于 09-24 10:55 1335次阅读
    “<b class='flag-5'>超</b>节点+集群”:华为撞出来的<b class='flag-5'>算</b>力之路

    CPUGPU,渲染技术如何重塑游戏、影视与设计?

    渲染技术是计算机图形学的核心内容之一,它是将三维场景转换为二维图像的过程。渲染技术一直在不断演进,从最初的CPU渲染到后来的GPU渲染,性能和质量都有了显著提升。从CPUGPU:技术
    的头像 发表于 09-01 12:16 1113次阅读
    从 <b class='flag-5'>CPU</b> 到 <b class='flag-5'>GPU</b>,渲染技术如何重塑游戏、影视与设计?

    科技赋能汽车制造玩出新花样

    汽车行业正处于数字化复兴时期。汽车制造的线性、劳动密集型流程已几乎一去不复返。如今,汽车制造已成为机器人技术、人工智能和数据驱动的协同工作,机器不仅能够制造,还能思考、适应和不断优化。
    的头像 发表于 07-21 14:52 1096次阅读

    移远Zigbee+BLE 多协议模组来了!让智能连接玩出新花样

    7月17日,全球领先的物联网整体解决方案供应商移远通信宣布,正式发布其全新高性能MCUZigbee+BLE模组KCMA32S。该模组以多协议融合技术为核心,集高性能、小尺寸、高安全性于一体,凭借先进的连接技术和紧凑的外形设计,将有力驱动智能照明、智能楼宇、智能家居等场景的连接技术迭代升级。硬核配置加持,夯实性能与安全底座KCMA32S搭载SiliconLab
    的头像 发表于 07-17 19:04 909次阅读
    移远Zigbee+BLE 多协议模组来了!让智能连接<b class='flag-5'>玩出新花样</b>

    【「力芯片 | 高性能 CPU/GPU/NPU 微架构分析」阅读体验】+NVlink技术从应用到原理

    前言 【「力芯片 | 高性能 CPU/GPU/NPU 微架构分析」书中的芯片知识是比较接近当前的顶尖芯片水平的,同时包含了芯片架构的基础知识,但该部分知识比较晦涩难懂,或许是由于我一直从事的事芯片
    发表于 06-18 19:31

    车牌识别新花样:树莓派打造智能车牌监控系统!

    树莓派是创客们打造家庭安防系统的热门之选,这得益于其具备运用人工智能(AI)的能力。AI系统能识别潜在威胁,在此情境下,还能识别过往车辆的牌照信息。创客YashIndane就开发了一款这样的车牌识别
    的头像 发表于 04-26 09:03 743次阅读
    车牌识别<b class='flag-5'>新花样</b>:树莓派打造智能车牌监控系统!

    搭建力中心,从了解的GPU 特性开始

    ABSTRACT摘要本文介绍如何搭建力,并介绍A100、H100、H200和B200这些GPU的特性。JAEALOT2025年4月23日随着人工智能、大数据和高性能计算(HPC)的快速发展,市场上
    的头像 发表于 04-24 11:08 3719次阅读
    搭建<b class='flag-5'>算</b>力中心,从了解的<b class='flag-5'>GPU</b> 特性开始