0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

英特尔第一超算Aurora:峰值性能达2百亿亿次,拥有世界最大GPU集群

looger123 来源: looger123 作者: looger123 2023-08-29 15:29 次阅读

Aurora是Intel近年来参与的最受期待和最引人注目的项目之一,它是对Intel整个系统组合的大胆投注。预计这台机器将是首台峰值性能达到2 exaflops(2x10^18)浮点运算每秒的超级计算机。

作为位于伊利诺伊州阿贡国家实验室的Aurora超级计算机的首席架构师和首席研究员,Olivier Franza在实现这一最具雄心的科学仪器中发挥了领导作用,更不用说它还是世界上最大的GPU集群了。

这给了Franza一些压力,他是Intel的22年资深员工,2016年作为系统硬件架构师加入Aurora项目,并监督向基于GPU的机器的转变,于2021年成为首席架构师。

Franza解释说:“首席架构师负责根据客户的高级要求定义超级计算机的整体系统架构。有一些基本的要求,如总体性能指标和功率范围,但也有如RAS——可靠性、可用性、可维护性——这些对构建可扩展系统至关重要的内在特性。”

他的职责还包括从节点到机架到完整系统的系统拓扑的细节,包括其网络结构和存储组件。

路线图枢轴为塑造未来产品提供了机会

初始规划开始时,Aurora作为美国能源部赞助的系统,其设计由一系列Intel技术组成。然而,Intel产品路线图的变化,特别是Xeon Phi和Omnipath产品家族的结束,需要重新开始。当Intel制定了构建数据中心GPU的计划时,Franza参与了Intel® 数据中心GPU Max系列(代号Ponte Vecchio)的设计讨论。

从这个角度看,Aurora不仅仅是一个独立的系统。相反,它帮助塑造了Intel整体的策略和产品组合,以在最高级别解决规模和性能问题。

Franza表示:“我们将所有Aurora系统级的要求融入到组件级。”

例如,Intel Xeon CPU Max系列与高带宽内存的架构和概念,起初是由一些来自Intel Xeon Phi平台的特性产生的,这是第一个集成了高带宽和高容量的创新内存架构的产品。

此外,对高性能的需求进一步推动了所有子系统的进步,从计算刀片的热机械解决方案到其高密度物理集成,到存储。

Franza表示:“Intel构建了一个全新的存储概念,DAOS(分布式异步对象存储)。” 这是一个开源软件生态系统,用于在传统硬件上实现高速存储。“Aurora将是第一个使用它的系统,而且是迄今为止最大的。”

从设计组件到将数千个系统连接在一起

Aurora项目推动了系统级思考和Intel内部各个业务部门之间的广泛合作,以及与阿贡科学家和项目的另一个主要合作伙伴惠普企业的工程师的合作。

Franza表示:“让整个团队齐心协力、交付像Aurora这样的机器,对我们许多人来说,是一生中只有一次的经历。”

尽管工程师们在六月份安装了最后的刀片,但Franza仍在夜间继续进行该项目,因为系统正经过测试、稳定和验证的阶段。

他为一个大团队提供指导,该团队正在进行系统启动、验证、稳定、优化和使全系统性能工作负载启用的工作。最值得注意的是High Performance Linpack(HPL)基准测试,该测试确定了世界上的顶级系统,由半年度Top500名单认证

Franza每天早上参加每日站会,仔细检查每个节点的夜间运行,并制定第二天和未来工作的计划。每天下午,一个每日总结会议总结了进展和障碍。工作永无止境;机器始终运行。

他解释说:“我们采取逐步方法,在大规模上进行验证和稳定。” “你从刀片开始,然后移到机架,然后是多个机架,然后从那里扩展。”

Aurora 由 10,624 个计算刀片组成,在 166 个机架上拥有 63,744 个 Intel Max 系列 GPU(GPU 数量比世界上任何其他系统都多)和 21,248 个 Intel Xeon Max CPU。

他说:“它的大小相当于四个网球场,听起来很多,对吧?” “但只有当你真正去看它时,你才会意识到这个项目的巨大规模。”

Franza必须确保这个庞大的系统是稳定的、功能正常的和高效的。这是一个艰巨的任务,但终点即将到来。

他说:“走在过道上,所有的灯都亮着,感觉到机器正在运行是令人印象深刻的,显然也是非常有成就感的。” “这是一个显而易见的成就。”

“一生一次”的努力,塑造科学的超级计算机

使他继续前进的是建造“一个非凡的机器”的机会,这将为有影响力的研究提供动力。他引用了Aurora在癌症研究方面的巨大潜力作为项目将造福我们所有人的一个领域。

他说:“我认为这是使我们非常自豪的一件事。”

Aurora不仅将致力于解决世界上最复杂的科学和工程问题,它还将是一个理想的平台,用于运行生成式AI并将其应用于研究。“它将启用计划中最大的大型语言模型,即1万亿参数的Aurora GenAI项目,增强、启用并简化科学家的生活,”Franza说。

但他最享受的是团队合作和友情。

他说:“这是一个持续的努力,需要很大的毅力。” “核心团队保持了马拉松的心态,直到结束都不结束。我们需要那种能够长时间有效地关注某件极具挑战性的事情的人。最后,所取得的成就是很少有人可以说他们取得过的。”

文章来源:半导体行业观察

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 英特尔
    +关注

    关注

    60

    文章

    9425

    浏览量

    168834
  • gpu
    gpu
    +关注

    关注

    27

    文章

    4422

    浏览量

    126710
收藏 人收藏

    评论

    相关推荐

    英特尔:2025年全球AIPC将1亿台占比20%

    英特尔行业资讯
    北京中科同志科技股份有限公司
    发布于 :2024年02月29日 09:15:26

    英特尔1nm投产时间曝光!领先于台积电

    英特尔行业芯事
    深圳市浮思特科技有限公司
    发布于 :2024年02月28日 16:28:32

    英特尔再创辉煌!1.4nm芯片工艺领航微电子时代,工业界的新里程碑?

    英特尔行业资讯
    北京中科同志科技股份有限公司
    发布于 :2024年02月26日 08:58:21

    英特尔或可以拿到超百亿美元补贴

    英特尔或可以拿到超百亿美元补贴 据彭博社的爆料,美国为引导半导体制造业的回归,目前正在就向英特尔公司提供超过100亿美元(换算下来约人民币711.94亿元)的补贴进行谈判。 而这笔超100亿美元的补贴是
    的头像 发表于 02-18 11:19 397次阅读

    英特尔登顶2023年全球半导体榜单之首

    英特尔行业芯事
    深圳市浮思特科技有限公司
    发布于 :2024年02月01日 11:55:16

    英特尔酷睿14代处理器系列发布,Arrowlake/LunarLake24年问世

    处理器英特尔
    looger123
    发布于 :2024年01月10日 17:44:38

    #高通 #英特尔 #Elite 高通X Elite芯片或终结苹果、英特尔的芯片王朝

    高通英特尔苹果
    深圳市浮思特科技有限公司
    发布于 :2023年10月27日 16:46:07

    英特尔锐炫显卡DX11性能更新,并推出全新英特尔PresentMon Beta

    英特尔锐炫正式推出DirectX 11驱动更新,为PC游戏玩家带来更强劲性能,同时发布全新工具帮助发烧友和游戏社区更好地衡量和评估系统性能。准备好一起进入极客世界吧! 去年
    的头像 发表于 08-19 11:10 422次阅读
    <b class='flag-5'>英特尔</b>锐炫显卡DX11<b class='flag-5'>性能</b>更新,并推出全新<b class='flag-5'>英特尔</b>PresentMon Beta

    安装OpenVINO工具套件英特尔Distribution时出现错误的原因?

    安装OpenVINO™工具套件英特尔 Distribution时,出现错误: Python 3.10.0.ECHO is off. Unsupported Python version.
    发表于 08-15 08:14

    Arm Forge 22.1.3版用户指南

    。 Arm Forge支持许多并行体系结构和模型,包括MPI、CUDA和OpenMP。 Arm Forge是款跨平台工具,支持最新的编译器和C++标准,以及英特尔、64位Arm、AMD
    发表于 08-10 06:29

    英特尔媒体加速器参考软件Linux版用户指南

    英特尔媒体加速器参考软件是用于数字标志、交互式白板(IWBs)和亭位使用模型的参考媒体播放器应用软件,它利用固定功能硬件加速来提高媒体流速、改进工作量平衡和资源利用,以及定制的图形处理股(GPU)管道解决方案。该用户指南将介绍和解释如何为Linux* 使用
    发表于 08-04 06:34

    英特尔® AMX 加速AI推理性能,助阿里电商推荐系统成功应对峰值负载压力

    达沃斯论坛|英特尔王锐:AI驱动工业元宇宙,释放数实融合无穷潜力 英特尔研究院发布全新AI扩散模型,可根据文本提示生成360度全景图 英特尔内部代工模式的最新进展 原文标题:英特尔®
    的头像 发表于 07-08 14:15 331次阅读
    <b class='flag-5'>英特尔</b>® AMX 加速AI推理<b class='flag-5'>性能</b>,助阿里电商推荐系统成功应对<b class='flag-5'>峰值</b>负载压力

    全球首台200亿亿次超级计算机Aurora组装完成

    英特尔表示,aurora已准备好满足hpc和ai计算的要求,并将教育气候、生物、医药等科学计算相关的大规模开源人工智能模型。aurora拥有超过60,000个
    的头像 发表于 06-26 10:32 943次阅读

    英特尔公布1万亿参数AI模型,比ChatGPT大570%

    拥有这么大的规模,那么驱动 Aurora genAI 模型背后的算力肯定也不容小觑。英特尔透露,他们使用的是名为 Aurora(欧若拉)的超级计算机,这是
    的头像 发表于 05-30 15:51 470次阅读
    <b class='flag-5'>英特尔</b>公布1万亿参数AI模型,比ChatGPT大570%

    芯片行业,何时走出至暗时刻?

    以来历史新低 前不久,英特尔发布的 2023财年第一财季财报显示,第一财季营收为117亿美元,与上年同期的184亿美元相比下降36%,创造了
    发表于 05-06 18:31