0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

英特尔第一超算Aurora:峰值性能达2百亿亿次,拥有世界最大GPU集群

looger123 来源: looger123 作者: looger123 2023-08-29 15:29 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

Aurora是Intel近年来参与的最受期待和最引人注目的项目之一,它是对Intel整个系统组合的大胆投注。预计这台机器将是首台峰值性能达到2 exaflops(2x10^18)浮点运算每秒的超级计算机。

作为位于伊利诺伊州阿贡国家实验室的Aurora超级计算机的首席架构师和首席研究员,Olivier Franza在实现这一最具雄心的科学仪器中发挥了领导作用,更不用说它还是世界上最大的GPU集群了。

这给了Franza一些压力,他是Intel的22年资深员工,2016年作为系统硬件架构师加入Aurora项目,并监督向基于GPU的机器的转变,于2021年成为首席架构师。

Franza解释说:“首席架构师负责根据客户的高级要求定义超级计算机的整体系统架构。有一些基本的要求,如总体性能指标和功率范围,但也有如RAS——可靠性、可用性、可维护性——这些对构建可扩展系统至关重要的内在特性。”

他的职责还包括从节点到机架到完整系统的系统拓扑的细节,包括其网络结构和存储组件。

路线图枢轴为塑造未来产品提供了机会

初始规划开始时,Aurora作为美国能源部赞助的系统,其设计由一系列Intel技术组成。然而,Intel产品路线图的变化,特别是Xeon Phi和Omnipath产品家族的结束,需要重新开始。当Intel制定了构建数据中心GPU的计划时,Franza参与了Intel® 数据中心GPU Max系列(代号Ponte Vecchio)的设计讨论。

从这个角度看,Aurora不仅仅是一个独立的系统。相反,它帮助塑造了Intel整体的策略和产品组合,以在最高级别解决规模和性能问题。

Franza表示:“我们将所有Aurora系统级的要求融入到组件级。”

例如,Intel Xeon CPU Max系列与高带宽内存的架构和概念,起初是由一些来自Intel Xeon Phi平台的特性产生的,这是第一个集成了高带宽和高容量的创新内存架构的产品。

此外,对高性能的需求进一步推动了所有子系统的进步,从计算刀片的热机械解决方案到其高密度物理集成,到存储。

Franza表示:“Intel构建了一个全新的存储概念,DAOS(分布式异步对象存储)。” 这是一个开源软件生态系统,用于在传统硬件上实现高速存储。“Aurora将是第一个使用它的系统,而且是迄今为止最大的。”

从设计组件到将数千个系统连接在一起

Aurora项目推动了系统级思考和Intel内部各个业务部门之间的广泛合作,以及与阿贡科学家和项目的另一个主要合作伙伴惠普企业的工程师的合作。

Franza表示:“让整个团队齐心协力、交付像Aurora这样的机器,对我们许多人来说,是一生中只有一次的经历。”

尽管工程师们在六月份安装了最后的刀片,但Franza仍在夜间继续进行该项目,因为系统正经过测试、稳定和验证的阶段。

他为一个大团队提供指导,该团队正在进行系统启动、验证、稳定、优化和使全系统性能工作负载启用的工作。最值得注意的是High Performance Linpack(HPL)基准测试,该测试确定了世界上的顶级系统,由半年度Top500名单认证

Franza每天早上参加每日站会,仔细检查每个节点的夜间运行,并制定第二天和未来工作的计划。每天下午,一个每日总结会议总结了进展和障碍。工作永无止境;机器始终运行。

他解释说:“我们采取逐步方法,在大规模上进行验证和稳定。” “你从刀片开始,然后移到机架,然后是多个机架,然后从那里扩展。”

Aurora 由 10,624 个计算刀片组成,在 166 个机架上拥有 63,744 个 Intel Max 系列 GPU(GPU 数量比世界上任何其他系统都多)和 21,248 个 Intel Xeon Max CPU。

他说:“它的大小相当于四个网球场,听起来很多,对吧?” “但只有当你真正去看它时,你才会意识到这个项目的巨大规模。”

Franza必须确保这个庞大的系统是稳定的、功能正常的和高效的。这是一个艰巨的任务,但终点即将到来。

他说:“走在过道上,所有的灯都亮着,感觉到机器正在运行是令人印象深刻的,显然也是非常有成就感的。” “这是一个显而易见的成就。”

“一生一次”的努力,塑造科学的超级计算机

使他继续前进的是建造“一个非凡的机器”的机会,这将为有影响力的研究提供动力。他引用了Aurora在癌症研究方面的巨大潜力作为项目将造福我们所有人的一个领域。

他说:“我认为这是使我们非常自豪的一件事。”

Aurora不仅将致力于解决世界上最复杂的科学和工程问题,它还将是一个理想的平台,用于运行生成式AI并将其应用于研究。“它将启用计划中最大的大型语言模型,即1万亿参数的Aurora GenAI项目,增强、启用并简化科学家的生活,”Franza说。

但他最享受的是团队合作和友情。

他说:“这是一个持续的努力,需要很大的毅力。” “核心团队保持了马拉松的心态,直到结束都不结束。我们需要那种能够长时间有效地关注某件极具挑战性的事情的人。最后,所取得的成就是很少有人可以说他们取得过的。”

文章来源:半导体行业观察

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 英特尔
    +关注

    关注

    61

    文章

    10276

    浏览量

    179366
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5104

    浏览量

    134487
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    英伟斥资50亿美元入股英特尔,芯片巨头携手重塑行业格局

    在科技行业引发广泛关注的重大事件中,当地时间9月18日,全球知名的芯片企业英伟宣布,将斥资50亿美元入股英特尔,双方还达成合作协议,共同致力于人工智能基础设施和个人计算产品的联合开发。这
    的头像 发表于 09-22 17:35 627次阅读

    重磅!双英强强合作,英伟英特尔投资50亿美元

    9月18日,英伟CEO黄仁勋宣布,与英特尔达成投资50亿美元的投资及技术合作,这是在双方进行年多的讨论后做出的决定。此举标志着两大竞争对手联手,开创AI PC和数据中心合作新篇章。
    的头像 发表于 09-19 09:36 9132次阅读
    重磅!双英强强合作,英伟<b class='flag-5'>达</b>向<b class='flag-5'>英特尔</b>投资50<b class='flag-5'>亿</b>美元

    美国商务部推进收购英特尔10%股份 估值约105亿美元

    值约105亿美元。 据悉,美国商务部长卢特尼克在19日接受美国消费者新闻与商业频道采访时透露,英特尔必须提供股权以换取联邦补贴。
    的头像 发表于 08-20 12:25 619次阅读

    英特尔发布边缘AI控制器与边缘智体机,创造“AI新视界”

    处理器的边缘 AI 控制器 和 基于英特尔锐炫 ™ 显卡的边缘智体机 ,为工业AI的规模化落地注入强劲动力。 英特尔与诺佳联合发布边缘
    发表于 06-24 17:50 1393次阅读
    <b class='flag-5'>英特尔</b>发布边缘AI控制器与边缘智<b class='flag-5'>算</b><b class='flag-5'>一</b>体机,创造“AI新视界”

    直击Computex 2025:英特尔重磅发布新GPU,图形和AI性能跃升3.4倍

    电子发烧友原创  章鹰 5月19日,在Computex 2025上,英特尔发布了最新全新图形处理器(GPU)和AI加速器产品系列。包括全新英特尔锐炫™ Pro B系列GPU——
    的头像 发表于 05-21 00:57 7008次阅读
    直击Computex 2025:<b class='flag-5'>英特尔</b>重磅发布新<b class='flag-5'>一</b>代<b class='flag-5'>GPU</b>,图形和AI<b class='flag-5'>性能</b>跃升3.4倍

    直击Computex2025:英特尔重磅发布新GPU,图形和AI性能跃升3.4倍

    5月19日,在Computex 2025上,英特尔发布了最新全新图形处理器(GPU)和AI加速器产品系列。包括全新英特尔锐炫™ Pro B系列GPU——
    的头像 发表于 05-20 12:27 5189次阅读
    直击Computex2025:<b class='flag-5'>英特尔</b>重磅发布新<b class='flag-5'>一</b>代<b class='flag-5'>GPU</b>,图形和AI<b class='flag-5'>性能</b>跃升3.4倍

    英特尔发布全新GPU,AI和工作站迎来新选择

    英特尔推出面向准专业用户和AI开发者的英特尔锐炫Pro GPU系列,发布英特尔® Gaudi 3 AI加速器机架级和PCIe部署方案   2025 年 5 月 19 日,北京 ——今日
    发表于 05-20 11:03 1680次阅读

    英特尔2025年Q1营收127亿美元,数据中心与AI业务可圈可点

      今日,英特尔公布2025年第一季度财报。数据显示,英特尔第一季度营收127亿美元,超出预期
    的头像 发表于 04-25 17:46 681次阅读

    英特尔宣布裁员20% 或2万人失业

    据外媒彭博社的报道,在当地时间4月24日,英特尔宣布裁员计划,比例20%。按照截至2024年底英特尔在全球拥有108900名员工来计算的话,预计此次裁员将波及大约2.2万名员工。旨在
    的头像 发表于 04-25 17:34 493次阅读

    英特尔酷睿Ultra AI PC上部署多种图像生成模型

    全新英特尔酷睿Ultra 200V系列处理器对比上代Meteor Lake,升级了模块化结构、封装工艺,采用全新性能核与能效核、英特尔硬件线程调度器、Xe2微架构锐炫
    的头像 发表于 04-02 15:47 1165次阅读
    在<b class='flag-5'>英特尔</b>酷睿Ultra AI PC上部署多种图像生成模型

    为什么无法检测到OpenVINO™工具套件中的英特尔®集成图形处理单元?

    在 Ubuntu* Desktop 22.04 上安装了 英特尔® Graphics Driver 版本并OpenVINO™ 2023.1。 运行 python 代码: python -c
    发表于 03-05 08:36

    英特尔®NCS2运行演示时“无法在启动后找到启动设备”怎么解决?

    使用 英特尔® NCS2 运行 推断管道演示脚本 。 在首次尝试中成功运行演示应用程序。 从第二尝试开始遇到错误:E: [ncAPI] [ 150951] [security_barrie
    发表于 03-05 06:48

    英伟杀疯了!Blackwell横扫市场,AMD、英特尔加入降本浪潮

    电子发烧友网报道(文/莫婷婷)2月27日凌晨,英伟公布了2025财年第四财季的财务数据,这是DeepSeek面世后的第一份财报,业内人士尤为关注DeepSeek给英伟或者是
    的头像 发表于 03-02 00:02 2430次阅读
    英伟<b class='flag-5'>达</b>杀疯了!Blackwell横扫市场,AMD、<b class='flag-5'>英特尔</b>加入降本浪潮

    英特尔获欧盟5.1555亿欧元利息赔付

    英特尔在与欧盟委员会的长期反垄断纠纷中,取得了重大胜利。近日,欧盟向英特尔支付了5.1555亿欧元(当前约合38.7亿元人民币)的利息赔付。 这
    的头像 发表于 02-06 11:30 743次阅读

    英特尔带您解锁云上智新引擎

    在近日举办的2024火山引擎FORCE原动力大会上,英特尔与火山引擎联合发布基于英特尔 至强 6 性能核处理器的第四代服务器实例,以打造弹性力底座的产品化实践。同时,
    的头像 发表于 12-23 14:05 1241次阅读