0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Google Cloud 推出 TPU v5p 和 AI Hypercomputer: 支持下一代 AI 工作负载

谷歌开发者 来源:未知 2023-12-13 16:05 次阅读

以下文章来源于谷歌云服务,作者 Google Cloud

Amin Vahdat

ML、系统与 Cloud AI 副总裁/总经理

Mark Lohmeyer

计算与 ML 基础设施副总裁/总经理

生成式 AI 模型正在迅速发展,提供了前所未有的精密性和功能。这项技术进展得以让各行各业的企业和开发人员能够解决复杂的问题,开启新的机遇之门。然而,生成式 AI 模型的增长也导致训练、调整和推理方面的要求变得更加严苛。过去五年来,生成式 AI 模型的参数每年增长十倍,如今的大模型具有数千亿甚至上万亿项参数,即使在最专业的系统上仍需要相当长的训练时间,有时需持续数月才能完成。此外,高效的 AI 工作负载管理需要一个具备一致性能、优化的计算、存储、网络、软件和开发框架所组成的集成 AI 堆栈。

为了应对这些挑战,我们很高兴宣布推出 Cloud TPU v5p,这是 Google 迄今为止功能、可扩展性、灵活性最为强大的 AI 加速器。长期以来,TPU 一直是训练和服务 AI 支持的产品的基础,例如 YouTube、Gmail、Google 地图、Google Play 和 Android。事实上,Google 刚刚发布的功能最强大的通用 AI 模型 Gemini 就是使用 TPU 进行训练和服务的。

此外,我们也宣布推出 Google Cloud AI Hypercomputer,这是一种突破性的超级计算机架构采用集成系统,并结合了性能优化的硬件、开放软件、领先的 ML 框架和灵活的消费模式。传统方法通常是以零碎的组件级增强来解决要求严苛的 AI 工作负载,这可能会导致效率不佳和性能瓶颈。相比之下,AI Hypercomputer 采用系统级协同设计来提高 AI 训练、调整和服务的效率和生产力。

01

探索 Cloud TPU v5p

Google Cloud 目前功能最强大

可扩展能力最佳的 TPU 加速器

上个月,我们宣布全面推出 Cloud TPU v5e。相较于上一代 TPU v41,TPU v5e 的性价比提高了 2.3 倍,是我们目前最具成本效益的 TPU。而 Cloud TPU v5p 则是我们目前功能最强大的 TPU。每个 TPU v5p pod 由 8,960 个芯片组成,采用了我们带宽最高的芯片间互连 (Inter-chip Interconnect, ICI) 技术,以 3D 环形拓扑结构实现每芯片 4,800 Gbps 的速率。与 TPU v4 相比,TPU v5p 的每秒浮点运算次数 (FLOPS) 提高 2 倍以上,高带宽内存 (High-bandwidth Memory, HBM) 则增加 3 倍

TPU v5p 专为性能、灵活性和可扩展性设计,相较于上一代 TPU v4,TPU v5p 训练大型 LLM 的速度提升 2.8 倍。此外,若搭配第二代 SparseCores,TPU v5p 训练嵌入密集模型的速度比 TPU v42 快 1.9 倍

wKgZomV5ZtqAVxvIAADPSGWcyh0300.png

资料来源: Google 内部数据。截至 2023 年 11 月,GPT-3 1750 亿参数模型的所有数据均按每芯片 seq-len=2048 为单位完成标准化。

wKgZomV5ZtqAROtEAAEFUtrHUCw937.png

资料来源: TPU v5e 数据来自 MLPerf 3.1 Training Closed 的 v5e 结果;TPU v5p 和 v4 基于 Google 内部训练运行。截至 2023 年 11 月,GPT-3 1750 亿参数模型的所有数据均按每芯片 seq-len=2048 为单位完成标准化。并以 TPU v4:3.22 美元/芯片/小时、TPU v5e:1.2 美元/芯片/小时和 TPU v5p:4.2 美元/芯片/小时的公开定价显示每美元相对性能。

TPU v5p 不仅性能更佳,就每 Pod 的总可用 FLOPS 而言,TPU v5p 的可扩展能力比 TPU v4 高 4 倍,且 TPU v5p 的每秒浮点运算次数 (FLOPS) 是 TPU v4 的两倍,并在单一 Pod 中提供两倍的芯片,可大幅提升训练速度相关性能。

wKgZomV5ZtuAGEBhAARxTP6GyC0815.png

02

Google AI Hypercomputer

大规模提供顶尖性能和效率

实现规模和速度是必不可少的,但并不足以满足现代 AI/ML 应用程序和服务的需求。软硬组件必须组合相辅相成,组成一个易于使用、安全可靠的集成计算系统。Google 已针对此问题投入数十年的时间进行研发,而 AI Hypercomputer 正是我们的心血结晶。此系统集结了多种能协调运作的技术,能以最佳方式来执行现代 AI 工作负载。

wKgZomV5ZtuAZX9NAAIoSxnb8Jg775.png      

性能优化硬件: AI Hypercomputer 以超大规模数据中心基础设施为基础构建,采用高密度足迹、水冷技术和我们的 Jupiter 数据中心网络技术,在计算、存储和网络功能上均能提供最佳性能。所有这一切都基于以效率为核心的各项技术,利用清洁能源和对水资源管理的坚定承诺,助力我们迈向无碳未来。

开放软件: AI Hypercomputer 使开发人员能够通过使用开放软件来访问我们性能优化的硬件,利用这些硬件调整、管理和动态编排 AI 训练和推理工作负载。

  • 广泛支持主流 ML 框架 (例如 JAX、TensorFlow 和 PyTorch) 且提供开箱即用。如要构建复杂的 LLM,JAX 和 PyTorch 均由 OpenXLA 编译器提供支持。XLA 作为基础设施,支持创建复杂的多层模型。XLA 优化了各种硬件平台上的分布式架构,确保针对不同的 AI 场景高效开发易于使用的模型。

  • 提供开放且独特的 Multislice Training 及 Multihost Inferencing 软件,分别使扩展、训练和提供模型的工作负载变得流畅又简单。若要处理要求严苛的 AI 工作负载,开发人员可将芯片数量扩展至数万个。

  • 与 Google Kubernetes Engine (GKE) 和 Google Compute Engine 深度集成,实现高效的资源管理、一致的操作环境、自动扩展、自动配置节点池、自动检查点、自动恢复和及时的故障恢复。

灵活的消费模式: AI Hypercomputer 提供多种灵活动态的消费方案。除了承诺使用折扣 (Committed Used Discunts, CUD)、按需定价和现货定价等经典选项外,AI Hypercomputer 还通过 Dynamic Workload Scheduler 提供针对 AI 工作负载量身定制的消费模式。Dynamic Workload Scheduler 包含两种消费模式: Flex Start 模式可实现更高的资源获取能力和优化的经济效益;Calendar 模式则针对作业启动时间可预测性更高的工作负载。

03

利用 Google 的丰富经验

助力 AI 的未来发展

Salesforce 和 Lightricks 等客户已在使用 Google Cloud 的 TPU v5p 以及 AI Hypercomputer 来训练和服务大型 AI 模型——并发现了其中的差异:

G

C

"我们一直在使用 Google Cloud 的 TPU v5p 对 Salesforce 的基础模型进行预训练,这些模型将作为专业生产用例的核心引擎,我们看到训练速度获得了显著提升。事实上,Cloud TPU v5p 的计算性能比上一代 TPU v4 高出至少 2 倍。我们还非常喜欢使用 JAX 顺畅地从 Cloud TPU v4 过渡到 v5p。我们期待能通过 Accurate Quantized Training (AQT) 库,运用 INT8 精度格式的原生支持来优化我们的模型,进一步提升速度。"

——Salesforce 高级研究科学家

Erik Nijkamp

G

C

"凭借 Google Cloud TPU v5p 的卓越性能和充足内存,我们成功地训练了文本到视频的生成模型,而无需将其拆分成单独进程。这种出色的硬件利用率大大缩短了每个训练周期,使我们能够迅速开展一系列实验。能在每次实验中快速完成模型训练的能力加快了迭代速度,为我们的研究团队在生成式 AI 这个竞争激烈的领域带来宝贵优势。"

——Lightricks 核心生成式 AI 研究团队主管

Yoav HaCohen 博士

G

C

"在早期使用过程中,Google DeepMind 和 Google Research 团队发现,对于 LLM 训练工作负载,TPU v5p 芯片的性能比 TPU v4 代提高了 2 倍。此外,AI Hypercomputer 能为 ML 框架 (JAX、PyTorch、TensorFlow) 提供强大的支持和自动编排工具,使我们能够在 v5p 上更高效地扩展。搭配第二代 SparseCores,我们也发现嵌入密集型工作负载 (embeddings-heavy workloads) 的性能得到显著提高。TPU 对于我们在 Gemini 等前沿模型上开展最大规模的研究和工程工作至关重要。"

—— Google DeepMind 和 Google Research

首席科学家 Jeff Dean

在 Google,我们一直坚信 AI 能够帮助解决棘手问题。截至目前,大规模训练与提供大型基础模型对于许多企业来说都过于复杂且昂贵。现在,通过 Cloud TPU v5p 和 AI Hypercomputer,我们很高兴能将我们在 AI 和系统设计领域数十年的研究成果与我们的用户分享,以便他们能够更快、更高效、更具成本效益地运用 AI 加速创新。

wKgZomV5ZtuAX_DrAAAjqZVF__E690.gif  

1: MLPerf v3.1 Training Closed 的结果多个基准如图所示。资料日期:2023 年 11 月 8 日。资料来源:mlcommons.org。结果编号:3.1-2004。每美元性能并非 MLPerf 的评估标准。TPU v4 结果尚未经 MLCommons 协会验证。MLPerf 名称和标志是 MLCommons 协会在美国和其他国家的商标,并保留所有权利,严禁未经授权的使用。更多信息,请参阅 www.mlcommons.org。

2: 截至 2023 年 11 月,Google TPU v5p 内部资料:E2E 执行时间 (steptime)、搜索广告预估点击率 (SearchAds pCTR)、每个 TPU 核心批次大小为 16,384、125 个 vp5 芯片。


wKgZomV5ZtuAYQ9-AAAafJIrrMk456.gif 点击屏末||即刻查看详细内容

wKgZomV5ZtuAQLghAAATN9B0Fw0289.png

wKgZomV5ZtyAKESmAAMyGF3oQT4132.png

wKgZomV5ZtyAPigfAAAptPJQ2wE843.png


原文标题:Google Cloud 推出 TPU v5p 和 AI Hypercomputer: 支持下一代 AI 工作负载

文章出处:【微信公众号:谷歌开发者】欢迎添加关注!文章转载请注明出处。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 谷歌
    +关注

    关注

    27

    文章

    5861

    浏览量

    103263

原文标题:Google Cloud 推出 TPU v5p 和 AI Hypercomputer: 支持下一代 AI 工作负载

文章出处:【微信号:Google_Developers,微信公众号:谷歌开发者】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    DPU技术赋能下一代AI算力基础设施

    4月19日,在以“重构世界 奔赴未来”为主题的2024中国生成式AI大会上,中科驭数作为DPU新型算力基础设施代表,受邀出席了中国智算中心创新论坛,发表了题为《以网络为中心的AI算力底座构建之路》主题演讲,勾勒出在通往AGI之路上,DPU技术赋能
    的头像 发表于 04-20 11:31 385次阅读

    Google Cloud推出基于Arm Neoverse V2定制Google Axion处理器

    Arm Neoverse 平台已成为云服务提供商优化其从芯片到软件全栈的心仪之选。近日,Google Cloud 推出了基于 Arm Neoverse V2 打造的定制 Google
    的头像 发表于 04-16 14:30 287次阅读

    加入AI军备赛! Google推出ARM架构处理器Axion和下一代TPU v5p

    行业芯事行业资讯
    电子发烧友网官方
    发布于 :2024年04月11日 11:38:27

    谷歌TPU v5p超越Nvidia H100,成为人工智能领域的竞争对手

    TPU v5p已在谷歌“AI超级计算机”项目中发挥重要作用,这并非专业科研型超算平台,而是面向各类人工智能应用。与Nvidia开放GPU购买策略不同,谷歌高端TPU主要供自家产品和服务
    的头像 发表于 12-26 15:20 929次阅读

    谷歌最强大的定制设计人工智能加速器—TPU v5p芯片

    谷歌正迅速成为 BFF Nvidia 的强大对手——为其超级计算机提供动力的 TPU v5p AI 芯片速度更快,内存和带宽比以往任何时候都多,甚至击败了强大的 H100
    的头像 发表于 12-26 09:31 1303次阅读

    谷歌发布多模态Gemini大模型及新一代TPU系统Cloud TPU v5p

    谷歌亦发布新一代TPU 系统——Cloud TPU v5p,以帮助训练尖端的 AI 模型。目
    的头像 发表于 12-12 10:50 804次阅读
    谷歌发布多模态Gemini大模型及新一代<b class='flag-5'>TPU</b>系统<b class='flag-5'>Cloud</b> <b class='flag-5'>TPU</b> <b class='flag-5'>v5p</b>

    Google Cloud 线上课堂 | Google Cloud 迁移最佳实践

    数据中心的数千个复杂工作负载,将这些应用及数据迁移到新环境时面临各种挑战:如何降低迁移复杂性并控制成本?如何保证业务连续性及数据安全...... Google Cloud 通过经过验证
    的头像 发表于 11-28 17:45 241次阅读

    NVIDIA AI 现已在 Oracle Cloud Marketplace 推出

    AI 超级计算平台 和 NVIDIA AI Enterprise 软件现已在 Oracle Cloud Marketplace 推出。Oracle
    的头像 发表于 10-24 10:30 241次阅读
    NVIDIA <b class='flag-5'>AI</b> 现已在 Oracle <b class='flag-5'>Cloud</b> Marketplace <b class='flag-5'>推出</b>

    GoogleTPU芯片的发展历史和硬件架构

    Google在高性能处理器与AI芯片主要有两个系列:1)针对服务器端AI模型训练和推理的TPU系列,主要用于Goggle云计算和数据中心;2)针对手机端
    发表于 10-18 10:02 1425次阅读
    <b class='flag-5'>Google</b>的<b class='flag-5'>TPU</b>芯片的发展历史和硬件架构

    新知同享|Cloud 开发加速创新,更加安全

    安全 关注 Google Cloud 的 3 个 AI 重点发展领域 了解生成式 AI 功能如何助推创意落地 精彩大会现场一览 AI 始终是
    的头像 发表于 09-08 20:10 278次阅读

    Arm Keil Studio Cloud用户指南

    、工具和服务。 Keil Studio Cloud展示了CMSIS的下一代IDE技术和新概念项目的格式。我们支持系列软件示例,展示Keil RTX, FreeRTOS和IoTAmaz
    发表于 08-02 08:34

    数据中心 AI 加速器:当前一代和下一代

    数据中心 AI 加速器:当前一代和下一代演讲ppt分享
    发表于 07-14 17:15 0次下载

    AI服务器需求强劲!工业富联:已着手开发下一代AI服务器

    电子发烧友网报道(文/李弯弯)日前,工业富联举行2022年度股东大会,工业富联董事周泰裕在会上表示,工业富联已着手开发下一代AI服务器,并将和客户合作进行AI Cloud data c
    的头像 发表于 06-09 11:59 1482次阅读

    在 I/O 看未来 | 移动设备、Web、AIGoogle Cloud 更新一览

    、Web 和 Google Cloud,致力于让您的开发工作更加轻松。现在,您看到了许多我们使用生成式 AI 改进产品的方法。我们很高兴看到这些工具创造出更多机会,并且期待看到您构建的
    的头像 发表于 05-27 14:35 425次阅读
    在 I/O 看未来 | 移动设备、Web、<b class='flag-5'>AI</b> 和 <b class='flag-5'>Google</b> <b class='flag-5'>Cloud</b> 更新一览

    在 I/O 看未来 | 在 Google Cloud,生成式 AI 大有助益

    以下文章来源于谷歌云服务,作者 Google Cloud 作者 / Thomas Kurian,  Google Cloud 首席执行官 在过去的十年中,人工智能 (
    的头像 发表于 05-17 01:30 367次阅读
    在 I/O 看未来 | 在 <b class='flag-5'>Google</b> <b class='flag-5'>Cloud</b>,生成式 <b class='flag-5'>AI</b> 大有助益