0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

从TPU v1到Trillium TPU,苹果等科技公司使用谷歌TPU进行AI计算

Carol Li 来源:电子发烧友 作者:李弯弯 2024-07-31 01:08 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

电子发烧友网报道(文/李弯弯)7月30日消息,苹果公司周一在一篇技术论文中表示,支撑其人工智能系统Apple Intelligence的两个人工智能模型是在谷歌设计的云端芯片上进行预训练的。这表明,在训练尖端人工智能方面,大型科技公司正在寻找英伟达以外的替代品。

不断迭代的谷歌TPU芯片

随着机器学习算法,特别是深度学习算法在各个领域的广泛应用,对于高效、低功耗的AI计算硬件需求日益增长。传统的CPUGPU在处理这些算法时存在效率较低的问题,促使谷歌等科技巨头开始探索专用AI加速芯片的研发。

谷歌在2015年左右开始规划开发新的专用架构处理器,旨在优化机器学习算法中的张量运算执行过程。经过快速迭代和研发,谷歌于2016年发布了首个TPU版本(TPU v1),专门用于大规模机器学习加速。

TPU v1部署于数据中心,用于加速神经网络的推理阶段。拥有65536个8-bit MAC(矩阵乘单元),峰值性能为92 TOPS(每秒万亿次操作),以及28 MiB的片上内存空间。相比于CPU和GPU,TPU v1在响应时间和能效比上表现出色,能够显著提升神经网络的推理速度。

随着技术的不断进步,谷歌相继推出了多个TPU版本,不断提升性能和功能。例如,TPU v2和TPU v3被设计为服务端AI推理和训练芯片,支持更复杂的AI任务。TPU v4则进一步增强了扩展性和灵活性,支持大规模AI计算集群的构建。

在面对争议和质疑后,谷歌推出了TPU v5e版本。TPU v5e在架构上进行了调整,采用单TensorCore架构,并在INT8峰值算力上有所提升。尽管在BF16峰值算力上略低于前代版本,但TPU v5e更适用于推理任务,并体现了谷歌在AI算力服务市场的战略选择。

在今年5月的I/O开发者大会上,谷歌又发布了第六代张量处理单元 (TPU) ,称为Trillium。Trillium TPU 可以更快地训练下一波基础模型,并以更少的延迟和更低的成本为这些模型提供服务。至关重要的是,Trillium TPU 的能效比 TPU v5e 高出 67% 以上。

值得一提的是,Trillium 可以在单个高带宽、低延迟 Pod 中扩展到多达 256 个 TPU。除了这种 Pod 级可扩展性之外,借助多切片技术和Titanium 智能处理单元 (IPU ),Trillium TPU 还可以扩展到数百个 Pod,从而连接建筑物级超级计算机中的数万个芯片,这些芯片通过每秒数 PB 的速度互连数据中心网络。

谷歌表示,Trillium TPU 将为下一波 AI 模型和代理提供动力,包括自动驾驶汽车公司Nuro、药物发现公司Deep Genomics、德勤等企业也采用其TPU产品进行应用。

越来越多企业使用谷歌TPU芯片满足AI计算

据谷歌官方信息,其最新TPU的运行成本每小时不足2美元,但客户需提前三年预订以确保使用。自2015年专为内部工作负载设计的TPU问世以来,谷歌于2017年将其向公众开放,如今,TPU已成为人工智能领域最为成熟和先进的定制芯片之一。

谷歌在其多个设施中使用了自研的TPU(Tensor Processing Unit)芯片。谷歌云平台广泛使用了TPU芯片来支持其AI基础设施。这些芯片被用于加速机器学习模型的训练和推理过程,提供高性能和高效的计算能力。通过谷歌云平台,用户可以访问到基于TPU芯片的虚拟机实例(VM),用于训练和部署自己的机器学习模型。

除此之外,已经有多家公司使用谷歌的TPU芯片,如苹果,苹果在最新发表的技术论文中承认,公司采用了谷歌张量处理单元(TPU)训练其人工智能模型。

在周一发布的技术论文中,苹果详细介绍为支持苹果个人智能化系统Apple Intelligence而开发了一些基础语言模型,包括一个用于在设备上高效运行的约30亿参数模型——端侧“苹果基础模型”(AFM),以及一个为苹果云端AI架构“私有云计算”(Private Cloud Compute)而设计的大型服务器语言模型——服务器AFM。

苹果披露,训练模型采用了谷歌研发的第四代AI ASIC芯片TPUv4和更新一代的芯片TPUv5。苹果在8192块TPUv4 芯片上从无到有训练服务器AFM,使用4096的序列长度和4096个序列的批量大小,进行6.3万亿token训练。端侧AFM在2048块TPUv5p芯片上进行训练。

此外,Anthropic这家被誉为“OpenAI劲敌”的人工智能初创公司,据悉是谷歌TPU芯片的早期用户之一。Anthropic使用谷歌Cloud TPU v5e芯片为其大语言模型(LLM)Claude提供硬件支持,以加速模型的训练和推理过程。Hugging Face和AssemblyAI这两家同样在人工智能领域备受瞩目的初创公司也在大规模使用谷歌TPU芯片来支持其AI应用。

另外,许多科研机构也在使用谷歌TPU芯片来支持其AI相关的研究项目。这些机构可以利用TPU芯片的高性能计算能力来加速实验过程,推动科研进展。一些教育机构也将谷歌TPU芯片用于教学和培训目的,帮助学生和研究人员学习和掌握机器学习技术。

写在最后

长期以来,英伟达的高性能GPU在高端人工智能模型训练市场占据主导地位,包括OpenAI、微软、Anthropic在内的多家科技公司纷纷采用其GPU来加速模型训练。但在过去几年里,英伟达GPU始终供不应求,为此谷歌、Meta、甲骨文及特斯拉等企业都在自研芯片,以满足各自人工智能系统与产品开发的需求。

不仅如此,如谷歌,虽然TPU最初是为内部工作负载而创建,而其凭借着诸多优势,现在正得到更广泛的应用。随着人工智能技术的不断发展和市场的不断扩大,未来可能会有更多的企业选择使用谷歌TPU芯片来满足其AI计算需求。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 谷歌
    +关注

    关注

    27

    文章

    6244

    浏览量

    110254
  • 苹果
    +关注

    关注

    61

    文章

    24585

    浏览量

    207421
  • TPU
    TPU
    +关注

    关注

    0

    文章

    164

    浏览量

    21535
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    直击英伟达腹地?谷歌TPU v7开放部署,催生OCS产业链红利

    Processing Unit, TPU)构建了一套完整的AI算力基础设施体系。   11月,谷歌宣布第七代 TPU v7(代号 Iron
    的头像 发表于 11-27 08:53 8359次阅读
    直击英伟达腹地?<b class='flag-5'>谷歌</b><b class='flag-5'>TPU</b> <b class='flag-5'>v</b>7开放部署,催生OCS产业链红利

    谷歌云发布最强自研TPU,性能比前代提升4倍

    精心设计,能够轻松处理大型模型训练到实时聊天机器人运行以及AI智能体操作各类复杂任务。   谷歌在新闻稿中着重强调,“Ironwood”是专为应对最严苛的工作负载而打造的。无论是大
    的头像 发表于 11-13 07:49 8104次阅读
    <b class='flag-5'>谷歌</b>云发布最强自研<b class='flag-5'>TPU</b>,性能比前代提升4倍

    拥抱DeepSeek开源生态| 算能TPU接入TileLang,集结北大复旦山大顶尖团队!

    近日,DeepSeekV3.2-Exp上线,官宣支持国产AI算子编程语言TileLang并发布了针对V3.2的算子示例,这意味着支持“同一语义、跨多后端”的TileLang得到了权威认可,基于算能
    的头像 发表于 10-03 19:08 885次阅读
    拥抱DeepSeek开源生态| 算能<b class='flag-5'>TPU</b>接入TileLang,集结北大复旦山大顶尖团队!

    高分子材料创新应用:TPU油囊技术原理与性能特征全面解读

    在无人机产业向长航时、高可靠、多场景深度进军的时代洪流中,续航与安全成为决定其应用广度的核心命门,而TPU柔性油囊正在成为打破传统油箱限制的革命性解决方案。
    的头像 发表于 09-24 11:24 364次阅读
    高分子材料创新应用:<b class='flag-5'>TPU</b>油囊技术原理与性能特征全面解读

    基于碳纳米材料的TPU导电长丝制备与性能研究

    、金属材料与复合材料各领域的研究开发、工艺优化与质量监控.基于碳纳米材料的TPU导电长丝制备与性能研究【江南大学赵树强】基于碳纳米材料的TPU导电长丝制备与性能研究上海
    的头像 发表于 07-11 10:21 339次阅读
    基于碳纳米材料的<b class='flag-5'>TPU</b>导电长丝制备与性能研究

    智算加速卡是什么东西?它真能在AI战场上干掉GPU和TPU

    随着AI技术火得一塌糊涂,大家都在谈"大模型"、"AI加速"、"智能计算",可真到了落地环节,算力才是硬通货。你有没有发现,现在越来越多的AI企业不光用GPU,也不怎么迷信
    的头像 发表于 06-05 13:39 1261次阅读
    智算加速卡是什么东西?它真能在<b class='flag-5'>AI</b>战场上干掉GPU和<b class='flag-5'>TPU</b>!

    TPU处理器的特性和工作原理

    张量处理单元(TPU,Tensor Processing Unit)是一种专门为深度学习应用设计的硬件加速器。它的开发源于对人工智能(AI)和机器学习应用的需求,尤其是深度学习中的神经网络计算
    的头像 发表于 04-22 09:41 3320次阅读
    <b class='flag-5'>TPU</b>处理器的特性和工作原理

    Google推出第七代TPU芯片Ironwood

    在 Google Cloud Next 25 大会上,我们隆重推出第 7 代 Tensor Processing Unit (TPU) — Ironwood。这不仅是我们迄今为止性能最高、扩展性最佳的定制 AI 加速器,更是第一款专为推理而设计的
    的头像 发表于 04-16 11:20 1328次阅读
    Google推出第七代<b class='flag-5'>TPU</b>芯片Ironwood

    谷歌第七代TPU Ironwood深度解读:AI推理时代的硬件革命

    谷歌第七代TPU Ironwood深度解读:AI推理时代的硬件革命 Google 发布了 Ironwood,这是其第七代张量处理单元 (TPU),专为推理而设计。这款功能强大的
    的头像 发表于 04-12 11:10 2892次阅读
    <b class='flag-5'>谷歌</b>第七代<b class='flag-5'>TPU</b> Ironwood深度解读:<b class='flag-5'>AI</b>推理时代的硬件革命

    谷歌新一代 TPU 芯片 Ironwood:助力大规模思考与推理的 AI 模型新引擎​

    电子发烧友网报道(文 / 李弯弯)日前,谷歌在 Cloud Next 大会上,隆重推出了最新一代 TPU AI 加速芯片 ——Ironwood。据悉,该芯片预计于今年晚些时候面向 Google
    的头像 发表于 04-12 00:57 3199次阅读

    TPU编程竞赛|第二十届研电赛算能杯赛启动 -- 智算赋能,创见未来!

    第二十届中国研究生电子设计竞赛(以下简称“研电赛”)正式启动,算能作为命题企业聚焦人工智能与边缘计算前沿技术,围绕TPU硬件平台与轻量化AIoT系统发布两大创新赛题,涵盖大模型边缘部署、智能交互系统
    的头像 发表于 04-01 17:33 1706次阅读
    <b class='flag-5'>TPU</b>编程竞赛|第二十届研电赛算能杯赛启动 -- 智算赋能,创见未来!

    为什么无法使用OpenVINO™模型优化器转换TensorFlow 2.4模型?

    已下载 ssd_mobilenet_v2_fpnlite_640x640_coco17_tpu-8 型号。 使用将模型转换为中间表示 (IR) ssd_support_api_v
    发表于 03-05 09:07

    TPU编程竞赛系列|第九届集创赛“算能杯”火热报名中!

    ,探索将语言模型、边缘计算技术移植并部署于TPU硬件设备上的创新方案。在这个充满希望的蛇年新春,让我们共同开启智能时代的新篇章!一、赛题任务基于算能TPU硬件,实现
    的头像 发表于 02-06 13:41 1591次阅读
    <b class='flag-5'>TPU</b>编程竞赛系列|第九届集创赛“算能杯”火热报名中!

    光缆用tpu外护套用在哪些型号光缆上

    型号: 铠装野战光缆:如GJYPJH-2B1型号,这类光缆通常用于野外布线、抢修场景,需要具备良好的耐磨、抗拉和柔性,以适应复杂多变的野外环境。TPU外护套能有效保护光缆免受外界损
    的头像 发表于 01-10 10:05 1364次阅读

    TPU编程竞赛|2024 CCF BDCI大赛圆满结束!算能赛道“常务副SOTA”团队荣获最佳算法能力奖

    近日,中国计算机学会在海南博鳌成功举办了第十二届CCF大数据与计算智能大赛(简称2024CCFBDCI)。本届比赛的算能赛道吸引了1748名选手报名,经过激烈角逐,北京航空航天大学的“常务副SOTA
    的头像 发表于 01-08 08:33 958次阅读
    <b class='flag-5'>TPU</b>编程竞赛|2024 CCF BDCI大赛圆满结束!算能赛道“常务副SOTA”团队荣获最佳算法能力奖