0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

谷歌Gemini模型AI网络及TPU拆解

智能计算芯世界 来源:智能计算芯世界 2023-12-14 09:55 次阅读

Gemini 是一款新型的多模态大语言模型,此前多模态大模型在处理视频、文字、图像等多维度输入信息时是采用分别训练分别输出再进行拼接的方式,这种方式的缺点在于面对复杂逻辑问题时,大模型的回复略显迟钝。

Gemini 采用了全新的训练方式,直接在多模态数据上进行预训练,并利用额外的多模态数据进行微调,因而可在处理复杂逻辑问题上更加智能

下载链接:

Gemini 模型一共包括三个版本,可以在不同设备上进行使用。

8765a7fc-9a11-11ee-8b88-92fbcf53809c.png

1)Gemini Nano—端侧设备上最高效的模型。这款模型专为智能手机设计,可以在没有连接外部服务器的情况下完成 AI 处理任务。

2)Gemini Pro—运行在谷歌数据中心。Pro 版本将在最新版本的 AI 聊天机器人 Bard 提供支持,是 Bard推出以来的最大升级。目前为 170 多个国家和地区提供英语服务,计划未来几个月内支持新的语言和地区,并应用于搜索、广告、Chrome 和 Duet AI 等更多谷歌产品

3)Gemini Ultra —规模最大且功能最强大的模型,专用于高度复杂的任务,会在完成当前测试阶段后的明年初向开发者和企业客户提供。届时还会推出基于 Gemini Ultra 的 Bard Advanced 更新版本。

Gemini 模型训练基于谷歌自研 TPU 芯片,发布 TPU v5P,性能全部升级。谷歌较早就开始布局 AI 市场,2015 年便发布了专门用于 AI 领域的专用芯片 TPU v1,2015 年至今,谷歌已经完成了五个版本的迭代。目前现阶段谷歌展示的 Gemini 1.0 模型就是基于 TPU v4 和 TPU v5e 两类芯片来完成训练过程。

在发布 Gemini 模型的同时,谷歌发布了最新的 TPU v5p 系列。v5p 进一步增强了方案可拓展性,并为了应对复杂模型的推理训练与调整需求,设计了新的硬件架构。在 v5p 构建的集群,每个 Pod 计算单元由 8960颗芯片互联,数量较之前的版本翻倍。计算性能上,新的 pod 浮点运算能力相比 v4 提升了两倍,训练速度相比 v4 提升 2.8 倍以上。

谷歌 TPU:创新网络拓扑结构,采用光交换技术(OCS)。传统数据中心网络结构为 leaf-spine 叶脊架构,英伟达 AI 集群采用的是无收敛胖拓扑结构,谷歌的 AI 网络集群在 spine 层进行创新,用 OCS 交换机(光路开关,optical circuit switch)代替传统的电交换机(以太网交换机)。传统数据中心在 spine 层需要进行大量的电光转换,会产生较多的功耗,并且随着数据量增加 spine 层每 2-3 年都需要进行更换。谷歌的 OCS 的目的是替代当下的电网络交换机,从而实现近一步成本和功耗的降低。

8782ff00-9a11-11ee-8b88-92fbcf53809c.png

谷歌的 OCS 称为为 Palomar,内部结构为:输入输出为光纤准直器阵列,光纤准直器包括光纤阵列和微透镜阵列,输入和数据均为 136 个通道(128 个端口+8 个备用端口)。当光通过光纤进入 OCS 系统后,会通过两个 2D 的 MEMS 阵列,每个 MEMS 阵列含有 136 个平面镜,用于调整光的传播方向。波长为 850nm。

87a4a9fc-9a11-11ee-8b88-92fbcf53809c.png

谷歌 AI 网络结构拆解:TPU v4 为例。在 TPU v4 网络结构设计时候,每个基础单元是 4*4*4=64 颗 TPU 组成,每个面有 16 个链路,因此每个单元一共有 16*6=96 个链路连接到 OCS 的光链路.此外因为提供 3D 环面的环绕链接,相对侧的链接必须连接到同一个 OCS。因此,每个基础单元需要 6×16/2=48 个 OCS。

87bcb236-9a11-11ee-8b88-92fbcf53809c.png

谷歌 TPU v4 支持 4096 颗 TPU 互联,具体方案为一共使用 64 个机柜,每个机柜内部构建 4*4*4=64 颗 TPU的 3D 网络结构,其中 3D 结构的外表部分连接到 OCS,中间部分采用无源电缆互联。在 4096 颗 TPU 互联的系统中一共使用 48 了个 OCS,每个 OCS128 个端口。此外因为 OCS 本身直接进行光信号的传输,所以每个端口只需要 1 个光模块。因为该集群需要 48*128=6144 个光模块。TPU:光模块用量=4096:6144=1:1.5

AMD MI300X 对标英伟达 H100。MI300X 由台积电代工,基于自研的第三代 CDNA 架构,集成了 1530 亿个晶体管

对比英伟达 H100,集成了 800 亿个晶体管。在性能指标上:1)AI 芯片算力:8 位精度浮点数(FP8)计算水平来看,MI300X 为 42petaFLOPs(每秒千万亿次浮点运算),H100 则为 32petaFLOPs;2)内存:MI300X为 192GB,英伟达 H109 为 120GB。目前,集合 8 张 MI300X 的 Instinct 工作台已经可以支持运行 Llama2(700 亿参数)、BLOOM(1760 亿参数)大模型的训练与推理。

MI300A:首款高性能 APU。具体参数上,MI300A 具有 228 个 CDNA3 架构的计算核心,24 个 Zen4 架构的 X86核心,4 个 I/O DIe,8 个 HBM3,128GB 显存,5.3TB 峰值带宽,256MB 的 Infinity 缓存,采用 3.5D 的封装形式。

审核编辑:汤梓红

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 谷歌
    +关注

    关注

    27

    文章

    5858

    浏览量

    103260
  • Gemini
    +关注

    关注

    0

    文章

    35

    浏览量

    7475
  • AI
    AI
    +关注

    关注

    87

    文章

    26443

    浏览量

    264054
  • 语言模型
    +关注

    关注

    0

    文章

    434

    浏览量

    10044
  • TPU
    TPU
    +关注

    关注

    0

    文章

    132

    浏览量

    20546

原文标题:谷歌Gemini模型AI网络及TPU拆解

文章出处:【微信号:AI_Architect,微信公众号:智能计算芯世界】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    好奇~!谷歌的 Edge TPU 专用 ASIC 旨在将机器学习推理能力引入边缘设备

    单片的 MIPI-CSI 连接器中。摄像头的焦距为 2.5 毫米,定焦范围从 10 厘米到无限远,视野为 84 度。相关软件开发单片与 USB 加速棒皆以谷歌 TPU 软件堆栈为基础。各模型的开发环境为
    发表于 03-05 21:20

    谷歌Gemini被曝算力达GPT-4五倍,手握TPU王牌碾压OpenAI

    根据Patel和Nishball的说法,此前屡屡被爆料将成为GPT-4大杀器的谷歌Gemini,已经开始在新的TPUv5 Pod上进行训练了,算力高达~1e26 FLOPS,比训练GPT-4的算力还要大5倍。如今,凭借着TPUv5,谷歌
    的头像 发表于 09-04 16:02 589次阅读
    <b class='flag-5'>谷歌</b><b class='flag-5'>Gemini</b>被曝算力达GPT-4五倍,手握<b class='flag-5'>TPU</b>王牌碾压OpenAI

    谷歌揭秘Gemini,AMD对峙英伟达

    今天,我们看到谷歌揭开了多模态AI模型Gemini的神秘面纱,AMD挑战英伟达在AI芯片市场的霸主地位,微软在英国
    的头像 发表于 12-07 20:05 454次阅读

    成都汇阳投资关于谷歌Gemini 王者归来,AI 算力和应用值得期待

    Gemini模型主打多模态,性能对标GPT-4】 当地时间12月6日, 谷歌公司宣布推出其规模最大、功能最强的多模态大模型 Gemini
    的头像 发表于 12-11 14:40 628次阅读
    成都汇阳投资关于<b class='flag-5'>谷歌</b>携 <b class='flag-5'>Gemini</b> 王者归来,<b class='flag-5'>AI</b> 算力和应用值得期待

    谷歌发布多模态Gemini模型及新一代TPU系统Cloud TPU v5p

    谷歌亦发布新一代TPU 系统——Cloud TPU v5p,以帮助训练尖端的 AI 模型。目
    的头像 发表于 12-12 10:50 804次阅读
    <b class='flag-5'>谷歌</b>发布多模态<b class='flag-5'>Gemini</b>大<b class='flag-5'>模型</b>及新一代<b class='flag-5'>TPU</b>系统Cloud <b class='flag-5'>TPU</b> v5p

    谷歌推出Gemini 希望击败GPT-4

    Gemini不仅仅是一个单一的人工智能模型。有一个简单版本叫Gemini Nano,旨在在安卓设备上离线运行。有一个更强大的版本叫Gemini Pro,很快将为
    的头像 发表于 12-14 17:30 479次阅读

    新火种AI | 谷歌Gemini“抄袭”百度文心一言?AI训练数据陷难题

    谷歌自己放出“实锤”,Gemini化身百度文心大模型
    的头像 发表于 12-20 09:09 234次阅读
    新火种<b class='flag-5'>AI</b> | <b class='flag-5'>谷歌</b><b class='flag-5'>Gemini</b>“抄袭”百度文心一言?<b class='flag-5'>AI</b>训练数据陷难题

    谷歌Gemini自曝用文心一言训练,字节被OpenAI封号,大模型互薅羊毛是常态?

    博主@阑夕爆料,对谷歌Gemini进行测试时,如果用中文询问Gemini的身份,其回答竟然是百度文心一言。   更让人大跌眼镜的是,测试人员可以使用“小爱同学”“小度”等提示词唤醒Gemini
    的头像 发表于 12-20 09:03 2205次阅读
    <b class='flag-5'>谷歌</b><b class='flag-5'>Gemini</b>自曝用文心一言训练,字节被OpenAI封号,大<b class='flag-5'>模型</b>互薅羊毛是常态?

    谷歌最新人工智能模型Gemini Pro已在欧洲上市

    近日,谷歌宣布其最新人工智能模型Gemini Pro已在欧洲市场上市,向欧洲用户开放。Gemini Pro是谷歌最大的人工智能(
    的头像 发表于 02-04 15:10 723次阅读

    谷歌推出新一代大模型Gemini 1.5

    近日,谷歌在无预警的情况下发布了其下一代大模型——Gemini 1.5,这款模型在性能上实现了显著增强,并在长上下文理解方面取得了令人瞩目的突破。更令人惊叹的是,
    的头像 发表于 02-20 13:55 330次阅读

    Groq推出大模型推理芯片 超越了传统GPU和谷歌TPU

    Groq推出了大模型推理芯片,以每秒500tokens的速度引起轰动,超越了传统GPU和谷歌TPU
    的头像 发表于 02-26 10:24 387次阅读
    Groq推出大<b class='flag-5'>模型</b>推理芯片 超越了传统GPU和<b class='flag-5'>谷歌</b><b class='flag-5'>TPU</b>

    谷歌计划重新推出改进后的Gemini AI模型人像生成功能

    谷歌DeepMind的首席执行官德米斯·哈萨比斯在2月26日透露,公司计划在接下来的几周内重新发布其备受关注的Gemini AI模型人像生成功能。此前,由于在某些历史图像生成描述中出现
    的头像 发表于 02-28 10:17 157次阅读

    谷歌计划将先进大模型Gemini明年嵌入安卓手机

    谷歌对其人工智能大模型在智能手机上的应用前景持乐观态度,并预计其更先进的大模型Gemini将于明年嵌入安卓手机。这一消息由谷歌Pixel部门
    的头像 发表于 03-06 11:37 329次阅读

    苹果与谷歌洽谈合作,Gemini AI模型有望嵌入iPhone

    在人工智能领域日益升温的竞争格局中,苹果公司再次展现出其敏锐的战略眼光。据可靠消息人士透露,苹果正积极与谷歌展开谈判,旨在将谷歌最新的生成式人工智能模型Gemini植入其iPhone系
    的头像 发表于 03-20 10:05 169次阅读

    谷歌Pixel 8将采用Gemini Nano模型,新增两项AI功能

    谷歌披露,Pixel 8 在配备 Gemini Nano 后,首先将增加两大创新 AI 功能:其中之一是 Recorder 应用内新增 Summarize 功能,无网络情况下可记录并
    的头像 发表于 03-29 15:46 126次阅读