0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

AI大模型不再依赖英伟达GPU?苹果揭秘自研大模型

Hobby观察 来源:电子发烧友网 作者:梁浩斌 2024-08-05 06:07 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

电子发烧友网报道(文/梁浩斌)过去几年中爆发的AI算力需求,英伟达GPU成为了最大的赢家,无论是自动驾驶还是AI大模型,比如特斯拉、小鹏、OpenAI、字节跳动等厂商都在争相抢购英伟达GPU产品,获得足够的算力构建自己的计算中心,用于训练不同应用的AI模型。

AI领域众星捧月也造就了英伟达市值曾突破三万亿美元,并短暂登顶全球第一的位置。不过苹果却反其道而行之,在7月底苹果公司揭露的官方论文显示,苹果自研大模型AFM背后,完全没有英伟达GPU的影子。

苹果大模型训练,选择了谷歌芯片

在苹果近期揭露的一篇技术论文中,详细介绍了苹果在端侧和服务器侧的大模型。在大模型预训练的阶段,苹果基础模型是在AXLearn框架上进行训练的,据苹果介绍,AXLearn框架是苹果公司在2023年发布的开源项目,这个框架建立在JAX和XLA的基础上,允许模型在各种硬件和云平台上进行高效和可扩展性训练,包括TPU以及云端和本地的GPU。

苹果采用了数据并行、张量并行、序列并行和完全分片数据并行(FSDP)的组合来沿多个维度扩展训练,如数据规模、模型规模和序列长度。

其中,苹果的AFM服务器端大模型是苹果规模最大的语言模型,该模型在8192个TPUv4芯片上进行了预训练,这些芯片被配置成8*1024个芯片集群,通过数据中心网络(DCN)连接。预训练有三个阶段,首先使用 6.3 万亿个Tokens开始,接着使用 1 万亿个Tokens继续训练,最后使用 1000 亿个Tokens进行上下文长度的扩展。

而在AFM的端侧模型上,苹果对其进行了大幅修剪,论文披露AFM端侧模型是一个拥有30亿参数的模型,该模型是从64亿参数的服务器模型中蒸馏而来,而这个服务器模型则是在完整的6.3万亿参数量上进行训练。

与服务器端模型不同的是,AFM端侧模型采用的芯片是谷歌的TPUv5,论文中的信息显示,AFM端侧模型是在一个由2048个TPUv5p芯片组成的集群上进行训练的。

谷歌在去年12月发布了TPUv5p,面向云端AI加速,谷歌称之为“迄今为止最强大、可扩展性最强和最灵活的人工智能加速器”。

TPUv5p在bfloat16精度下可以提供459 teraFLOPS(每秒可执行459万亿次浮点运算)算力;在Int8精度下,TPU v5p可以提供918 teraOPS(每秒可执行918万亿次整数运算);支持95GB的HBM内存,带宽高达2.76 TB/s。

相比上一代的TPU v4,TPUv5p实现了每秒浮点运算次数提高一倍,内存带宽是前代的三倍,训练大模型速度提升2.8倍,并且性价比是前代的2.1倍。

除了苹果之外,目前采用谷歌TPU系列芯片进行大模型训练的还有谷歌自家的Gemini、PaLM,以及OpenAI前副总裁创立的Anthropic所推出的Claude大模型,上个月Anthropic发布的Llama 3.1 405B还被认为是最强开源大模型。

苹果、谷歌、Anthropic的实例,证明了TPU在大模型训练上的能力。但相比于英伟达,TPU目前在大模型领域的应用依旧只是冰山一角,背后更多的大模型公司,包括OpenAI、特斯拉、字节跳动等巨头,主力AI数据中心依然是普遍采用英伟达GPU。

英伟达的挑战者们

一直以来,围绕CUDA打造的软件生态,是英伟达在GPU领域最大的护城河,尤其是随着目前AI领域的发展加速,市场火爆,英伟达GPU+CUDA的开发生态则更加稳固,AMD英特尔等厂商虽然在努力追赶,但目前还未能看到有威胁英伟达地位的可能。

但市场的火爆难免吸引更多的玩家入局,对英伟达发起挑战,或者说是在AI广阔的市场空间中,希望分得一杯羹。

首先是英伟达在GPU领域的最大对手AMD ,今年一月有研究人员在Frontier超算集群上,利用其中8%左右的GPU,训练出一个GPT 3.5级别规模的大模型。而Frontier超算集群是完全基于AMD硬件的,由37888个MI250X GPU和9472个Epyc 7A53 CPU组成,这次研究也突破了在AMD硬件上突破了先进分布式训练模型的难点,为AMD平台训练大模型验证了可行性。

同时,CUDA生态也在逐步击破,今年7月英国公司Spectral Compute推出了可以为AMD GPU原生编译CUDA源代码的方案,大幅提高了AMD GPU对CUDA的兼容效率。

英特尔的Gaudi 3 也在发布时直接对标英伟达H100,并宣称在模型训练速度和推理速度上分别比英伟达H100提高了40%和50%。

除了芯片巨头外,也不乏来自初创公司的冲击。比如Groq推出的LPU、Cerebras推出的Wafer Scale Engine 3、Etched推出的Sohu等等。国内方面,有走多卡集群训练路线的初创公司,比如摩尔线程在今年6月宣布与羽人科技合作成功实现了摩尔线程夸娥(KUAE)千卡智算集群与羽人系列模型解决方案的训练兼容适配,高效完成了70亿参数羽人大语言模型YuRen-7b的训练测试。

摩尔线程夸娥方案基于全功能MTT S4000 GPU,该GPU采用了第三代MUSA内核,单卡支持48GB显存容量和768GB/s的显存带宽,FP16算力为100TFLOPS。值得一提的是,MTT S4000计算卡借助摩尔线程自研开发工具,可以充分兼容现有CUDA软件生态,实现CUDA代码零成本迁移到MUSA平台。

天数智芯也与智源研究院、爱特云翔合作,提供天垓100加速卡、构建算力集群及全程技术支持,实现基于自主通用GPU的大模型CodeGen(高效编码)项目,通过中文描述来生成可用的C、JavaPython代码以实现高效编码。

另外值得一提的是,国内还有一家走TPU路线的AI芯片公司——中昊芯英。该公司在2023年底推出了国内首款量产TPU AI训练芯片“刹那”,据称在处理大模型训练和推理任务时相比英伟达A100,性能提高近150%,能耗下降30%,单位算力成本仅为A100的42%。

当然,除了芯片公司,据现有的信息,目前主流的云服务供应商,比如前面提到的谷歌,还有亚马逊、微软、Meta、阿里巴巴、字节跳动、百度、华为等都有自研芯片的布局,其中还包括用于AI大模型训练的芯片。

写在最后

从长远来看,自研芯片是云服务供应商有效降低算力成本的方式之一,当AI大模型训练成为了云计算的重要用途时,自研AI训练芯片自然也是云服务厂商的长远之计。苹果作为消费电子巨头已经迈出了重要的一步,即摆脱对英伟达的算力依赖,并且还有大量的挑战者正在蠢蠢欲动。星星之火,可以燎原,英伟达在AI训练领域的地位,可能没有表面看起来那么稳固。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5099

    浏览量

    134461
  • 苹果
    +关注

    关注

    61

    文章

    24586

    浏览量

    207440
  • AI
    AI
    +关注

    关注

    89

    文章

    38104

    浏览量

    296629
  • 英伟达
    +关注

    关注

    23

    文章

    4040

    浏览量

    97671
  • 大模型
    +关注

    关注

    2

    文章

    3440

    浏览量

    4967
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    AI模型的配置AI模型该怎么做?

    STM32可以跑AI,这个AI模型怎么搞,知识盲区
    发表于 10-14 07:14

    英伟HBM基础裸片

    电子发烧友网综合报道,据台媒消息,传闻英伟已开始开发自己的HBM基础裸片,预计英伟HB
    的头像 发表于 08-21 08:16 2531次阅读

    摆脱依赖英伟!OpenAI首次转向使用谷歌芯片

    地使用非英伟芯片,更显示出其正在逐步摆脱对英伟芯片的深度依赖,在算力布局上迈出了重要战略调整的一步。   OpenAI
    的头像 发表于 07-02 00:59 7994次阅读

    首创开源架构,天玑AI开发套件让端侧AI模型接入得心应手

    模型库的限制,联发科还首发了开源弹性架构。区别于过往的开放接口,只能部署特定架构模型,开放弹性架构允许开发者直接调整平台源代码,无需等待芯片厂商的支持,即可完成目标或其他
    发表于 04-13 19:52

    英伟Cosmos-Reason1 模型深度解读

    英伟近期发布的 Cosmos-Reason1 模型在物理常识推理领域引发广泛关注。作为专为物理世界交互设计的多模态大语言模型,它通过融合视觉感知与复杂逻辑推理,重新定义了
    的头像 发表于 03-29 23:29 2615次阅读

    英伟、高通布局AI投资版图,这些明星企业被收入囊中!

    电子发烧友原创 章鹰 今年以来,AI界新秀DeepSeek带来的大模型平权推动AI应用,云计算市场景气度上行,推动资本开支增长。对于DeepSeek的横空出世,英伟
    的头像 发表于 03-25 09:22 1824次阅读

    英伟GROOT N1 全球首个开源人形机器人基础模型

    英伟GROOT N1 全球首个开源人形机器人基础大模型
    的头像 发表于 03-20 11:05 1696次阅读

    英伟杀疯了!Blackwell横扫市场,AMD、英特尔加入降本浪潮

    电子发烧友网报道(文/莫婷婷)2月27日凌晨,英伟公布了2025财年第四财季的财务数据,这是DeepSeek面世后的第一份财报,业内人士尤为关注DeepSeek给英伟或者是
    的头像 发表于 03-02 00:02 2414次阅读
    <b class='flag-5'>英伟</b><b class='flag-5'>达</b>杀疯了!Blackwell横扫市场,AMD、英特尔加入降本浪潮

    传DeepSeek芯片,厂商们要把AI成本打下来

    外购芯片的成本,掌握供应链主动权,另一方面随着AI推理应用的爆发,AI推理芯片有机会被重新定义。   DeepSeek 不完全依赖英伟  
    的头像 发表于 02-16 00:09 3894次阅读
    传DeepSeek<b class='flag-5'>自</b><b class='flag-5'>研</b>芯片,厂商们要把<b class='flag-5'>AI</b>成本打下来

    英伟推出基石世界模型Cosmos,解决智驾与机器人具身智能训练数据问题

    CES 2025展会上,英伟推出了基石世界模型Cosmos,World Foundation Model基石世界模型,简称WFM。 物理 AI
    的头像 发表于 01-14 11:04 2100次阅读
    <b class='flag-5'>英伟</b><b class='flag-5'>达</b>推出基石世界<b class='flag-5'>模型</b>Cosmos,解决智驾与机器人具身智能训练数据问题

    英伟发布Cosmos世界基础模型

    近日,在2025年1月6日于拉斯维加斯拉开帷幕的国际消费类电子产品展览会(CES)上,英伟宣布了一项重大创新——Cosmos世界基础模型平台。该平台集成了先进的生成世界基础模型,旨在
    的头像 发表于 01-09 10:23 941次阅读

    苹果AI芯片,或终结与英伟多年合作

    苹果公司正加速推进AI芯片的步伐,旨在减少对外部供应商的依赖,这一战略调整或将彻底改变其与英伟
    的头像 发表于 12-27 10:18 895次阅读

    苹果加速AI芯片研发,或终结与英伟合作关系

    近日,苹果公司正全力以赴地推进AI芯片的研发进程,旨在减少对于第三方芯片开发商的依赖。这一举措可能预示着,
    的头像 发表于 12-26 11:07 1004次阅读

    GPU是如何训练AI模型

    AI模型的训练过程中,大量的计算工作集中在矩阵乘法、向量加法和激活函数等运算上。这些运算正是GPU所擅长的。接下来,AI部落小编带您了解GPU
    的头像 发表于 12-19 17:54 1325次阅读

    NaVILA:加州大学与英伟联合发布新型视觉语言模型

    日前,加州大学的研究人员携手英伟,共同推出了一款创新的视觉语言模型——NaVILA。该模型在机器人导航领域展现出了独特的应用潜力,为智能机器人的自主导航提供了一种全新的解决方案。 视
    的头像 发表于 12-13 10:51 959次阅读