0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

联发科联手英伟达挑战高通与AMD,游戏、3纳米和大模型

佐思汽车研究 来源:佐思汽车研究 2024-03-27 14:34 次阅读

2023年5月,联发科英伟达宣布合作,共同研发车载芯片,原本计划是采用Chiplet形式。

2024年3月,联发科正式发布新一代Dimensity Auto 座舱平台,最大亮点是英伟达RTX GPU IP的加入和台积电3纳米的制造工艺。台积电3纳米制造工艺是目前芯片行业最先进的制造工艺,这是汽车芯片第一次与手机AI芯片同时使用最先进的制造工艺,但不是Chiplet,推测一来是3纳米的Chiplet制造工艺不够成熟,二就是Chiplet需要动用台积电先进封装,成本并不比单一die低,甚至可能高2-3倍,汽车行业对价格还是相对比较敏感的。

联发科是一家非常低调的公司品牌形象营造远不如高通,也极少对外透露信息

联发科一直被高通挤压,特别是在GPU和AI方面,联发科引入英伟达的GPU IP来弥补这一短板。

从联发科官方介绍中,我们不难看出联发科使用的英伟达GPU IP是何种类型的IP,因为DLSS3是RTX40系列独有的功能,也就是说联发科使用了英伟达RTX40系列桌面显卡的IP。

简单介绍一下DLSS3

65b3aaf8-ec02-11ee-a297-92fbcf53809c.png

图片来源:英伟达

DLSS全称Deep Learning Super Sampling(深度学习超采样),主要包括DLAA、插帧和光线重建。插帧即帧生成,它可以生成全新帧,而不仅是像素,从而带来惊人的性能提升。基于NVIDIA Ada Lovelace架构的新光流加速器可分析两帧连续的游戏图像,并计算帧到帧中物体和元素的运动矢量数据,而不使用传统游戏引擎的运动矢量进行建模。这极大地减少了AI在渲染诸如粒子、反射、阴影和光照等元素时的视觉异常。

通过综合游戏中的一对超级分辨率帧,以及引擎和光流运动矢量,并将其输入至卷积神经网络,就能计算生成出新的一帧,这在实时游戏渲染中是首次实现。将DLSS生成的全新帧与DLSS超级分辨率帧相结合,使DLSS 3能用AI重建八分之七的显示像素,与没有DLSS相比,游戏性能提升了4倍。

由于DLSS生成帧在GPU上作为后处理执行,即使游戏受到CPU性能限制,也能从中获得游戏性能提升。对于受到CPU限制的游戏,例如物理计算密集型游戏或大型场景游戏,DLSS 3令GeForce RTX 40系列GPU以高达两倍于CPU可计算的性能渲染游戏。

DLSS 3集成也包括NVIDIA Reflex,可以使GPU和CPU同步,确保最佳响应速度和低系统延迟。

DLSS3的插帧技术目前还是英伟达独有,AMD英特尔没有,也就是说如果用联发科的芯片运行《赛博朋克2077》这样的硬件杀手游戏,效果或可以碾压特斯拉座舱的AMD 分离式GPU。

RTX40系列也有多个版本,最低的是笔记本电脑用的GTX4050,AD107架构,2560个CUDA,联发科最大可能用这个架构。RTX4050的稀疏INT8算力估计有104TOPS,将来联发科的旗舰芯片或许AI算力大约就是100TOPS,当然了功耗会有25-35瓦以上,水冷恐怕不可避免。

另一大特色就是3纳米工艺,据称目前苹果和联发科已经包下了台积电全部的3纳米产能,高通拿不到台积电的3纳米产能了,高通打算使用三星的3纳米。众所周知,三星与台积电差距还是很大的。制造工艺上,联发科与同在台湾省内的台积电合作更加顺利,联发科的手机芯片也拿到了4纳米首发,领先了高通一步,3纳米上基本也可以确定,联发科也是首发。台积电第一代3nm工艺是N3B,由台积电的大客户苹果率先使用,A17 Pro、M3系列芯片等都是使用的台积电第一代3nm工艺制程。台积电第二代3nm工艺是N3E,N3E预计将比N3B应用更广泛,除了前面提到的联发科天玑9400芯片外,高通骁龙8 Gen4、A18系列芯片也原本计划采用N3E工艺。台积电N3E是N3B的增强版,良率更高,成本更低,但密度会略低于N3B。

联发科这次也是和高通一样,手机芯片与车载芯片同步,都采用最先进的3纳米制造工艺,考虑到3纳米高达数亿美元的惊人的一次性流片成本,联发科的手机和车载芯片应该有共通之处。

2023年9月,联发科宣布首款使用台积电3纳米工艺的芯片即将在2024年量产,这就是联发科新旗舰天玑9400。

天玑9300开始使用全大核设计,晶体管数量高达227亿,比英伟达自动驾驶Orin的170亿还要多很多。天玑9300的227亿晶体管,是真正的遥遥领先:苹果A16是160亿,A17 Pro是190亿,苹果M2是200亿。即便是苹果M3,也“仅”有250亿晶体管,而高通好几代没公布晶体管数目了。历史性的取消小核,CPU由4颗X4超大核和4颗A720大核组成,最高频的X4有更大的缓存。跳出安卓SoC的视角看,天玑9300的4颗超大核和4颗大核,其实更接近于苹果A系列和英特尔的P核(性能核)、E核(能效核)概念。

天玑首发LPDDR5T 9600Mbps内存,速度比之前的LPDDR5x 8533Mbps提升12.5%,这是大家以为要等LPDDR6才能达到的频率(2年前的天玑9000是首发LPDDR 5x 7500Mbps内存,天玑9200是首发LPDDR5x 8533Mbps)。

天玑9400采用ARM旗舰Cortex-x5(下图TCS24就是Cortex-x5,代号黑鹰),这是ARM最强CPU架构。

ARM的路线图

65c28a82-ec02-11ee-a297-92fbcf53809c.png

图片来源:ARM

Cortex-x5据说将消除Arm设计的CPU内核与苹果基于Arm指令集自研的CPU内核之间的性能差距。Moor Insights & Strategy CEO Patrick Moorhead指出,ARM全新的Cortex-X系列CPU内核的内部代号为“Blackhawk”,是ARM CEO Rene Haas接下来的工作重点之一,旨在消除Arm设计的CPU内核与苹果基于Arm指令集自研的CPU内核之间的性能差距。Moorhead引用ARM说法表示,“Blackhawk”核心将会带来巨大的性能提升,是五年来同比最大的IPC性能提升。

65dfd380-ec02-11ee-a297-92fbcf53809c.png

整理:佐思汽研

多年来ARM一直在挤牙膏,IPC带宽从2位,缓慢上升,而苹果一开始就到巅峰的8位,导致安卓性能远低于苹果,X5可能追平苹果的8位解码宽度,也可能直接到10位,超过苹果。

65eeb4b8-ec02-11ee-a297-92fbcf53809c.png

图片来源:联发科

很多人以为AI运算和CPU没关系,或者说CPU无法做AI运算,实际上CPU完全可以做任何类型的AI运算,只是数据吞吐能力不如GPU或AI加速器,抛开数据吞吐,单纯AI运算,CPU是最快的。ARM最新的CPU如Cortex-X3/X4/X5,都能够运行大模型,目前手机领域或者说移动领域大模型最常见的是LIama2,这是目前最好的语言类开源大模型。天玑9400可以做到每秒12-15 tokens。

简单介绍一下LIama2,Meta 出品的 Llama 续作 Llama2,一系列模型(7B、13B、70B)均开源可免费商用。Llama2在各个榜单上精度全面超过Llama1,同时也超过目前所有开源模型。用于车载和手机的70亿参数的相对较小的模型。

尽管语言类大模型LLM训练方法很直观:基于自回归的transformer模型,在大量预料上做自监督训练,然后通过人类反馈强化学习 (RLHF) 等技术来与人类偏好对齐。但高计算需求限制了LLM 只能由少数玩家来推动发展。现有的开源大模型,例如BLOOM、Llama1、Falcon,虽然都能基本达到匹配非开源大模型(如GPT-3、Chinchilla)的能力,但这些模型都不适合成为非开源产品级LLM (比如ChatGPT、BARD、Claude)的替代品,因为这些封闭的产品级LLM经过大量微调,与人类的偏好保持一致,大大提高了它们的可用性和安全性。这一步在计算和人工标注中需要大量的成本,而且往往不透明或容易重现,限制了社区的进步,以促进AI对齐研究。

660bab9a-ec02-11ee-a297-92fbcf53809c.png

图片来源:网络

Meta自己的奖励模型在基于Llama 2-Chat收集的内部测试集上表现最佳,其中「有用性」奖励模型在「元有用性」测试集上表现最佳,同样,「安全性」奖励模型在「元安全性」测试集上表现最佳。总体而言,Meta的奖励模型优于包括GPT-4在内的所有基线模型。有趣的是,尽管GPT-4 没有经过直接训练,也没有专门针对这一奖励建模任务,但它的表现却优于其他非元奖励模型。



审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 联发科
    +关注

    关注

    55

    文章

    2541

    浏览量

    252652
  • 加速器
    +关注

    关注

    2

    文章

    743

    浏览量

    36599
  • 英伟达
    +关注

    关注

    22

    文章

    3327

    浏览量

    87768
  • 车载芯片
    +关注

    关注

    0

    文章

    63

    浏览量

    14538
  • chiplet
    +关注

    关注

    6

    文章

    379

    浏览量

    12418

原文标题:联发科联手英伟达挑战高通与AMD,游戏、3纳米和大模型

文章出处:【微信号:zuosiqiche,微信公众号:佐思汽车研究】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    XY8390 物联网通用主板

    物联网
    jf_87063710
    发布于 :2024年04月25日 09:37:41

    MT6761 4G 智能模块之应用方案

    jf_87063710
    发布于 :2024年04月13日 10:07:09

    MT6739 4G 智能模块

    模块
    jf_87063710
    发布于 :2024年04月10日 09:48:36

    XY6785 4G 智能模块

    模块
    jf_87063710
    发布于 :2024年04月09日 09:41:57

    XY8766 4G 智能模块

    模块
    jf_87063710
    发布于 :2024年04月07日 10:59:35

    英伟达AI霸主地位遭巨头联手挑战,CUDA垄断遭破局

    据最新外媒报道,科技界的巨头们——高通、谷歌和英特尔等,已经联手英伟达发起了一场挑战,意图打破其在CUDA平台上的垄断局面。
    的头像 发表于 03-28 14:39 484次阅读

    天玑1200双5G

    芯片
    jf_87063710
    发布于 :2024年03月21日 10:28:02

    MT6877(天玑 900)平台 —— XY6877 5G AI 智能模块

    模块
    jf_87063710
    发布于 :2024年01月12日 09:37:42

    安卓系统 —— 卓越V100物联网通用主板

    物联网
    jf_87063710
    发布于 :2024年01月09日 09:36:21

    5G AI 智能芯片—XY6877

    智能芯片
    jf_87063710
    发布于 :2024年01月03日 10:12:51

    机构:手机处理器份额33%

    处理器
    北京中科同志科技股份有限公司
    发布于 :2023年12月25日 09:13:12

    XY6761 4G 核心板方案

    核心板
    jf_87063710
    发布于 :2023年12月20日 10:50:56

    XY6762 4G核心板

    核心板
    jf_87063710
    发布于 :2023年12月04日 13:46:02

    NVIDIA仍不死心,再次加入ARM站场

    加强芯片在游戏和AI方面的功能与性能,计划最早于2024年将含有英伟图形技术的GPU集成
    发表于 05-28 08:51

    回应结盟英伟合攻 Arm 架构芯片传闻

    计划周一下午举行 2023“旗舰科技 智领未来”记者会,由 CEO 蔡力行与重量级嘉
    发表于 05-28 08:47