0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

挑战英伟达,索尼AFEELA里的高通数字底盘

佐思汽车研究 来源:佐思汽车研究 2024-01-14 10:35 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

2024年CES展上,索尼用自家的PS5游戏机遥控原型车AFEELA登台颇为惊艳,预计AFEELA在2025年上市,起售价约为45000美元,首选发售地据悉是北美。AFEELA是高通数字底盘的典型代表。

AFEELA具备800TOPS的算力。

76159edc-b279-11ee-8b88-92fbcf53809c.png

图片来源:SHM

762b18e8-b279-11ee-8b88-92fbcf53809c.png

图片来源:SHM

AFEELA显然是采用了两套SnapdragonRide级联,推测SoC是高通的SA8650,加速器是基于Cloud AI 100 Ultra的车载版。

AFEELA的AD/ADAS架构

763e7280-b279-11ee-8b88-92fbcf53809c.png

图片来源:SHM

上图是AFEELA的AD/ADAS架构,不要质疑CNN做感知,即便是2000TOPS的英伟达也支撑不起全Transformer,车载感知的Backbone网络还是基于CNN的,包括特斯拉,特斯拉是Regnet。只有Head才能用得上Transformer,这里的环境模型基本可等同于BEV加占用网络。全Transformer估计得用8张英伟达H200显卡,价格是整车的好几倍了。

SA8650之前笔者已介绍过,高通第一代Snapdragon Ride即SA8540P+SA9000P似乎是过渡产品,SA8540P和高通的SA8295P几乎完全一致,与高通笔记本电脑领域的8cx Gen3即SC8280P也几乎完全一致。

高通自动驾驶一直在英伟达和Mobileye的夹缝中,英伟达凭借超高性能几乎垄断高端市场,而Mobileye以40-70美元的超低价格垄断中低端市场。对大部分厂家,包括保时捷这样的高端品牌,对自动驾驶都缺乏兴趣和重视度,自动驾驶是可有可无,锦上添花的配置,只有Mobileye不到100美元的芯片能满足这些厂家的成本需求,Mobileye牢牢占据全球70%的智能驾驶芯片市场,地位稳如泰山,短期的客户库存调整不会影响Mobileye的未来。高通无意与Mobileye竞争,可能是利润太微薄,高通主要竞争对手就是英伟达,但高通主要市场还是手机,技术核心还在手机上,所以高通的AI加速器是分离的,高通主打的是低功耗和高性价比。

今天我们主要来看高通AI加速器的新产品,即AI 100 Ultra,这是高通2023年11月底推出的产品,就是要挑战英伟达的H100,高通号称单张AI 100 Ultra可以对应1000亿参数的大模型,两张可以对应1750亿参数的ChatGPT 3,功耗和价格远低于英伟达的H100,惠普和联想已经有基于AI 100 Ultra的服务器销售。

7655cc46-b279-11ee-8b88-92fbcf53809c.png

上表是高通2020年9月推出AI 100的各个版本的性能表现。高通目前只有这两款AI加速器,车载的AI加速器毫无疑问是基于AI 100设计的。

766c8918-b279-11ee-8b88-92fbcf53809c.png

从参数上看,当然无法和英伟达H100相提并论,并且H100主打的是FP16精度,高通主打的是INT8精度,高通主要的信心来自其软件优化,即Polyhedral Mapper。

76802bc6-b279-11ee-8b88-92fbcf53809c.png

特色主要是核心/线程的并行性,明确的数据传输,以及SIMD的并行性。

7692dd48-b279-11ee-8b88-92fbcf53809c.png

上图是一个具体的BERT优化。

76aac80e-b279-11ee-8b88-92fbcf53809c.png

主要的挑战一是如何让核心、线程和矢量单元都处于最大利用状态,二是如何利用好本地内存,而不是外部昂贵的HBM内存,三是减少数据搬运。

高通AI加速器架构

76c9cb46-b279-11ee-8b88-92fbcf53809c.png

高通AI 100内核

76e31ae2-b279-11ee-8b88-92fbcf53809c.png

高通AI 100内核是16个,AI 100Ultra是64个,不过考虑到功耗,性能没有增加4倍。

每个AI核心内部架构

76f6c114-b279-11ee-8b88-92fbcf53809c.jpg

大多数车载AI加速器只有张量Tensor计算单元,且只有INT8,高通的不仅包括张量还有标量Scalar和矢量Vector单元。张量分INT8和FP16两种,INT8有8192个MAC,FP16有4096个MAC。标量与矢量单元都是VLIW指令集,跟高通手机芯片中的DSP完全一致。

每核心有1MB的L2缓存,有8MB的VTCM存储,所谓VTCM是VectorTightly-Coupled Memory紧耦合矢量存储,合计每个AI核心有9MB的SRAM,64个内核就是576MB的SRAM,SRAM的成本每MB约5美元,也就是2880美元,AI 100 Ultra至少一半以上的die size是SRAM,一半以上的成本也来自SRAM,估计AI 100 Ultra售价是6000美元左右。

矢量计算需要频繁搬运数据,特别是矢量矩阵运算,Transformer里主要延迟都来自矢量矩阵运算。

770b91d4-b279-11ee-8b88-92fbcf53809c.png

上图是三星对GPT大模型workload分析,在运算操作数量上,GEMV矩阵矢量乘法所占的比例高达86.53%,在大模型运算延迟分析上,82.27%的延迟都来自GEMV;GEMM矩阵通用乘法所占仅为2.12%,非线性运算也就是神经元激活部分占的比例也远高于GEMM。

77269f2e-b279-11ee-8b88-92fbcf53809c.png

上图是三星对GPU利用率的分析,可以看出在GEMV算子时,GPU的利用率很低,一般不超过20%,换句话说80%的时间GPU都是在等待存储数据的搬运。所以芯片内部的TCAM非常有必要,其效果要比芯片外部的HBM更好,缺点是容量远不能和HBM比,用于训练和汽车级模型推理比较好。

AI 100 Ultra的存储系统升级不少,从原来的137GB/s升级至576GB/s,但还是用了老旧的LPDDR4,实际就是内存控制器增加到了4路,每路128bit,合计512bit。接口方面,PCIe提升到第四代,Lane增加到16。

AI加速器硬件似乎已走到了尽头,能做文章的只有存储部分和制造工艺,更先进的制造工艺容纳更多的计算单元,更高bit的内存控制器增加存储带宽或者升级HBM,像英伟达的H200,只是存储部分更换成了HBM3,其余与H100完全一致。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 加速器
    +关注

    关注

    2

    文章

    841

    浏览量

    40265
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5283

    浏览量

    136095
  • AI
    AI
    +关注

    关注

    91

    文章

    41305

    浏览量

    302685
  • 自动驾驶
    +关注

    关注

    795

    文章

    15010

    浏览量

    181690

原文标题:挑战英伟达,索尼AFEELA里的高通数字底盘

文章出处:【微信号:zuosiqiche,微信公众号:佐思汽车研究】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    挑战英伟!发布768GB内存AI推理芯片,“出征”AI数据中心

    亿美元的数据中心市场中抢占一席之地。   就在10月28日,通面向数据中心连发两款AI芯片,AI200 和 AI250 芯片,打造下一代 AI 推理优化解决方案。这一举措不仅标志着通在AI基础设施领域的拓展,也被业内视为其对英伟
    的头像 发表于 10-29 09:14 6764次阅读
    <b class='flag-5'>高</b>通<b class='flag-5'>挑战</b><b class='flag-5'>英伟</b><b class='flag-5'>达</b>!发布768GB内存AI推理芯片,“出征”AI数据中心

    施耐德电气与英伟深化合作以构建高效吉瓦级AI工厂

    施耐德电气携手英伟联合发布全新Vera Rubin参考设计,为英伟最新机架级系统提供经过验证的供配电与冷却方案。
    的头像 发表于 03-20 13:52 488次阅读

    新思科技与英伟多项硬核科技成果亮相GTC 2026

    新思科技(Synopsys, Inc.,纳斯达克股票代码:SNPS)在英伟 GTC 2026 大会(NVIDIA GTC 2026)上,展示了其与英伟战略合作的最新成果,携手重塑千
    的头像 发表于 03-18 17:36 1050次阅读

    罗德与施瓦茨携手英伟推进基于数字孪生技术的AI-RAN测试

    ”)展示最新测试平台,该平台将基于光线追踪的特定站点信道仿真与英伟Sionna研究套件深度融合,在实验室内即可完成基于数字孪生的硬件在环测试。
    的头像 发表于 03-03 13:45 635次阅读
    罗德与施瓦茨携手<b class='flag-5'>英伟</b><b class='flag-5'>达</b>推进基于<b class='flag-5'>数字</b>孪生技术的AI-RAN测试

    麦格纳宣布扩大与英伟的战略合作

    麦格纳宣布扩大与英伟的战略合作,为整车厂基于英伟DRIVE Hyperion平台的项目落地提供支持。
    的头像 发表于 01-09 12:59 544次阅读

    英伟重磅出手!AI 推理存储全面觉醒

    电子发烧友网报道(文/黄晶晶)近日,有消息称,英伟将以大约200亿美元收购人工智能芯片初创公司Groq,这将是英伟迄今为止规模最大的一笔收购。但
    的头像 发表于 12-26 08:44 1.2w次阅读
    <b class='flag-5'>英伟</b><b class='flag-5'>达</b>重磅出手!AI 推理存储全面觉醒

    黄仁勋:英伟AI芯片订单排到2026年 英伟上季营收加速增长62%再超预期

    AI芯片总龙头英伟的财报终于带来了惊喜;英伟公司发布财报数据显示,上季营收加速增长62%;再超华尔街预期。业界都比较振奋,英伟
    的头像 发表于 11-20 11:36 1488次阅读

    NVIDIA新闻:英伟10亿美元入股诺基亚 英伟推出全新量子设备

    给大家分享一些NVIDIA新闻: 英伟10亿美元入股诺基亚 在当地时间10月28日,英伟正式宣布将以10亿美元入股诺基亚;据悉英伟
    的头像 发表于 10-29 17:12 2464次阅读

    英伟下一代Rubin芯片已流片

    继8月底英伟透露Rubin架构芯片计划明年量产后,当地时间9月8日的盛技术会议上,英伟又谈到Rubin的进展。
    的头像 发表于 09-12 17:15 2043次阅读

    英伟自研HBM基础裸片

    电子发烧友网综合报道,据台媒消息,传闻英伟已开始开发自己的HBM基础裸片,预计英伟的自研HBM基础裸片采用3nm工艺制造,计划在2027年下半年进行小批量试产。并且这一时间点大致对
    的头像 发表于 08-21 08:16 3053次阅读

    国家网信办约谈英伟

    近日,英伟算力芯片被曝出存在严重安全问题。此前,美议员呼吁要求美出口的先进芯片必须配备“追踪定位”功能。美人工智能领域专家透露,英伟算力芯片“追踪定位”“远程关闭”技术已成熟。为维
    的头像 发表于 07-31 13:56 2861次阅读
    国家网信办约谈<b class='flag-5'>英伟</b><b class='flag-5'>达</b>

    通展示骁龙数字底盘产品组合的最新成果

    今日,在2025通汽车技术与合作峰会上,通技术公司携手中国先进车企和生态系统合作伙伴,展示其骁龙数字底盘产品组合的发展势头和最新成果。骁龙数字
    的头像 发表于 07-03 12:55 1892次阅读

    施耐德电气与英伟深化合作

    近日,施耐德电气宣布与英伟深化合作,旨在满足市场对可持续、AI就绪基础设施日益增长的需求。
    的头像 发表于 06-24 15:02 1583次阅读

    英伟拟再推中国特供GPU,今年6月量产!

    电子发烧友网综合报道 近年来,美国政府对华半导体出口管制政策不断收紧,英伟等半导体企业面临严峻挑战。为保持在中国市场的竞争力,英伟推出了
    发表于 05-27 00:03 4916次阅读