0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

​特斯拉机器学习超级计算机DOJO支持灵活适应新的算法和应用

lPCU_elecfans 来源:电子发烧友网 作者:电子发烧友网 2022-08-25 15:21 次阅读

电子发烧友网报道(文/周凯扬)这年头不少车企都开始自主研发自动驾驶系统,连带部署数据中心和超算已经不是什么新鲜事了。除了特斯拉的DOJO和GPU超算以外,小鹏也在本月宣布与阿里云合作搭建了全国最大的自动驾驶智算中心“扶摇”,算力可达600PFLOPS,看来新一轮的军备竞赛很快就会拉开帷幕。

对于自动驾驶的开发来说,模型训练至关重要,寻常的服务器CPU基本无法满足这个负载需求,所以不少车企都在借助英伟达的GPU开展训练,特斯拉也不例外。正巧今年的Hot Chips大会上安排了三场特斯拉的分享,都与特斯拉的AI与DOJO平台有关,特斯拉的几位自动驾驶与AI部门负责人也都透露了他们在软硬件上的一些进展,就当是作为下个月底特斯拉AI日的前瞻了。

DOJO超算

特斯拉的DOJO是他们自研自用的机器学习超级计算机,采用了高度可扩展而且完全分布式的系统,对神经网络训练负载进行了专门的优化,支持灵活适应新的算法和应用。根据特斯拉Autopilot硬件工程师Emil Talpes的说法,DOJO从设计之初就是为了大型系统设计的,而不是基于目前已有的商用小系统,再把规模做大。

DOJO的基础组成部分,就是它的D1裸片。D1基于台积电7nm工艺,单个裸片面积占645mm2。大家都知道苹果M1 Ultra的die size相当大,可哪怕是M1 Ultra的单个裸片大小也只有432mm2。D1采用了极度模块化的设计,每个D1上共有354个DOJO处理单元,而且以2D阵列的形式物理和逻辑排布,单个D1在2GHz下的算力可达362TFLOPS。

由5x5排布的25个合格D1芯片(KGD)组成了一个DOJO训练模块,整个模块从电、热、机械结构上都是完全集成在一起的,模块水平层面负责不同模块之间的通信,而垂直层面则解决15kW的供电和散热问题。

整个DOJO系统就是由DOJO训练模块按2D网格结构排列而成,网格边缘配置了DOJO接口处理器(DIP)来提供共享内存支持。而本届Hot Chips上,特斯拉终于放出了这一处理器的详细情报。

表面看上去,DIP像是一张PCIe卡,而它实际上使用的也确实是32GB/s的PCIe 4.0接口,配有32GB的HBM内核,提供800GB/s的总内存带宽。但这PCIe 4.0的接口只是用于连接主机,真正发挥其性能的是特斯拉自研的TTP协议接口,提供900GB/s的超大带宽给训练模块。

训练模块的边缘配置了5个DIP卡,如此一来每边都提供了160GB的共享DRAM,并通过这5张卡实现4.5TB/s的最大带宽。要想扩展网络通信的话,比如SmartNIC交换机,DIP也原生硬件支持标准以太网上的TTP通信,当然了选择这种通信方式的话带宽也会降低至50GB/s,延迟也会增加。

整个系统即一个ExaPOD,由10个机柜,超过100万片D1 CPU组成,算力可达1.1EFLOPS。而这样的算力为特斯拉带来了前所未有的训练性能,尤其是在自动标注上。

被机器取代的人工标注员

虽然是特斯拉本身的商用车走的纯视觉方案,但特斯拉路测车队并不局限于提供视频片段,毕竟去年就有人发现特斯拉的路测车辆顶着激光雷达在收集数据。在特斯拉路测车队提交的片段中,除了视频数据以外,还有IMU、GPS和测距仪等传感器给出的数据。

这些数据经过离线神经网络后,根据汽车行驶轨迹进行静态世界重构,同时根据移动物体和动力学对物体进行自动标注。特斯拉可以自行选择需要进行标注的片段,比如查询可视条件不佳下的最近车辆,系统会自动返回这些片段然后进行自动标注。再加上特斯拉的4D标注,也就是在标注一次后,同时标注所有相机中的多帧画面,极大地加快了标注速度。根据特斯拉的说法,他们可以在一周之内收集并自动标注1万个片段。

这也就是特斯拉引入DOJO超算的原因,虽然标注的工作量在不断提升,但随着机器学习硬件资源的增多,手动标注的占比越来越低,而自动标注开始占据主导,这或许才是为何特斯拉标注团队开始裁员的真相。

仍在继续扩大规模的GPU超算

DOJO作为一个纯CPU的超算系统,能做到以上已经相当厉害了,然而我们也不能忘记了特斯拉的另外两台GPU超算。早在2021年,特斯拉最新的一台GPU超算规模就已经达到了720个节点,每个节点包含8块英伟达A100 80GB GPU,整个系统的总GPU数达到了惊人的5760块。

根据英伟达给出的数据,每个A100的算力有312TFLOPS,这也就意味着这台最新GPU超算的算力已经超越了E级,达到了可怕的1.8EFLOPS。不过这里的E级和我们平常说的E级超算还是有区别的,TOP500的那些超算跑分用的是LINPACK HPL,用到的是64位双精度的格式,得出的实际应用性能。而英伟达的A100的312TFLOPS是基于16位半精度来算的,而且是峰值性能。

可即便如此,这台超算的实力也能在TOP500上名列前茅,根据特斯拉前AI主管Andrej Karpathy的说法,单论算力(峰值)的话,特斯拉这台GPU超算确实能在去年六月的超算榜上名列第五。

而近期,特斯拉负责AI基础设施和AI平台团队的工程经理Tim Zaman宣布,特斯拉已经将这台超算的规模再度升级,A100 80GB GPU的数量再度提升28%,达到了可怕的7360个。这价格十万左右的GPU一下就添置近2000个,不得不承认特斯拉确实愿意下血本。Tim Zaman表示哪怕单论GPU数量,这台超算也能排名世界第七了。

至于峰值算力,这台超算目前大概还是在第五的位置,这是因为今年的前五席多出了两位新晋选手,第一名的Frontier和第三名的LUMI都比这台超算要强。而且特斯拉也并没有提交LINPACK HPL的跑分结果,毕竟这套系统已经投入使用,特斯拉作为商业公司,也没必要去停止手头的训练负载而追求跑分。DOJO的话,特斯拉并没有公开升级其规模,上文中的1.1EFLOPS的峰值算力也是基于BF16的,所以也不适合拿来直接对比。

写在最后

电动车时代的来临给不少造车新势力降低了门槛,然而自动驾驶技术的存在又将整个门槛拉高了一大截。从目前头部企业的动向来看,搭建智算中心,拿高密度的计算资源去跑训练或许是唯一的自研路线,这样法规完善后,才能让自动驾驶汽车在全国范围内铺开,自动驾驶也不会局限于试点技术。

但是否摸清楚了技术路线,是否愿意砸这个钱,以及回报率高低才是他们迈出这一步关键,毕竟要让一个车企去组建团队搞芯片设计,这个要求还是有些过分了,但仅仅是与云服务厂商合作打造这样一个智算中心,同样也得付出不小的成本。

审核编辑:彭静
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 超级计算机
    +关注

    关注

    2

    文章

    434

    浏览量

    41613
  • 特斯拉
    +关注

    关注

    66

    文章

    6024

    浏览量

    125685
  • 机器学习
    +关注

    关注

    66

    文章

    8136

    浏览量

    130581

原文标题:​特斯拉的自动驾驶标注员正在被DOJO超算取代

文章出处:【微信号:elecfans,微信公众号:电子发烧友网】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    【量子计算机重构未来 | 阅读体验】+ 初识量子计算机

    欣喜收到《量子计算机——重构未来》一书,感谢电子发烧友论坛提供了一个让我了解量子计算机的机会! 自己对电子计算机有点了解,但对量子计算机真是一无所知,只是听说过量子纠缠、超快的运算速
    发表于 03-05 17:37

    Tesla 计划斥资 5 亿美元建造一台由 NVIDIA 的 AI GPU 提供支持Dojo 超级计算机

    ABSTRACT摘要Tesla计划斥资5亿美元建造一台由NVIDIA的AIGPU提供支持Dojo超级计算机,因此该公司正在加大基于AI的开发力度。JAEALOT2024年1月27日T
    的头像 发表于 02-19 12:45 314次阅读
    Tesla 计划斥资 5 亿美元建造一台由 NVIDIA 的 AI GPU 提供<b class='flag-5'>支持</b>的 <b class='flag-5'>Dojo</b> <b class='flag-5'>超级</b><b class='flag-5'>计算机</b>

    特斯拉将在纽约州打造Dojo超级计算机

    特斯拉近日宣布,将在美国纽约州布法罗市投资5亿美元,建造一台名为“Dojo”的超级计算机。这一决策源于纽约州稳定的电力供应、杰出的人才储备以及满足项目需求的充足空间。
    的头像 发表于 02-01 10:32 340次阅读

    特斯拉将斥资5亿美元建造Dojo超级计算机

    据外媒报道,特斯拉将在其位于纽约布法罗的超级工厂投资超过5亿美元,建造一台名为Dojo超级计算机。这一举措旨在推进
    的头像 发表于 01-29 11:26 352次阅读

    特斯拉超级计算机Dojo项目负责人离职,对自动驾驶技术影响显著

    超级计算平台 Dojo 专为人工智能机器学习研发,旨在提升特斯拉自动驾驶的视觉技术。值得注意的
    的头像 发表于 12-11 16:04 271次阅读

    特斯拉Dojo超级计算机项目负责人离职,前苹果高管接任

    特斯拉Dojo项目使用公司自主开发的芯片处理特斯拉汽车的大量数据和视频,并训练公司自主开发的自动行驶软件。在发送原稿之前,特斯拉没有立即回应评论要求。
    的头像 发表于 12-08 10:15 217次阅读

    特斯拉增加台积电代工订单,扩产D1超级计算机芯片

    特斯拉使用 Dojo 超级计算机训练高级驾驶辅助系统和完全自动驾驶系统的人工智能模型。随着 FSD、自动驾驶出租车和 Optimus 机器
    的头像 发表于 09-26 14:05 412次阅读

    特斯拉Dojo需求增量明确,已提前部署储备充足产能

    dojo特斯拉自己的超级计算机,使用了约5年的时间来训练人工智能来完成特斯拉的驾驶员辅助系统autopilot等复杂的工作。此前,马斯克在
    的头像 发表于 09-14 09:24 275次阅读

    特斯拉Dojo超级计算机助推市值增长,华为小米达成全球专利交叉许可协议

    大家好,欢迎收看河套IT WALK第104期。 随着科技的飞速发展,今天的新闻再次为我们揭示了AI、通信技术和自动驾驶等领域的最新进展。从AI芯片组的创新,到特斯拉Dojo超级计算机
    的头像 发表于 09-13 22:55 404次阅读
    <b class='flag-5'>特斯拉</b><b class='flag-5'>Dojo</b><b class='flag-5'>超级</b><b class='flag-5'>计算机</b>助推市值增长,华为小米达成全球专利交叉许可协议

    机器学习有哪些算法机器学习分类算法有哪些?机器学习预判有哪些算法

    机器学习有哪些算法机器学习分类算法有哪些?机器
    的头像 发表于 08-17 16:30 1410次阅读

    机器学习算法入门 机器学习算法介绍 机器学习算法对比

    ,讨论一些主要的机器学习算法,以及比较它们之间的优缺点,以便于您选择适合的算法。 一、机器学习
    的头像 发表于 08-17 16:27 632次阅读

    机器学习算法的5种基本算子

    机器学习算法的5种基本算子 机器学习是一种重要的人工智能技术,它是为了让计算机能够通过数据自主的
    的头像 发表于 08-17 16:11 1343次阅读

    gh200和超级计算机哪个牛

    gh200和超级计算机哪个牛 随着科技的不断发展,计算机已经成为人类生活不可或缺的一部分。计算机的崛起极大地改变了世界和每个人的生活。过去几十年中,人们对
    的头像 发表于 08-17 10:51 323次阅读

    gh200和超级计算机哪个牛

    gh200和超级计算机哪个牛  随着科技的不断发展,计算机已经成为人类生活不可或缺的一部分。计算机的崛起极大地改变了世界和每个人的生活。过去几十年中,人们对
    的头像 发表于 08-16 17:34 334次阅读

    量子计算机有什么用 量子计算机应用领域

    量子计算机可以加速解决传统计算机无法处理的复杂问题,如化学模拟、大规模优化、机器学习、数据挖掘等领域。
    的头像 发表于 06-14 17:30 5689次阅读