0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

基于4000万公里量产车驾驶数据训练,参数规模1200亿

jf_WZTOguxH 来源:AI前线 2023-04-14 10:27 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

4 月 11 日,InfoQ 获悉,自动驾驶创企毫末智行发布了业内首个自动驾驶生成式大模型 DriveGPT,中文名“雪湖·海若”。

自动驾驶生成式大模型 DriveGPT 雪湖·海若

自动驾驶生成式大模型 DriveGPT 雪湖·海若,有望成为大模型技术落地自动驾驶新范式。

毫末智行 CEO 顾维灏介绍了雪湖·海若名字的来源:“‘海若’出自《庄子·秋水》,里面有两个神话人物河伯和北海若。河伯请教北海若,何谓大小之分,北海若教导,不因天地而觉大,不因毫末而觉小。毫末雪湖·海若,寓意智慧包容、海纳百川,为行业发展贡献力量。”

毫末 DriveGPT 雪湖·海若通过引入驾驶数据建立 RLHF(人类反馈强化学习)技术,对自动驾驶认知决策模型进行持续优化。它的最终目标是实现端到端自动驾驶,现阶段主要用于解决自动驾驶的认知决策问题,后续持续会将毫末多个大模型的能力整合到 DriveGPT。

目前,毫末 DriveGPT 雪湖·海若实现了模型架构与参数规模的升级,参数规模达到 1200 亿,预训练阶段引入 4000 万公里量产车驾驶数据,RLHF 阶段引入 5 万段人工精选的困难场景接管 Clips。

DriveGPT 雪湖·海若的底层模型采用 GPT(Generative Pre-trained Transformer)生成式预训练大模型,与 ChatGPT 使用自然语言进行输入与输出不同,DriveGPT 输入是感知融合后的文本序列,输出是自动驾驶场景文本序列,即将自动驾驶场景 Token 化,形成“Drive Language”,最终完成自车的决策规控、障碍物预测以及决策逻辑链的输出等任务。(DriveGPT 雪湖·海若)DriveGPT 雪湖·海若的实现过程是,首先在预训练阶段通过引入量产驾驶数据,训练初始模型,再通过引入驾驶接管 Clips 数据完成反馈模型(Reward Model)的训练,然后再通过强化学习的方式,使用反馈模型去不断优化迭代初始模型,形成对自动驾驶认知决策模型的持续优化。同时,DriveGPT 雪湖·海若还会根据输入端的提示语以及毫末 CSS 自动驾驶场景库的决策样本去训练模型,让模型学习推理关系,从而将完整驾驶策略拆分为自动驾驶场景的动态识别过程,完成可理解、可解释的推理逻辑链生成。

在应用方面,DriveGPT 雪湖·海若的首发车型是新摩卡 DHT-PHEV,即将量产上市。顾维灏提到,DriveGPT 雪湖·海若可以逐步应用到城市 NOH、捷径推荐、智能陪练以及脱困场景中。有了 DriveGPT 雪湖·海若的加持,车辆行驶会更安全;动作更人性、更丝滑,并有合理的逻辑告诉驾驶者,车辆为何选择这样的决策动作。对于普通用户来说,车辆越来越像老司机,用户对智能产品的信任感会更强,理解到车辆的行为都是可预期、可理解的。

目前,毫末 DriveGPT 雪湖·海若已正式对外开放,开启对限量首批客户的合作,北京交通大学计算机与信息技术学院、高通、火山引擎、华为云、京东科技、四维图新、魏牌新能源英特尔等已经加入。毫末 DriveGPT 的对外开放及服务,将促进自动驾驶的从业者和研究机构快速构建基础能力。

毫末 DriveGPT 雪湖·海若将率先探索四大应用能力,包括智能驾驶、驾驶场景识别、驾驶行为验证、困难场景脱困。当前,毫末在使用数据过程中,逐步建立起一套基于 4D Clips 驾驶场景识别方案,具备极高性价比。在行业上,给出正确的标注结果,一张图片需要约 5 元;如果使用 DriveGPT 雪湖·海若的场景识别服务,一张图片的价格将下降到 0.5 元。单帧图片整体标注成本仅相当于行业的 1/10。接下来,毫末会将图像帧及 4D Clips 场景识别服务逐步向行业开放使用,这将大幅降低行业使用数据的成本,提高数据质量,从而加速自动驾驶技术的快速发展。

dcabd886-d9b8-11ed-bfe3-dac502259ad0.png

大模型研发离不开庞大的算力支撑。

顾维灏介绍,毫末在 2023 年 1 月发布的中国自动驾驶行业最大的智算中心 MANA OASIS(雪湖· 绿洲)此次从算力优化等层面升级了三大能力,进一步支持 DriveGPT 雪湖·海若的算力。首先,毫末与火山引擎全新搭建了“全套大模型训练保障框架”,实现了异常任务分钟级捕获和恢复能力,可以保证千卡任务连续训练数个月没有任何非正常中断, 有效保证了大模型训练稳定性;其次,毫末研发出以真实数据回传为核心的增量学习技术,并将其推广到了大模型训练,构建了一个大模型持续学习系统,自主研发任务级弹性伸缩调度器,分钟级调度资源,集群计算资源利用率达到 95%;最后,MANA OASIS 通过提升数据吞吐量来降本增效,满足 Transformer 大模型训练效率,通过引入火山引擎提供的 Lego 算子库实现算子融合,端到端吞吐提升 84%。

毫末打造的自动驾驶数据智能体系 MANA,在经过一年多的应用迭代后,也迎来了全面的升级,正式开放赋能。顾维灏介绍,MANA 计算基础服务针对大模型训练在参数规模、稳定性和效率方面做了专项优化,并集成到 OASIS 中;其次,MANA 感知和认知相关大模型能力统一整合到 DriveGPT 雪湖·海若中;第三,增加了使用 NeRF 技术的数据合成服务,降低 Corner Case 数据的获取成本;同时针对多种芯片和多种车型的快速交付难题优化了异构部署工具和车型适配工具。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 模型
    +关注

    关注

    1

    文章

    3875

    浏览量

    52343
  • 自动驾驶
    +关注

    关注

    795

    文章

    15060

    浏览量

    182007
  • 强化学习
    +关注

    关注

    4

    文章

    275

    浏览量

    12013

原文标题:自动驾驶生成式大模型 DriveGPT 来了:基于 4000 万公里量产车驾驶数据训练,参数规模 1200 亿

文章出处:【微信号:AI前线,微信公众号:AI前线】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    3DGS+合成数据,真能让自动驾驶告别“长尾场景焦虑”吗?

    一、引言在自动驾驶与具身智能的发展历程中,数据一直是制约模型能力的重要因素。目前,Waymo的自动驾驶数据累计达3200
    的头像 发表于 05-15 17:33 312次阅读
    3DGS+合成<b class='flag-5'>数据</b>,真能让自动<b class='flag-5'>驾驶</b>告别“长尾场景焦虑”吗?

    量产定点超300套!地平线携手鉴智机器人,加速推进全民智驾时代!

    近日,全栈组合辅助驾驶系统提供商鉴智机器人(PhiGent Robotics)正式宣布,其基于地平线征程®6B芯片打造的PhiGo Entry行泊一体方案,量产定点累计突破300套,即将开启大
    的头像 发表于 03-16 18:32 4548次阅读
    <b class='flag-5'>量产</b>定点超300<b class='flag-5'>万</b>套!地平线携手鉴智机器人,加速推进全民智驾时代!

    万里红成为可信数据空间发展联盟核心成员单位

    近日,北京万里红科技有限公司(以下简称:万里红)凭借在可信数据空间领域长期的探索研究和实践积累,通过可信数据空间发展联盟理事会审核,正式成为该联盟核心成员单位,充分彰显公司在行业内的领
    的头像 发表于 02-09 17:38 1412次阅读

    车驾驶辅助系统领域首个强制性国家标准发布

    1月28日,一则消息在中国汽车安全领域引发震动:我国汽车驾驶辅助系统领域的首个强制性国家标准《轻型汽车自动紧急制动系统技术要求及试验方法》(GB39901—2025)正式发布,并将于2028年1月1日起实施。
    的头像 发表于 02-05 09:41 824次阅读

    复合光纤电缆:破解“最后一公里”难题的“能钥匙”

    在智慧城市、工业互联网与智能家居的浪潮中,如何高效解决设备供电与数据传输的“最后一公里”矛盾,成为行业痛点。复合光纤电缆凭借其“光电一体、一缆多用”的特性,正成为破解这一难题的“能钥匙”。 园区
    的头像 发表于 02-02 11:07 395次阅读

    车驾驶员监控系统利器:MAX25616高电流VCSEL/IR驱动器

    车驾驶员监控系统利器:MAX25616高电流VCSEL/IR驱动器 在汽车电子领域,驾驶员监控系统(DMS)和高级驾驶辅助系统(ADAS)的发展日新月异,对于高性能、高集成度的芯片需求也愈发迫切
    的头像 发表于 02-02 09:40 598次阅读

    自动驾驶大模型的训练数据有什么具体要求?

    [首发于智驾最前沿微信公众号]想训练出一个可以落地的自动驾驶大模型,不是简单地给其提供几张图片,几条规则就可以的,而是需要非常多的多样的、真实的驾驶数据,从而可以让大模型真正理解道路、
    的头像 发表于 12-26 09:32 452次阅读
    自动<b class='flag-5'>驾驶</b>大模型的<b class='flag-5'>训练</b><b class='flag-5'>数据</b>有什么具体要求?

    中科天机向全球共享中国区1公里高分辨率气象融合数据

    12月10日,中科曙光旗下中科天机气象科技有限公司(以下简称“中科天机”),正式向全球共享中国区1公里气温/2.5公里50+要素,以及全球46天次季节12公里20+要素气象融合数据。中
    的头像 发表于 12-18 17:30 1311次阅读

    万里红推出可信数据空间平台

    北京万里红科技有限公司(以下简称:万里红)在由中国信息协会主办的“2025可信数据空间推进大会”中重磅发布万里红可信数据空间平台(行业版)。
    的头像 发表于 08-28 09:14 2225次阅读

    突破界限,智联未来:昊衡科技OCI长度测量升级至2公里

    数据中心密集的机柜森林,每一根光纤都是高速数据流动的生命线。传统测试设备面对公里级复杂链路时,往往很难同时兼顾距离、精度与信号灵敏度指标。武汉昊衡科技针对此测试痛点,再次突破技术壁
    的头像 发表于 08-21 17:36 1571次阅读
    突破界限,智联未来:昊衡科技OCI长度测量升级至2<b class='flag-5'>公里</b>

    10公里超远距离传输,安信可LoRa模组的远、低、省!

    在没有Wi-Fi、没有4G、甚至没有市电的地方,你的设备,还能互联吗? 回答是:能。靠LoRa,能传10公里远。 是的,你没听错。 安信可推出的LoRa模组,空旷环境实测 传输距离可达10公里
    的头像 发表于 08-06 15:12 2076次阅读
    10<b class='flag-5'>公里</b>超远距离传输,安信可LoRa模组的远、低、省!

    小马智行L4域控制器路测超200公里

    近日,小马智行宣布第七代Robotaxi所搭载的L4车规级域控制器已累计测试超200公里。作为全球首个L4 Robotaxi车规级量产域控制器,200
    的头像 发表于 07-26 09:14 1364次阅读

    瞻芯电子第3代1200V 35mΩ SiC MOSFET量产交付应用

    近期,中国领先的碳化硅(SiC)功率器件与IC解决方案供应商——瞻芯电子开发的首批第3代1200V SiC 35mΩ MOSFET产品,凭借优秀的性能与品质赢得多家重要客户订单,已量产交付近200颗,为应用系统提供高效、可靠的
    的头像 发表于 07-16 14:08 1623次阅读
    瞻芯电子第3代<b class='flag-5'>1200</b>V 35mΩ SiC MOSFET<b class='flag-5'>量产</b>交付应用

    MAXIEYE量产数据里程超过10亿公里

    截至2025年6月,智驾科技MAXIEYE的海市数据智能系统后台收获了这样的崭新数据和成绩。
    的头像 发表于 06-24 09:30 1070次阅读

    中国传感器市场规模突破4000亿!工信部产业研究院最新数据出炉

    市场规模首次超过4000亿元——达4061.2亿元,同比增长11.4%。赛迪顾问预计,到2027年,中国传感器市场规模有望达到5793.4
    的头像 发表于 06-14 17:37 1948次阅读
    中国传感器市场<b class='flag-5'>规模</b>突破<b class='flag-5'>4000</b><b class='flag-5'>亿</b>!工信部产业研究院最新<b class='flag-5'>数据</b>出炉