0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

知行科技大模型研发体系初见效果

知行科技iMotion 来源:知行科技iMotion 2024-12-27 09:38 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

数据的质量和规模才是端到端的“命脉”

11月,知行科技作为共同第一作者提出的Strong Vision Transformers Could BeExcellent Teachers(ScaleKD),以预训练ViT(视觉Transformer)模型作为教师,CNN网络作为学生进行学习。推进异构神经网络间知识蒸馏研究的具体范式/方法,被收录于NeurIPS 2024(第38届神经信息处理系统会议)。

这是知行科技构建大模型体系能力的初步成果之一。2024年年中,知行科技开始从资源、组织等多线程入手,打造面向大模型的研发架构体系,并完成组织架构调整,引入包括清华大学计算机博士背景的大模型架构师等多位大模型与自动驾驶领域专家,构建起对齐主流的研发组织架构和专家人才库,为2025落地端到端大模型系统上车做好准备。

01构建以数据为中心的开发体系

端到端让所有智驾玩家有机会重新站上起跑线,但做端到端的挑战并不全在于“模型”本身。

特斯拉FSD研发负责人Andrej Karpathy曾表示,特斯拉自动驾驶部门将3/4的精力用在采集、清洗、分类、标注高质量数据上,只有1/4用于算法探索和模型创建。究其原因,数据是人工智能发展的燃料,而端到端大模型将AI的“油耗”水平推到了新的高度。

“100万个视频 Case 训练,勉强够用;200万个,稍好一些;300万个,就会感到Wow;到了1000 万个,就变得难以置信了。”特斯拉创始人马斯克曾这样量化FSD的训练数据需求。

问题是,虽然人类活动生生不息,有效数据却不是源源不断。ChatGPT 3 的开发文档中提到,45TB的纯文本质量过滤后,仅获得570GB的文本,有效数据仅为1.27%。大语言和多模态模型领域已经开始出现高质量的真实文本、视频数据耗尽,性能撞墙的情况。

对自动驾驶来说,高质量的数据多来自罕见路况和场景,产生条件苛刻,导致样本量相对语言类更为稀缺,更是难以满足大模型的参数需求。

目前,端到端自动驾驶系统上车带来更上限的同时,也开始遭遇数据分布问题、高质量数据不足,导致的部分场景性能回退、困难场景性能不稳定的情况。

数据的质量和规模才是端到端的“命脉”。知行科技在进入端到端赛道时,决定构建“以数据为中心”的研发体系,用以满足大模型对高质量数据“贪婪”的特性。

知行科技重构研发组织架构,形成大模型、模型部署、基础设施、大数据等多模块在内的主流人工智能开发框架。其中,大模型组不仅在模型层面提供新的技术支持,在数据自动标注算法、基于扩散模型的数据生成、基于多模态大模型的数据挖掘方面也都有发力,以更低成本的数据生产为目标,保质保量地满足知行科技端到端大模型的数据需求。

02仿真数据,数据战争的下一步

当数据需求是百万clips起步时,应该如何打这场数据战争?

知行科技一方面强化自有数据采集和标注能力,并与生态伙伴形成一定程度的数据协同;

在数据采集方面,知行科技已自建采集车队,自主搭建数据采集软件、车端采集系统和后端耦合系统,实现数据采集全链条的自动化和高度可控,日采集效率达20万帧,为BEV行泊车功能闭环量产提供必要的数据支持。

在数据标注方面,知行科技已经建成自动化标注体系并在不断地完善,在OD(障碍物检测)、LD(车道线检测)项目中实现完全自动标注,整体减少至少50%的数据标注成本。

与此同时,面向端到端系统海量数据需求,知行科技则借助大模型的能力,探索仿真数据的产业应用前景。

12月,OpenAI和谷歌先后发布了视频产品,提供文本、图像、视频转视频的功能,展现出扩散模型等大模型对现实世界极强的复现和“改写”能力。事实上,包括特斯拉在内的自动驾驶头部玩家,也已正在加大仿真数据领域的投入。

因为,仿真数据在数据生产降本,和稀有场景数据获得方面,有着至关重要的作用:

经过良好预训练的大模型能够“向前”,渲染复制现实世界生成图像,并通过在虚拟世界中车辆动态摆放,仅用几分钟生成成千上万段仿真场景信息;

也能够“向后”推理,基于已有场景和环境信息,进行规划控制的学习,打通整个感知和规划链路;

此外,基于对物理世界的理解,大模型还能够通过改变场景中的关键数值,提升数采场景的有效比例。

目前,知行科技通过大模型进行数据生成已取得阶段性成果:能够使用原图进行天气,光照等条件的修改达到快速扩充真值的目标;通过给定特殊控制量,达到数据生产的目的。通过在自动标注和大模型数据生成方面的全面布局,知行科技在数据生产的降本和质量提升方面,已取得实质性进展。

此外,在数据挖掘方面,知行科技已初步建成ImoGPT-多模态大模型的安全解决方案,通过MoE(混合专家系统)大模型,进行文本理解、图片理解和视频理解。其将在实现场景可解释性、数据挖掘、端到端安全方案等多方面发挥重要作用。

03大模型,有教无类的“良师”

大模型可以是数据的生产者,也可以是端侧小模型的“好老师”。

如ChatGPT解释,凭借庞大的参数量和复杂的结构,大模型能够通过海量数据训练,发现新的、更高层次的特征和模式,表现出未能预测、更复杂的能力和特性,实现智能的涌现。“涌现能力”也是大模型扩大使用场景,提升泛化性的核心。但大模型也存在计算资源消耗巨大、推理速度慢、模型可解释性差的问题,难以被部署在计算和能耗都非常有限的端侧。

如何使端模型也获得相应的知识和泛化能力,知识蒸馏(Knowledge Distillation)技术应运而生:将大模型学到的知识迁移到一个更小的模型中,保持性能的同时降低模型部署难度和计算开销。

知行科技被NeurIPS 收录的ScaleKD,正是一种大模型知识蒸馏方法。

8c6d8532-c371-11ef-9310-92fbcf53809c.png

ScaleKD通过结合三个紧密耦合的组件(交叉注意力投影器,双视图特征模仿和教师参数感知),对齐云端教师模型和端侧学生模型之间的特征计算范式差异、型规模差异和知识密度差异,实现任何目标学生模型在大规模数据集上的时间密集的预训练范式。

这意味着,大模型能够作为“有教无类”的良师,将知识和规律“复制”到端侧模型,大幅提升其性能和泛化性。

从前沿学术研究出发,知行科技将根据实际中使用的端模型,构建对应的老师模型进行训练,获得更强的能力,从而通过知识蒸馏提高端模型的学习效果和速度。

端到端大模型的应用,为智能驾驶玩家带来重新开局的机会。中国的场景复杂性、市场需求,中国团队工程化和应用落地的能力,以及大模型技术领域不断涌现的新能力,使后来者能够快速、确定性地切入赛道。

知行科技着力构建的数据生产能力,积累的高质量数据,将为端到端模型训练提供源源不断的”燃料“,推动智驾功能从“能用”、“好用”,走向消费者“爱用”的未来。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 自动驾驶
    +关注

    关注

    794

    文章

    14976

    浏览量

    181346
  • 知行科技
    +关注

    关注

    1

    文章

    89

    浏览量

    4289
  • 大模型
    +关注

    关注

    2

    文章

    3747

    浏览量

    5268

原文标题:备战端到端,知行科技大模型研发体系初见效果

文章出处:【微信号:gh_dd1765c34afb,微信公众号:知行科技iMotion】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    315曝光GEO黑产:3000元起“投毒” AI大模型,一周见效

    异化为 “数据投毒” 工具,通过系统性投放虚假信息,操控 AI 大模型的推荐结果,让虚构产品成为 AI 口中的 “标准答案”。   并且,这样的行为被明码标价:“3000 元起,一周见效,主流 AI 大模型里,你的产品能稳坐前三
    的头像 发表于 03-17 13:38 7508次阅读

    中小车企 ASPICE 落地实战:低成本高效能研发体系搭建

    ” 原则,搭建轻量化 CICD 持续集成流程,通过专业培训让团队掌握 MBSE、ISTQB、需求分析等核心技能,为流程落地提供坚实的能力支撑 四、ADAPT 模型研发体系分阶段演进落地 中小车企
    发表于 04-13 10:48

    一贴就见效,谁用谁知道!

    一前言一贴就见效,谁用谁知道!今天小编讲述一款理论产品落地的灵丹妙药——吸波材料。其实吸波材料在最近几年的发展非常迅速,从最开始航天军工的应用,到逐渐民用商用化,产品也不断迭代,成本和效果逐渐被市场
    的头像 发表于 03-31 11:34 1029次阅读
    一贴就<b class='flag-5'>见效</b>,谁用谁知道!

    知行科技如何用小算力跻身第一梯队

    当时当刻,量产Deadline、模型算法高上限低下限的特性,还有全行业追高阶、追标配的焦灼气氛都沉沉地压在知行科技泊车团队每个同学心头,天还没亮,每个人都在咬牙坚持。
    的头像 发表于 12-25 09:21 616次阅读

    知行科技亮相2025地平线技术生态大会

    12月8日、9日,知行科技作为地平线征程6BEM系列芯片软硬件合作伙伴亮相地平线技术生态大会,并展出了基于征程6BEM系列芯片打造的组合辅助驾驶解决方案,覆盖主动安全到高阶领航功能;同时,知行科技iRC100P具身AI BOX也亮相大会,成为
    的头像 发表于 12-12 12:50 1454次阅读

    车百会理事长张永伟赴知行科技调研交流

    近日,车百会理事长张永伟率队前往知行科技参访,与知行科技创始人、董事长兼CEO宋阳及创始团队就辅助驾驶、具身智能、中国供应链出海等话题进行了深入交流,并参观知行科技最新技术成果和智造基地。
    的头像 发表于 12-01 16:48 665次阅读

    国际权威认证加持!“全球Robotaxi第一股”文远知行筑牢隐私安全屏障

    ,成功斩获 ISO/IEC 27701:2019 隐私信息管理体系认证。这一成果不仅是对文远知行在信息安全与隐私保护领域长期投入的肯定,更标志着该企业的隐私管理体系已达到国际领先水平,为自动驾驶行业树立了隐私保护的标杆。
    的头像 发表于 11-02 09:34 637次阅读
    国际权威认证加持!“全球Robotaxi第一股”文远<b class='flag-5'>知行</b>筑牢隐私安全屏障

    商汤绝影亮相汽车之家全球AI科技大

    近日,由汽车之家主办的「汽车之家全球AI科技大会」在北京举行。商汤科技联合创始人、执行董事、CTO、商汤绝影CEO王晓刚出席大会,并发表《世界模型:智能驾驶范式演进新路标》主题演讲,分享了“绝影开悟”世界模型给智能驾驶带来的技术
    的头像 发表于 09-29 14:09 762次阅读

    土耳其中东科技大学科技园到访智行者

    近日,智行者迎来土耳其中东科技大学科技园总经理Serdar Alemdar先生到访。中东科技大学成立于1956年,是土耳其最负盛名的大学之一。中东科技大学科技园作为土耳其乃至整个中东地区最著名
    的头像 发表于 09-24 17:23 1313次阅读

    知行科技机器人业务新获一项合作

    近日,知行科技的机器人业务新获一项合作,国内头部机器人公司委托开发背包式机器人全栈解决方案。
    的头像 发表于 09-03 18:12 950次阅读

    电子科技大学深圳高等研究院领导莅临景嘉微调研考察

    近日,电子科技大学(深圳)高等研究院党委书记邹见效率队莅临景嘉微进行调研考察。随行领导包括高等研究院院长助理、人力资源中心主任高晶,科研发展中心主任王柯,以及先进技术研究院副院长刘蓉等。景嘉微董事长兼总裁曾万辉,副总经理曹泽文,
    的头像 发表于 07-15 14:49 1255次阅读

    知行科技30天内获得14款车型定点

    近日,知行科技收到某头部自主品牌5款车型的定点函,包括主流量产乘用车和商用车等多种车型。知行科技将为其提供iDC辅助驾驶域控和iFC前视一体机等多种解决方案,充分满足不同车型定位,和海内外市场的差异化需求。
    的头像 发表于 07-15 10:30 926次阅读

    探索吉他音色与效果器的奇妙世界(3)- 时延和哇音效果

    本文是第二届电力电子科普征文大赛的获奖作品,来自上海科技大学李晨曦的投稿。时延类效果器如果失真类效果器是拿信号的幅值开刀,那么时延类效果器则是在信号的时域特性上做文章。根据原理的不同,
    的头像 发表于 06-14 10:00 1766次阅读
    探索吉他音色与<b class='flag-5'>效果</b>器的奇妙世界(3)- 时延和哇音<b class='flag-5'>效果</b>器

    《中国企业家》专访文远知行CEO韩旭:Uber认可文远知行技术具有领先性

    近日,文远知行创始人兼CEO韩旭在接受《中国企业家》杂志采访时,对公司未来发展充满信心,着重强调了文远知行在自动驾驶领域的领先地位,尤其是在与Uber深化合作及安全技术方面的卓越表现。“Uber
    的头像 发表于 05-15 14:53 947次阅读
    《中国企业家》专访文远<b class='flag-5'>知行</b>CEO韩旭:Uber认可文远<b class='flag-5'>知行</b>技术具有领先性

    知行科技全资子公司拟收购小工匠机器人大部分股份

    近日,知行科技旗下专注机器人研发及商业化的全资子公司艾摩星机器人与苏州小工匠机器人有限公司(“小工匠”)签署股权转让框架协议,艾摩星机器人将出资收购小工匠大部分股份,成为控股股东。以此为开端,知行科技正快速提升在机器人关键部件层
    的头像 发表于 05-13 14:51 1147次阅读