0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA助力汤元科技突破智能驾驶数据获取与生成瓶颈

NVIDIA英伟达 来源:NVIDIA英伟达 2025-09-06 15:16 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

案例简介

苏州汤元科技有限公司(以下简称“汤元科技”)是一家专注于三维重建与世界模型的科技公司,为自动驾驶与具身智能提供高质量、多样化的训练数据。通过将自研的世界模型技术与NVIDIA Cosmos结合,实现真实物理世界的三维重建、场景泛化,并提升数据生成的效率与拟真度。

本案例主要应用NVIDIA GPU和 NVIDIA Cosmos 平台。

汤元科技成立于 2024 年 3 月,是一家专注于“世界模型 + AI”的创新型科技公司,致力于实现真实物理世界的三维重建与数据生成,推动物理 AI 的发展。公司核心业务是利用路侧传感器信息,将物理世界的全要素数字化重建,并以此构建高质量、可泛化的训练数据,服务于自动驾驶和具身智能等前沿领域。

在智能驾驶方向,汤元科技推出了自研的“Yootta 数据平台”,基于“Real2Sim2Real”的三维重建与视频扩散生成框架,将城市级多源感知数据自动化转化为多样化、高保真、结构一致的车侧视角训练数据。该框架能够涵盖不同天气、光照、道路结构等复杂场景。

传统三维重建受限于视角和环境,往往存在天空信息缺失及复杂场景泛化不足等问题。汤元科技通过引入 Cosmos,实现了缺失信息补全、多样化视角生成与复杂环境的泛化,为“感知在环”训练奠定了技术基础。

汤元科技基于 Cosmos 对交通场景的光照、天气、环境等进行重构。

智能驾驶数据获取与生成面临的挑战

数据是智能驾驶训练的燃料。在端到端和 VLA 等新一代技术体系推动下,智能驾驶对高质量、多样化、物理一致的训练数据提出了更高要求。当前,数据获取与生成面临多重挑战,成为制约技术突破的关键瓶颈。

1. 数据采集方式

传统依赖车队实采的方式存在高成本、低效率问题,且难以覆盖长尾场景;而纯生成式数据虽然成本低,但其物理一致性与行为真实度难以保障,难以满足模型对真实性和泛化能力的双重要求。通过路侧传感器采集数据并重建真实世界模型的方案,可以在满足智能驾驶对数据需求的同时,大幅降低采集成本。

2. 数据格式

智能驾驶的主流算法(如:端到端模型和 VLA 模型)需要“感知在环”的方式进行模型训练和测试。传统的智能驾驶数据集(如:nuScenes)是由自动驾驶车辆事先采集的日志数据,而非实时模拟环境。传感器信息一旦固定,当自动驾驶模型生成新的行驶轨迹后,传感器数据无法改变。因此,需要引入 4D场景数据,以便在车辆位姿变化时,能够重新渲染传感器视角下的数据。

3. 数据源本身

无论是路侧还是车载采集都存在物理限制。路侧设备受部署密度和视角范围影响,生成数据常缺乏天空等关键环境要素;而车载视角则受遮挡影响较大,存在重建障碍物几何信息缺失、姿态估计不准等问题。

左图为通过路侧相机重建后渲染的车端视角视频,天空因视角受限而缺失;右图为经Cosmos补全天空等缺失信息后,呈现完整场景。

面对上述挑战,汤元科技自研“Real2Sim2Real”三维重建与视频扩散生成框架,构建了以 3D Gaussian Splatting 为核心、动静分离建模为支撑的四维动态重建能力。通过对静态背景与动态物体的时序建模与融合,确保重建结果具备空间一致性与时间连续性。同时,结合 Cosmos,实现了缺失信息补全、多样化视角生成和复杂环境泛化,突破了传统数据生成的瓶颈。相较于传统采集方式,汤元科技的解决方案在三个维度实现了显著提升:

技术上,通过路侧传感器信息实现真实物理世界的还原,具备更优的纹理、几何与光照一致性以及新视角的时空一致性;

业务上,提升了对场景密度、行为模态、长尾交互的还原能力;

效率与成本上,依托路侧数据采集与自动生成,数据采集效率提升 5 倍,综合成本下降超 80%。

NVIDIA Cosmos 助力突破 4D 重建瓶颈

为了突破三维生成与四维重建在效率、质量及泛化能力上的瓶颈,汤元科技引入了 NVIDIA 最新的软硬件产品,包括多卡 GPU 集群、Cosmos 引擎与扩散模型,构建出一套高效、真实、稳定的 4D 数据生成与增强系统。其在自动驾驶及具身智能的数据供给中表现出显著优势,具体包括:

基于 Cosmos 的物理级光影建模,提升视觉真实感

利用 Cosmos 引擎,汤元科技在构建 4D 动态场景时实现了跨时间帧一致的光照与材质表现,显著解决了传统 4D 合成中光影不自然与材质漂移的问题,极大增强了视觉拟真度。

4D资产重建常因相机参数误差、稀疏视图和曝光不一致而导致质量下降。为此,汤元科技在初始车辆模型的360 度环视范围内采样虚拟视角,并借鉴NVIDIA扩散模型思路进行修复;修复后的视角图像进一步用于训练3D Gaussian Splatting(3DGS),从而提升车辆重建的几何精度与外观一致性。

2. 修复时空漂移,显著提升重建质量

针对 4D 重建中的跨帧结构漂移与纹理不一致问题,汤元科技结合 Cosmos-Transfer1-7B-Sample-AV 模型与扩散模型,进行了校正优化。在实际评估中,图像质量指标实现了大幅提升:

PSNR(峰值信噪比,Peak Signal-to-Noise Ratio)从 25.6 提升至 35.9

SSIM(结构相似性指标,Structural Similarity Index Measure)从 0.68 提升至 0.91

NTA-IoU(用于评估新视角的时空一致性,Novel Trajectory Agent IoU)从 0.613 提升至 0.804

LPIPS(感知相似性指标,Learned Perceptual Image Patch Similarity)从 0.137 降低至 0.021

FID(衡量生成图像与真实图像整体分布差异的指标,Frechet Inception Distance)从 130.4 降低至 23.1

这一提升在视觉质量、结构保真度与感知一致性方面均体现出突破性效果。

3. 高质量大规模风格迁移,实现数据泛化

通过 Cosmos 的风格迁移能力,汤元科技在保持空间结构稳定的前提下,生成了多样性极高的图像样本,实现超过 10 倍的数据增强效率。该能力有效覆盖了雨天、雪天、黄昏等边缘驾驶场景,极大拓展了模型的风格学习空间,显著提升了感知模型的泛化性能。

4. 打破“感知训练不在环”传统限制,实现“数据与模型”协同进化

传统感知模型的训练通常依赖于预先采集的静态离线数据集,这种离线训练方案难以适配VLA(Vision-Language-Action)、RL(Reinforcement Learning)等需“感知在环”的模型。对此,汤元科技基于Cosmos构建的可交互式训练数据平台,提出了针对性解决方案:通过对真实物理世界进行4D重建,可实时渲染生成任意新视角的传感器数据,从而精准满足“感知在环”对动态、多维度感知输入的核心需求。该方案突破了传统离线数据的局限,推动了需要与动态环境持续交互的智能驾驶相关模型(如VLA、RL)的研发进程。

借助 Cosmos 平台,汤元科技极大地提升了物理世界重建与泛化过程中的效率与精度。汤元科技还是 NVIDIA 初创加速计划的成员企业,得到了该项目的全方位支持。在技术方面,通过对 NVIDIA OpenUSD 课程的学习,提升了生成式模型构建与模块化 3D 资产利用能力。在市场与生态层面,通过参与 NVIDIA 初创加速计划的活动与演讲,不仅展示了技术实力,还拓展了合作伙伴网络,进一步提升了在世界模型与自动驾驶训练数据领域的影响力。

汤元科技联合创始人兼首席执行官任冬淳表示:“物理 AI 是未来最大的方向,所有的智能体都需具备感知、理解和执行的能力。在智能驾驶上,通过 Cosmos 的能力,我们可以更好、更快地交付客户所需的数据。同时,感谢 NVIDIA 初创加速计划,为我们开放了一个优秀的技术与市场平台,帮助我们连接产业资源、快速成长。”

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5750

    浏览量

    110426
  • AI
    AI
    +关注

    关注

    91

    文章

    42413

    浏览量

    303368
  • 模型
    +关注

    关注

    1

    文章

    3892

    浏览量

    52397
  • 智能驾驶
    +关注

    关注

    5

    文章

    3076

    浏览量

    51467

原文标题:初创加速计划 | NVIDIA 助力汤元科技,借助 Cosmos 推动物理 AI 与智能驾驶数据生成

文章出处:【微信号:NVIDIA_China,微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    NVIDIA 推出适用于无人驾驶出租车的 Alpamayo 2 Super 开放推理模型

    ,根据其在仿真环境中的驾驶决策产生的结果进行训练。 ·NVIDIA OmniDreams 是全新的生成式世界模型,能够生成逼真的闭
    的头像 发表于 06-01 15:22 506次阅读
    <b class='flag-5'>NVIDIA</b> 推出适用于无人<b class='flag-5'>驾驶</b>出租车的 Alpamayo 2 Super 开放推理模型

    Adobe智能体携手NVIDIA与WPP打造突破性创意平台

    NVIDIA OpenShell 运行时提供安全保障的创意 AI 智能体可生成符合品牌风格的内容,重塑了品牌创建、个性化和激活内容的方式。
    的头像 发表于 04-27 15:30 473次阅读

    安森美多系列功率器件产品助力突破AI数据中心能效瓶颈

    随着 AI 算力需求的爆发式增长,数据中心正面临功率密度激增、能耗加剧及行业效率标准日趋严苛的多重考验。作为功率器件领域的领导厂商,安森美(onsemi)如何助力客户突破能效瓶颈,以下
    的头像 发表于 01-24 17:04 2582次阅读

    友思特方案 | 突破 Jetson平台的接口性能瓶颈,Gidel 基于FPGA的高速边缘AI视觉系统

    友思特合作伙伴Gidel FantoVision 成功突破 Jetson I/O 性能瓶颈助力开发者毫无妥协地将像素数据转化为智能算力,实
    的头像 发表于 01-13 10:22 2206次阅读
    友思特方案 | <b class='flag-5'>突破</b> Jetson平台的接口性能<b class='flag-5'>瓶颈</b>,Gidel 基于FPGA的高速边缘AI视觉系统

    NVIDIA Jetson系列开发者套件助力打造面向未来的智能机器人

    NVIDIA Jetson AGX Thor、AGX Orin 以及 Jetson Orin Nano Super 开发者套件,助力打造面向未来的智能机器人。
    的头像 发表于 12-13 10:20 3530次阅读

    深圳南柯电子|医疗电子EMC整改:助力突破EMC瓶颈的&quot;三阶五步法&quot;

    深圳南柯电子|医疗电子EMC整改:助力突破EMC瓶颈的"三阶五步法"
    的头像 发表于 11-18 09:56 731次阅读

    NVIDIA助力枢途科技突破视频提取具身数据技术鸿沟

    技术,加速了从互联网视频提取具身智能模型训练数据,实现了从视频三维大世界重建、任务语义信息理解、物体细节及轨迹提取、多模态数据采集、具身智能算法训练的全链路打通。
    的头像 发表于 08-30 16:11 2088次阅读

    NVIDIA GR00T-Dreams助力光轮智能革新合成数据

    人工演示或遥操作的数据收集方式,效率低下且受限于物理世界的诸多约束。而如今,光轮智能借助 NVIDIA GR00T-Dreams,成功开创了一个全新的合成数据
    的头像 发表于 08-20 14:29 1880次阅读

    汇川技术助力土耳其电梯厂商突破技术瓶颈

    土耳其Top 3电梯厂商Yükseliş冲击高端市场,却受困于高速梯核心技术瓶颈与海外方案落地难,项目一度搁浅。如何破局?本期《千行百业有汇川》走进土耳其,看汇川技术如何以自研13m/s高速梯系统方案,助力客户高效落地项目,成功将国产高端方案带入国际核心市场。
    的头像 发表于 08-14 13:01 1464次阅读

    加速AI未来,睿海光电800G OSFP光模块重构数据中心互联标准

    在人工智能算力需求呈指数级增长的2025年,数据传输效率已成为制约AI发展的关键瓶颈。作为全球AI光模块领域的标杆企业,深圳市睿海光电凭借技术领先的800G OSFP光模块解决方案,正在重新
    发表于 08-13 16:38

    生成式 AI 重塑自动驾驶仿真:4D 场景生成技术的突破与实践

    生成式AI驱动的4D场景技术正解决传统方法效率低、覆盖不足等痛点,如何通过NeRF、3D高斯泼溅等技术实现高保真动态建模?高效生成极端天气等长尾场景?本文为您系统梳理AI驱动的4D场景生成体系及其在自动
    的头像 发表于 08-06 11:20 5523次阅读
    <b class='flag-5'>生成</b>式 AI 重塑自动<b class='flag-5'>驾驶</b>仿真:4D 场景<b class='flag-5'>生成</b>技术的<b class='flag-5'>突破</b>与实践

    NVIDIA AI助力科学研究领域持续突破

    随着 AI 技术的广泛应用,AI 正在成为科学研究的引擎。NVIDIA 作为重要的技术推手,持续驱动着 AI 系统解锁更多领域的科学突破
    的头像 发表于 08-05 16:30 1390次阅读

    破解数据瓶颈智能汽车合成数据架构与应用实践

    合成数据因可控等特性,已成为智能汽车感知系统数据成本高、场景覆盖不足等困境的突破方向!。本文探讨其体系原则、分层结构,聚焦舱外道路感知与舱内乘员识别场景,阐述
    的头像 发表于 07-16 10:31 1295次阅读
    破解<b class='flag-5'>数据</b><b class='flag-5'>瓶颈</b>:<b class='flag-5'>智能</b>汽车合成<b class='flag-5'>数据</b>架构与应用实践

    51Sim利用NVIDIA Cosmos提升辅助驾驶合成数据场景的泛化性

    51Sim 利用 NVIDIA Cosmos 的生成式世界基础模型,对现有的合成数据进行大规模泛化,在确保物理真实性的前提下,大幅提升了数据的丰富度。同时依托
    的头像 发表于 06-26 09:09 1795次阅读

    使用NVIDIA Earth-2生成式AI基础模型革新气候建模

    NVIDIA 正通过 cBottle(Climate in a Bottle 的简称)为这项工作带来新的突破,这是全球首个专为以公里尺度分辨率模拟全球气候而设计的生成式 AI 基础模型。
    的头像 发表于 06-12 15:54 1556次阅读