NVIDIA助力汤元科技突破智能驾驶数据获取与生成瓶颈-电子发烧友网

案例简介

苏州汤元科技有限公司（以下简称“汤元科技”）是一家专注于三维重建与世界模型的科技公司，为自动驾驶与具身智能提供高质量、多样化的训练数据。通过将自研的世界模型技术与NVIDIA Cosmos结合，实现真实物理世界的三维重建、场景泛化，并提升数据生成的效率与拟真度。

本案例主要应用NVIDIA GPU和 NVIDIA Cosmos 平台。

汤元科技成立于 2024 年 3 月，是一家专注于“世界模型 + AI”的创新型科技公司，致力于实现真实物理世界的三维重建与数据生成，推动物理 AI 的发展。公司核心业务是利用路侧传感器信息，将物理世界的全要素数字化重建，并以此构建高质量、可泛化的训练数据，服务于自动驾驶和具身智能等前沿领域。

在智能驾驶方向，汤元科技推出了自研的“Yootta 数据平台”，基于“Real2Sim2Real”的三维重建与视频扩散生成框架，将城市级多源感知数据自动化转化为多样化、高保真、结构一致的车侧视角训练数据。该框架能够涵盖不同天气、光照、道路结构等复杂场景。

传统三维重建受限于视角和环境，往往存在天空信息缺失及复杂场景泛化不足等问题。汤元科技通过引入 Cosmos，实现了缺失信息补全、多样化视角生成与复杂环境的泛化，为“感知在环”训练奠定了技术基础。

汤元科技基于 Cosmos 对交通场景的光照、天气、环境等进行重构。

智能驾驶数据获取与生成面临的挑战

数据是智能驾驶训练的燃料。在端到端和 VLA 等新一代技术体系推动下，智能驾驶对高质量、多样化、物理一致的训练数据提出了更高要求。当前，数据获取与生成面临多重挑战，成为制约技术突破的关键瓶颈。

1. 数据采集方式

传统依赖车队实采的方式存在高成本、低效率问题，且难以覆盖长尾场景；而纯生成式数据虽然成本低，但其物理一致性与行为真实度难以保障，难以满足模型对真实性和泛化能力的双重要求。通过路侧传感器采集数据并重建真实世界模型的方案，可以在满足智能驾驶对数据需求的同时，大幅降低采集成本。

2. 数据格式

智能驾驶的主流算法（如：端到端模型和 VLA 模型）需要“感知在环”的方式进行模型训练和测试。传统的智能驾驶数据集（如：nuScenes）是由自动驾驶车辆事先采集的日志数据，而非实时模拟环境。传感器信息一旦固定，当自动驾驶模型生成新的行驶轨迹后，传感器数据无法改变。因此，需要引入 4D场景数据，以便在车辆位姿变化时，能够重新渲染传感器视角下的数据。

3. 数据源本身

无论是路侧还是车载采集都存在物理限制。路侧设备受部署密度和视角范围影响，生成数据常缺乏天空等关键环境要素；而车载视角则受遮挡影响较大，存在重建障碍物几何信息缺失、姿态估计不准等问题。

左图为通过路侧相机重建后渲染的车端视角视频，天空因视角受限而缺失；右图为经Cosmos补全天空等缺失信息后，呈现完整场景。

面对上述挑战，汤元科技自研“Real2Sim2Real”三维重建与视频扩散生成框架，构建了以 3D Gaussian Splatting 为核心、动静分离建模为支撑的四维动态重建能力。通过对静态背景与动态物体的时序建模与融合，确保重建结果具备空间一致性与时间连续性。同时，结合 Cosmos，实现了缺失信息补全、多样化视角生成和复杂环境泛化，突破了传统数据生成的瓶颈。相较于传统采集方式，汤元科技的解决方案在三个维度实现了显著提升：

技术上，通过路侧传感器信息实现真实物理世界的还原，具备更优的纹理、几何与光照一致性以及新视角的时空一致性；

业务上，提升了对场景密度、行为模态、长尾交互的还原能力；

效率与成本上，依托路侧数据采集与自动生成，数据采集效率提升 5 倍，综合成本下降超 80%。

NVIDIA Cosmos 助力突破 4D 重建瓶颈

为了突破三维生成与四维重建在效率、质量及泛化能力上的瓶颈，汤元科技引入了 NVIDIA 最新的软硬件产品，包括多卡 GPU 集群、Cosmos 引擎与扩散模型，构建出一套高效、真实、稳定的 4D 数据生成与增强系统。其在自动驾驶及具身智能的数据供给中表现出显著优势，具体包括：

基于 Cosmos 的物理级光影建模，提升视觉真实感

利用 Cosmos 引擎，汤元科技在构建 4D 动态场景时实现了跨时间帧一致的光照与材质表现，显著解决了传统 4D 合成中光影不自然与材质漂移的问题，极大增强了视觉拟真度。

4D资产重建常因相机参数误差、稀疏视图和曝光不一致而导致质量下降。为此，汤元科技在初始车辆模型的360 度环视范围内采样虚拟视角，并借鉴NVIDIA扩散模型思路进行修复；修复后的视角图像进一步用于训练3D Gaussian Splatting（3DGS），从而提升车辆重建的几何精度与外观一致性。

2. 修复时空漂移，显著提升重建质量

针对 4D 重建中的跨帧结构漂移与纹理不一致问题，汤元科技结合 Cosmos-Transfer1-7B-Sample-AV 模型与扩散模型，进行了校正优化。在实际评估中，图像质量指标实现了大幅提升：

PSNR（峰值信噪比，Peak Signal-to-Noise Ratio）从 25.6 提升至 35.9

SSIM（结构相似性指标，Structural Similarity Index Measure）从 0.68 提升至 0.91

NTA-IoU（用于评估新视角的时空一致性，Novel Trajectory Agent IoU）从 0.613 提升至 0.804

LPIPS（感知相似性指标，Learned Perceptual Image Patch Similarity）从 0.137 降低至 0.021

FID（衡量生成图像与真实图像整体分布差异的指标，Frechet Inception Distance）从 130.4 降低至 23.1

这一提升在视觉质量、结构保真度与感知一致性方面均体现出突破性效果。

3. 高质量大规模风格迁移，实现数据泛化

通过 Cosmos 的风格迁移能力，汤元科技在保持空间结构稳定的前提下，生成了多样性极高的图像样本，实现超过 10 倍的数据增强效率。该能力有效覆盖了雨天、雪天、黄昏等边缘驾驶场景，极大拓展了模型的风格学习空间，显著提升了感知模型的泛化性能。

4. 打破“感知训练不在环”传统限制，实现“数据与模型”协同进化

传统感知模型的训练通常依赖于预先采集的静态离线数据集，这种离线训练方案难以适配VLA（Vision-Language-Action）、RL（Reinforcement Learning）等需“感知在环”的模型。对此，汤元科技基于Cosmos构建的可交互式训练数据平台，提出了针对性解决方案：通过对真实物理世界进行4D重建，可实时渲染生成任意新视角的传感器数据，从而精准满足“感知在环”对动态、多维度感知输入的核心需求。该方案突破了传统离线数据的局限，推动了需要与动态环境持续交互的智能驾驶相关模型（如VLA、RL）的研发进程。

借助 Cosmos 平台，汤元科技极大地提升了物理世界重建与泛化过程中的效率与精度。汤元科技还是 NVIDIA 初创加速计划的成员企业，得到了该项目的全方位支持。在技术方面，通过对 NVIDIA OpenUSD 课程的学习，提升了生成式模型构建与模块化 3D 资产利用能力。在市场与生态层面，通过参与 NVIDIA 初创加速计划的活动与演讲，不仅展示了技术实力，还拓展了合作伙伴网络，进一步提升了在世界模型与自动驾驶训练数据领域的影响力。

汤元科技联合创始人兼首席执行官任冬淳表示：“物理 AI 是未来最大的方向，所有的智能体都需具备感知、理解和执行的能力。在智能驾驶上，通过 Cosmos 的能力，我们可以更好、更快地交付客户所需的数据。同时，感谢 NVIDIA 初创加速计划，为我们开放了一个优秀的技术与市场平台，帮助我们连接产业资源、快速成长。”

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉