0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

合成数据对于 AI 开发至关重要

靓仔峰 来源:靓仔峰 作者:靓仔峰 2022-07-20 10:58 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

今天的高级人工智能开发仍然深深植根于 1950 年代的计算机科学哲学,包括“垃圾进,垃圾出”这句话。这句格言提醒我们,人工智能模型的好坏取决于它所训练的数据。

从晚期癌症筛查到推荐一部新电影,数据科学家需要大量多样的数据集来训练 AI 模型。对于现实世界的数据来说,这可能是一个重大挑战。通常出于隐私原因受到保护,真实数据可能很难获得,而且获取成本也很高,而且可能不像预期的那样多样化。

pYYBAGLO7-aARthzAANkRyCROAU889.jpg


Rev Lebaredian(来源:英伟达

幸运的是,人工智能可以通过合成数据集自行救援——计算机生成的模拟可确保提供充足的多样化和匿名训练数据。数据是完全匿名的,可以使用各种方法创建,例如通用对抗网络或使用更多非 AI 程序的模拟器,以确保与真实数据非常相似。通过使用合成数据集,人工智能开发人员可以从更高性能和更健壮的模型中受益。

数据的骗局

随着开发人员达到现成数据的极限,他们很快将需要寻找其他地方来改进他们的模型。合成数据是计算机模拟或算法生成的信息,可替代现实世界的数据,以填补模型需求和数据可用性之间的差距。

数据科学家有很多方法可以生成合成数据。模拟和 3D 渲染是很好的起点。例如,一辆自动驾驶汽车通常是通过让它在真正的道路上行驶之前驾驶数千英里的虚拟道路来训练的。通用对抗网络,即创建新数据的生成模型,也可用于数据生产。多亏了这些,合成数据收集变得比以往任何时候都更容易获得和更有效。

分析公司 Gartner 最近报告*,合成数据正处于从一个杂耍变成未来人工智能背后的主要力量的轨道上。Gartner 在一项研究中指出,“合成数据通过允许较小的组织在没有大量数据的情况下创建 AI 模型,有效地解决了他们的冷启动问题,从而使竞争环境民主化。”

人工数据满足 AI 的关键需求
AI 已经无处不在,因为它已经通过智能设备和技术融入我们的生活,涵盖医疗保健、零售、娱乐、自动驾驶汽车、智能空间等领域,这些智能设备和技术正在加速我们走向未来。

将人工智能用作数字镜子是其发展的下一步。然而,特定环境中的变化可能是无数的。衬衫的颜色可能有多种色调和色调。房间的灯光随着太阳的移动或灯具的开启而变化。


这个隧道中车辆的场景使用了间接照明。这是一个难以实时准确渲染的场景示例,但在 Nvidia Drive Sim 中由 Nvidia Omniverse RTX 渲染器启用(来源:Nvidia)

捕捉条件的复杂性使得各种合成数据集对于 AI 模型制作至关重要。与从主要来源收集数据所需的时间和费用相比,可以收集合成数据为数字双胞胎提供动力。这可以最大限度地访问大量不同的数据,并增加免于隐私问题的好处。

Gartner 注意到这一人工智能资产的重要性,还指出,“合成数据通常被视为质量较低的替代品,只有在真实数据难以获取、价格昂贵或受到监管限制时才有用。这错过了合成数据的真正潜力。事实是,如果没有合成数据,您将无法构建高质量、高价值的 AI 模型。”

现实真的很随机

多样化的训练数据集是构建 AI 模型的关键,但现实世界的数据可能不足。域随机化的内置功能使机器人模拟应用程序和合成数据生成工具 Nvidia Isaac Sim 能够随机改变模拟中的纹理、颜色、照明和位置。

Nvidia Drive Sim 也是如此,这是一个用于测试自动驾驶汽车的模拟平台。它能够改变路牌的大小或语言或太阳的位置。

O'Reilly Media 的报告“使用合成数据加速 AI ”中强调了这些功能,该报告强调安全和效率是模拟中的优先事项。根据该报告,“使用合成数据可以解决的一些问题成本太高或太危险(例如,在训练模型控制自动驾驶汽车的情况下),无法使用更传统的方法解决,或者根本无法解决。”


Nvidia Isaac 模拟引擎创建了更好的逼真环境,并简化了合成数据生成和域随机化,为工程师和开发人员在广泛的应用程序中训练和部署机器人构建数据集(来源:Nvidia)

随机化条件(例如照明、颜色和对象放置)对于创建各种合成训练数据以实现更准确的 AI 模型至关重要。这些数字世界的变化反映了现实生活中经常出现的意外和不可预测的变化。

例如,在工厂中,当不同的工人处理同一个物体时,一个工人处理的物体可能最终处于不同的位置。在训练机器人如何使用合成数据和模拟在真实工厂中工作时,环境条件(如定位)的变化非常重要。这些能力使强大的智能工厂和城市的生产成为可能。

图形与人工智能之间的关键环节

除了虚拟城市和工厂,合成数据为计算机图形学的复兴铺平了道路,因为模拟 3D 世界现在是训练 AI 模型的关键组成部分。在 3D 世界中,物体应该下落,身体部位应该弯曲,皮肤应该被贴上纹理以与人类的所有运动部位非常相似。

个人在虚拟世界中出现的不同方式,具有自然的身体变化、面部特征和行为,说明了合成数据的真正力量。多样化的合成数据可以准确地弥合虚拟世界和现实世界之间的差距,其特征从万有引力定律到身体动作再到皮肤纹理。

人类因不同的肤色、反应和表情而彼此不同,这些都可以在媒体制作和数字复制品中展示。数字人类只是难题的一部分,因为照明和物体定位等环境条件在计算机图形和模拟中同样重要。

例如,自动驾驶汽车需要能够在太阳低落时做出反应,这可能会妨碍能见度。合成数据可以通过创建更真实的虚拟环境来帮助改善模拟世界,这些虚拟环境是真正的数字双胞胎。生成物理上准确的、基于物理的环境和人类极具挑战性,需要高级模拟、高性能计算资源和大量数据。


Nvidia Drive Sim 使用高保真和物理精确的模拟来创建一种安全、可扩展且具有成本效益的方式,将自动驾驶汽车带到我们的道路上(来源:Nvidia)

人工智能推进自己的未来

人工智能使用合成数据进行自我改进的能力使其成为一项独特而强大的技术。综合数据是提高用于高级模型和模拟的稳健训练数据的质量和数量的关键。

每一波人工智能创新都建立在上一波的基础上。合成数据的机会将超越其在当前人工智能应用中的应用,扩展到农业、自动驾驶汽车、医疗保健、机器人等行业。

在为 AI 开发数据源时,不要让“人工”和“合成”这两个词阻止您。数据可能是人为创建的,但结果对于真正的成功至关重要。很快,将出现一个极其精确的数字现实镜像,使用合成数据高效准确地构建。

——Rev Lebaredian 是 Nvidia 的仿真技术副总裁

*Gartner,“Maverick Research:忘记你的真实数据——合成数据是 AI 的未来”,Leinar Ramos,Jitendra Subramanyam,2021 年 6 月 24 日。


审核编辑 黄昊宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    89

    文章

    38090

    浏览量

    296536
  • 人工智能
    +关注

    关注

    1813

    文章

    49734

    浏览量

    261496
  • 先进技术
    +关注

    关注

    0

    文章

    24

    浏览量

    6398
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    利用NVIDIA Cosmos开放世界基础模型加速物理AI开发

    NVIDIA 最近发布了 NVIDIA Cosmos 开放世界基础模型(WFM)的更新,旨在加速物理 AI 模型的测试与验证数据生成。借助 NVIDIA Omniverse 库和 Cosmos,开发者可以大规模生成基于物理学的
    的头像 发表于 12-01 09:25 487次阅读

    NVIDIA GR00T-Dreams助力光轮智能革新合成数据

    人工演示或遥操作的数据收集方式,效率低下且受限于物理世界的诸多约束。而如今,光轮智能借助 NVIDIA GR00T-Dreams,成功开创了一个全新的合成数据生成体系,赋能具身 AI 的快速发展。
    的头像 发表于 08-20 14:29 1214次阅读

    破解数据瓶颈:智能汽车合成数据架构与应用实践

    合成数据因可控等特性,已成为智能汽车感知系统数据成本高、场景覆盖不足等困境的突破方向!。本文探讨其体系原则、分层结构,聚焦舱外道路感知与舱内乘员识别场景,阐述生成流程与实践,助力感知系统开发
    的头像 发表于 07-16 10:31 875次阅读
    破解<b class='flag-5'>数据</b>瓶颈:智能汽车<b class='flag-5'>合成数据</b>架构与应用实践

    破解数据瓶颈:智能汽车合成数据架构与应用实践

    智能汽车感知系统面临数据困境,如结构复杂、成本高昂、覆盖受限、合规性与隐私风险突出。合成数据作为新型数据生成方式,以高度可配置性、自动化、可复现为特点,有望解决这些问题。
    的头像 发表于 07-15 11:48 482次阅读
    破解<b class='flag-5'>数据</b>瓶颈:智能汽车<b class='flag-5'>合成数据</b>架构与应用实践

    51Sim利用NVIDIA Cosmos提升辅助驾驶合成数据场景的泛化性

    51Sim 利用 NVIDIA Cosmos 的生成式世界基础模型,对现有的合成数据进行大规模泛化,在确保物理真实性的前提下,大幅提升了数据的丰富度。同时依托 NVIDIA Issac Sim,将
    的头像 发表于 06-26 09:09 1064次阅读

    技术分享 | 高逼真合成数据助力智驾“看得更准、学得更快”

    自动驾驶研发如何高效获取海量训练数据?高逼真合成数据技术正在提供新解法。通过仿真平台可生成多场景、多传感器的精准标注数据。文章详解如何构建符合nuScenes标准的数据集,覆盖复杂交通
    的头像 发表于 04-29 10:47 3293次阅读
    技术分享 | 高逼真<b class='flag-5'>合成数据</b>助力智驾“看得更准、学得更快”

    Cadence颠覆AI数据中心设计

    ,当今新型数据中心(AI 工厂)的建设正面临着如何处理其巨大的功耗和散热问题的严峻挑战,数字孪生技术在这场变革中扮演着至关重要的角色。
    的头像 发表于 03-21 15:43 863次阅读

    技术分享 | AVM合成数据仿真验证方案

    AVM 合成数据仿真验证技术为自动驾驶环境感知发展带来助力,可借助仿真软件配置传感器、搭建环境、处理图像,生成 AVM 合成数据,有效加速算法验证。然而,如何利用仿真软件优化传感器外参与多场景验证,显著提升AVM算法表现?
    的头像 发表于 03-19 09:40 3491次阅读
    技术分享 | AVM<b class='flag-5'>合成数据</b>仿真验证方案

    敏捷合成器的技术原理和应用场景

    助于提高波形的纯度和稳定性。 相位噪声优化技术:通过优化合成器的内部结构和电路布局,降低相位噪声,提高信号的频谱纯度。这对于需要高精度和高稳定性的应用场景至关重要。 应用场景敏捷合成
    发表于 02-20 15:25

    当我问DeepSeek AI爆发时代的FPGA是否重要?答案是......

    提供了更高的能效比,这对于构建高效和可持续的AI解决方案至关重要。 • 适应不断发展的AI算法:AI领域的技术发展迅速,算法不断更新。FPG
    发表于 02-19 13:55

    为什么接地层和电源层对电路至关重要

    在电子电路设计领域,接地层和电源层对于模拟电路和数字电路都具有不可替代的关键作用。 对于模拟电路而言,接地层的重要性首先体现在信号参考方面。模拟电路处理的是连续变化的模拟信号,这些信号的幅度、频率等
    的头像 发表于 02-05 16:56 919次阅读

    NVIDIA发布Cosmos™平台,助力物理AI系统发展

    基础模型、高级tokenizer、护栏以及加速视频处理管线等多项先进技术。其中,Cosmos世界基础模型(WFM)是平台的核心,它使开发者能够轻松生成大量基于物理学的逼真合成数据。这些数据对于
    的头像 发表于 01-08 15:36 895次阅读

    车载总线通信数据开发工具 - VDE

    对车型开发至关重要。INTEWORK-VDE(Vehicle Database Editor)Cloud是一款基于B/S架构的车载总线通信数据库设计和管理系统。
    的头像 发表于 01-03 09:43 1266次阅读
    车载总线通信<b class='flag-5'>数据</b>库<b class='flag-5'>开发</b>工具 - VDE

    【「具身智能机器人系统」阅读体验】+数据在具身人工智能中的价值

    及限制。因此,真实数据合成数据的结合是克服 EAI 中数据可用性挑战的战略方法。 另外,收集的数据和生成的数据都必须经过时间和空间对齐,这
    发表于 12-24 00:33

    加密算法的选择对于加密安全有多重要

    加密算法的选择对于加密安全至关重要,因为它直接影响到数据保护的有效性和可靠性。以下是几个关键点来说明加密算法选择的重要性: 加密强度: 加密算法的加密强度直接关系到
    的头像 发表于 12-17 15:59 748次阅读