0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

合成数据对于 AI 开发至关重要

靓仔峰 来源:靓仔峰 作者:靓仔峰 2022-07-20 10:58 次阅读

今天的高级人工智能开发仍然深深植根于 1950 年代的计算机科学哲学,包括“垃圾进,垃圾出”这句话。这句格言提醒我们,人工智能模型的好坏取决于它所训练的数据。

从晚期癌症筛查到推荐一部新电影,数据科学家需要大量多样的数据集来训练 AI 模型。对于现实世界的数据来说,这可能是一个重大挑战。通常出于隐私原因受到保护,真实数据可能很难获得,而且获取成本也很高,而且可能不像预期的那样多样化。

pYYBAGLO7-aARthzAANkRyCROAU889.jpg


Rev Lebaredian(来源:英伟达

幸运的是,人工智能可以通过合成数据集自行救援——计算机生成的模拟可确保提供充足的多样化和匿名训练数据。数据是完全匿名的,可以使用各种方法创建,例如通用对抗网络或使用更多非 AI 程序的模拟器,以确保与真实数据非常相似。通过使用合成数据集,人工智能开发人员可以从更高性能和更健壮的模型中受益。

数据的骗局

随着开发人员达到现成数据的极限,他们很快将需要寻找其他地方来改进他们的模型。合成数据是计算机模拟或算法生成的信息,可替代现实世界的数据,以填补模型需求和数据可用性之间的差距。

数据科学家有很多方法可以生成合成数据。模拟和 3D 渲染是很好的起点。例如,一辆自动驾驶汽车通常是通过让它在真正的道路上行驶之前驾驶数千英里的虚拟道路来训练的。通用对抗网络,即创建新数据的生成模型,也可用于数据生产。多亏了这些,合成数据收集变得比以往任何时候都更容易获得和更有效。

分析公司 Gartner 最近报告*,合成数据正处于从一个杂耍变成未来人工智能背后的主要力量的轨道上。Gartner 在一项研究中指出,“合成数据通过允许较小的组织在没有大量数据的情况下创建 AI 模型,有效地解决了他们的冷启动问题,从而使竞争环境民主化。”

人工数据满足 AI 的关键需求
AI 已经无处不在,因为它已经通过智能设备和技术融入我们的生活,涵盖医疗保健、零售、娱乐、自动驾驶汽车、智能空间等领域,这些智能设备和技术正在加速我们走向未来。

将人工智能用作数字镜子是其发展的下一步。然而,特定环境中的变化可能是无数的。衬衫的颜色可能有多种色调和色调。房间的灯光随着太阳的移动或灯具的开启而变化。


这个隧道中车辆的场景使用了间接照明。这是一个难以实时准确渲染的场景示例,但在 Nvidia Drive Sim 中由 Nvidia Omniverse RTX 渲染器启用(来源:Nvidia)

捕捉条件的复杂性使得各种合成数据集对于 AI 模型制作至关重要。与从主要来源收集数据所需的时间和费用相比,可以收集合成数据为数字双胞胎提供动力。这可以最大限度地访问大量不同的数据,并增加免于隐私问题的好处。

Gartner 注意到这一人工智能资产的重要性,还指出,“合成数据通常被视为质量较低的替代品,只有在真实数据难以获取、价格昂贵或受到监管限制时才有用。这错过了合成数据的真正潜力。事实是,如果没有合成数据,您将无法构建高质量、高价值的 AI 模型。”

现实真的很随机

多样化的训练数据集是构建 AI 模型的关键,但现实世界的数据可能不足。域随机化的内置功能使机器人模拟应用程序和合成数据生成工具 Nvidia Isaac Sim 能够随机改变模拟中的纹理、颜色、照明和位置。

Nvidia Drive Sim 也是如此,这是一个用于测试自动驾驶汽车的模拟平台。它能够改变路牌的大小或语言或太阳的位置。

O'Reilly Media 的报告“使用合成数据加速 AI ”中强调了这些功能,该报告强调安全和效率是模拟中的优先事项。根据该报告,“使用合成数据可以解决的一些问题成本太高或太危险(例如,在训练模型控制自动驾驶汽车的情况下),无法使用更传统的方法解决,或者根本无法解决。”


Nvidia Isaac 模拟引擎创建了更好的逼真环境,并简化了合成数据生成和域随机化,为工程师和开发人员在广泛的应用程序中训练和部署机器人构建数据集(来源:Nvidia)

随机化条件(例如照明、颜色和对象放置)对于创建各种合成训练数据以实现更准确的 AI 模型至关重要。这些数字世界的变化反映了现实生活中经常出现的意外和不可预测的变化。

例如,在工厂中,当不同的工人处理同一个物体时,一个工人处理的物体可能最终处于不同的位置。在训练机器人如何使用合成数据和模拟在真实工厂中工作时,环境条件(如定位)的变化非常重要。这些能力使强大的智能工厂和城市的生产成为可能。

图形与人工智能之间的关键环节

除了虚拟城市和工厂,合成数据为计算机图形学的复兴铺平了道路,因为模拟 3D 世界现在是训练 AI 模型的关键组成部分。在 3D 世界中,物体应该下落,身体部位应该弯曲,皮肤应该被贴上纹理以与人类的所有运动部位非常相似。

个人在虚拟世界中出现的不同方式,具有自然的身体变化、面部特征和行为,说明了合成数据的真正力量。多样化的合成数据可以准确地弥合虚拟世界和现实世界之间的差距,其特征从万有引力定律到身体动作再到皮肤纹理。

人类因不同的肤色、反应和表情而彼此不同,这些都可以在媒体制作和数字复制品中展示。数字人类只是难题的一部分,因为照明和物体定位等环境条件在计算机图形和模拟中同样重要。

例如,自动驾驶汽车需要能够在太阳低落时做出反应,这可能会妨碍能见度。合成数据可以通过创建更真实的虚拟环境来帮助改善模拟世界,这些虚拟环境是真正的数字双胞胎。生成物理上准确的、基于物理的环境和人类极具挑战性,需要高级模拟、高性能计算资源和大量数据。


Nvidia Drive Sim 使用高保真和物理精确的模拟来创建一种安全、可扩展且具有成本效益的方式,将自动驾驶汽车带到我们的道路上(来源:Nvidia)

人工智能推进自己的未来

人工智能使用合成数据进行自我改进的能力使其成为一项独特而强大的技术。综合数据是提高用于高级模型和模拟的稳健训练数据的质量和数量的关键。

每一波人工智能创新都建立在上一波的基础上。合成数据的机会将超越其在当前人工智能应用中的应用,扩展到农业、自动驾驶汽车、医疗保健、机器人等行业。

在为 AI 开发数据源时,不要让“人工”和“合成”这两个词阻止您。数据可能是人为创建的,但结果对于真正的成功至关重要。很快,将出现一个极其精确的数字现实镜像,使用合成数据高效准确地构建。

——Rev Lebaredian 是 Nvidia 的仿真技术副总裁

*Gartner,“Maverick Research:忘记你的真实数据——合成数据是 AI 的未来”,Leinar Ramos,Jitendra Subramanyam,2021 年 6 月 24 日。


审核编辑 黄昊宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    87

    文章

    26472

    浏览量

    264107
  • 人工智能
    +关注

    关注

    1776

    文章

    43899

    浏览量

    230646
  • 先进技术
    +关注

    关注

    0

    文章

    22

    浏览量

    6179
收藏 人收藏

    评论

    相关推荐

    什么是网络时钟同步?为什么它对5G网络至关重要

    什么是网络时钟同步?为什么它对5G网络至关重要? 网络时钟同步是指将计算机网络中各个设备的时钟进行同步,使得网络中的设备都可以基于同一个时间参考点进行操作和通信。网络时钟同步对于5G网络的重要性不可
    的头像 发表于 01-16 16:03 315次阅读

    Arm携手Cadence加速AI时代芯片开发

    随着人工智能 (AI) 的快速发展,使用经优化的芯片对于打造新一代应用至关重要
    的头像 发表于 01-04 14:08 652次阅读

    半导体行业迈入"材料时代",创新材料至关重要

    他强调了材料领域的创新对于提升半导体元件生产效率至关重要。对此,默克集团电子业务总经理凯·贝克曼 (Kai Beckmann) 亦持相同看法,并赞同未来十年将以“材料时代”为主导。
    的头像 发表于 12-27 14:52 197次阅读

    为什么ESD静电防护区域的湿度至关重要

    为什么ESD静电防护区域的湿度至关重要? ESD静电防护区域的湿度至关重要的原因有以下几个方面: 1. 电子器件对湿度的敏感性: 大多数电子器件对湿度非常敏感。特别是集成电路和敏感元件
    的头像 发表于 12-20 13:45 530次阅读

    如何训练自主移动机器人使用合成数据检测仓库托盘千斤顶

    在训练那些部署在自主移动机器人(AMR)上的感知 AI 模型时,合成数据可以发挥关键作用。这一过程在制造业中变得越来越重要。有关使用合成数据生成预训练模型,用于检测仓库中托盘的示例,可
    的头像 发表于 11-09 10:45 180次阅读
    如何训练自主移动机器人使用<b class='flag-5'>合成数据</b>检测仓库托盘千斤顶

    语音合成数据的收集与处理:挑战与技术

    语音合成数据的质量和多样性对于开发高性能语音合成模型至关重要。本文将深入探讨语音合成数据的收集和
    的头像 发表于 09-09 23:26 302次阅读

    为什么IAR编译器对开源ISA:RISC-V业务至关重要

    为什么IAR编译器对开源ISA:RISC-V业务至关重要? 演讲ppt分享
    发表于 07-14 17:15 2次下载

    TinyML:使用合成数据的永远在线的音频分类器

    电子发烧友网站提供《TinyML:使用合成数据的永远在线的音频分类器.zip》资料免费下载
    发表于 07-13 09:55 0次下载
    TinyML:使用<b class='flag-5'>合成数据</b>的永远在线的音频分类器

    合成数据的不合理有效性

    电子发烧友网站提供《合成数据的不合理有效性.zip》资料免费下载
    发表于 07-13 09:29 0次下载
    <b class='flag-5'>合成数据</b>的不合理有效性

    TinyML:使用ChatGPT和合成数据检测婴儿哭声

    电子发烧友网站提供《TinyML:使用ChatGPT和合成数据检测婴儿哭声.zip》资料免费下载
    发表于 07-13 08:30 1次下载
    TinyML:使用ChatGPT和<b class='flag-5'>合成数据</b>检测婴儿哭声

    Rendered.ai 将 NVIDIA Omniverse 集成到其合成数据生成平台

    合成数据生成(SDG)平台即服务(PaaS)为开发者、数据科学家等人员简化 AI 训练。 训练计算机视觉 AI 模型需要大量高质量、多样化
    的头像 发表于 07-12 19:10 336次阅读
    Rendered.<b class='flag-5'>ai</b> 将 NVIDIA Omniverse 集成到其<b class='flag-5'>合成数据</b>生成平台

    语音合成技术与语音合成数据,赋予声音新的可能性

    随着科技的不断进步,语音合成技术成为人机交互和智能应用领域的重要创新。在这个领域中,语音合成数据扮演着至关重要的角色,为技术的发展提供了关键的支持和驱动力。 语音
    的头像 发表于 06-28 23:56 341次阅读

    用于对象检测的合成数据生成

    电子发烧友网站提供《用于对象检测的合成数据生成.zip》资料免费下载
    发表于 06-25 11:00 0次下载
    用于对象检测的<b class='flag-5'>合成数据</b>生成

    语音合成数据重要性:打造自然流畅的语音合成体验

    语音合成技术的快速发展为我们带来了更多便利和丰富的语音交互体验。然而,要实现高质量、自然流畅的语音合成,语音合成数据重要性不可忽视。本文将探讨语音
    的头像 发表于 06-24 03:07 343次阅读

    语音合成数据重要性:训练高质量语音合成模型的关键

    语音合成是一种将文本转换为语音的技术,它在智能客服、智能助手、语音广告等多个领域有着广泛的应用。而要实现高质量的语音合成,就需要大量的语音合成数据
    的头像 发表于 05-15 09:27 654次阅读