0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

合成和模拟数据将在数据产业迎来浪潮

如意 来源:百家号 作者:SENSORO升哲 2020-07-03 11:50 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

2018年,在微软(Microsoft Build)一架无人机飞过管道,检查管道是否有泄漏或其他损坏。值得注意的是,无人机的视觉检查模型使用实际数据和模拟数据进行了训练。使用合成数据帮助机器学习模型了解异常值,让微软的研究人员能够更快地训练这款模型,且不需要像其他情况下那样在进行数据采集飞行上花费很多。

如今,这项技术终于开始普及了。今年4月,一家初创公司为其合成传感器数据筹集到337万美元,而另一家初创公司发表了一篇关于如何使用模拟数据训练模型来识别机场跑道上的飞机的论文。

谈到机器学习项目时,壳牌首席数据科学家丹·杰文斯对使用模拟数据感到非常兴奋,因为它有助于构建模型的同时还可以检测一些少见的问题。他说:“我认为这是一种非常有趣的方法,可以获取我们正在努力解决的有关边缘案例的信息。尽管我们有很多数据,但同时我们也面临重大问题是,那就是,我们通常对于要发现的问题,我们只有很少的例子来支持。

在石油行业,工厂和管道的腐蚀是巨大的挑战,因为它可能导致灾难性的故障。企业会小心翼翼不让任何东西腐蚀管道,但这也意味着机器学习模型不能用于现实世界的腐蚀实例。因此,他们使用合成数据来提供帮助。例如,壳牌公司也在使用合成数据,试图解决人们在加油站吸烟的问题。因为摄像机并不总能捕捉到吸烟者的画面,有时候离得太远或者没有面对摄像头,所以在这个研究中并没有很多现成的案例;因此,公司努力将模拟合成数据与真实数据结合起来,建立计算机视觉模型。“我们感兴趣的几乎总是‘边缘案例’,不是一般的标准,而且容易检测到与标准图案不符的边缘,很难检测出想要的具体内容。”

与此同时,另外一家AI公司也在试图了解更多关于合成数据的准确性。该公司发表的论文《稀有飞机:合成数据起飞》阐述了研究人员如何将停放在机场的飞机的卫星图像与机器生成的合成数据相结合。当仅使用合成数据时,该模型的准确率只有55%左右,而当仅使用真实数据时准确率则跃升至73%。但是通过将训练样本的10%作为真实数据,其余部分使用合成数据,模型的准确率达到了69%。

人工智能专家认为合成数据将成为大生意。使用这些数据的公司需要考虑到他们的假数据可能会扭曲模型,但如果他们能做到这一点,他们就能以比依赖真实数据更快、更低的成本获得强健的模型。

因此,即使物联网传感器正在释放数拍字节级别的数据,也不可能对所有数据进行注释并将其用于训练模型。因为这些数据可能并不是你真正想要计算机寻找的情况。换言之,预计合成和模拟数据的浪潮将继续到来。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1820

    文章

    50314

    浏览量

    266887
  • 合成
    +关注

    关注

    0

    文章

    16

    浏览量

    13940
  • 大模拟数据
    +关注

    关注

    0

    文章

    2

    浏览量

    5406
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    无触点稳压器在数据中心机房的重要性

    在数字化时代,数据中心已成为企业运营的核心基础设施,承载着海量数据处理、云服务、金融交易等关键业务。数据中心的稳定运行高度依赖于电力质量——任何微小的电压波动都可能导致服务器宕机、
    的头像 发表于 04-22 16:28 175次阅读

    浪潮通信获评2025年度数据中心创新产品

    近日,在第十七届中国数据中心大会上,中国计算机用户协会数据中心分会发布2025年度行业权威评选结果,浪潮通信自主研发的浪潮Cooling-ALC1000系列风液同源产品,凭借突出的创新
    的头像 发表于 04-16 09:38 412次阅读

    跳线架在数据中心的应用与优化策略

    数据中心作为信息时代的核心基础设施,其网络布线的复杂性和重要性不言而喻。跳线架作为数据中心网络布线中的关键组件,其应用和优化策略直接影响到数据中心的运行效率和稳定性。本文将探讨跳线架在数据
    的头像 发表于 04-02 10:56 181次阅读

    AOC光纤跳线在数据中心的应用与发展趋势

    的要求。AOC光纤跳线凭借其独特的优势,在数据中心得到了广泛的应用,并呈现出良好的发展趋势。 AOC光纤跳线在数据中心的应用优势 高速数据传输:数据中心需要处理大量的
    的头像 发表于 02-25 09:57 233次阅读

    2025开放原子开发者大会AI时代数据库创新实践分论坛即将开启

    在AI重塑产业浪潮中,数据早已不再是“被管理的资产”,而是驱动智能创新的核心引擎。面对大模型、实时决策与智能分析的挑战,数据库技术正迎来
    的头像 发表于 11-17 16:30 961次阅读

    多设备数据联不通?采集系统打破孤岛,全域数据一键汇

    在数字化转型的浪潮中,数据联通不是 “选择题”,而是 “必修课”。这套智能采集系统,正在用科学的技术架构、可行的落地方案、可信的实践成果,帮助企业把分散的数据转化为核心竞争力。
    的头像 发表于 11-10 10:15 394次阅读
    多设备<b class='flag-5'>数据</b>联不通?采集系统打破孤岛,全域<b class='flag-5'>数据</b>一键汇

    NVIDIA GR00T-Dreams助力光轮智能革新合成数据

    在具身 AI (Embodied AI) 迅猛发展的浪潮中,数据被视为突破的核心。如何为日益智能的机器人提供海量、多样且高质量的训练数据,加速其在现实世界的部署,是整个行业面临的共同挑战。传统依赖
    的头像 发表于 08-20 14:29 1717次阅读

    信创浪潮澎湃,国产主板迎来黄金时代!

    2025年7月,表示必须在2027年底前完成信创100%替代,覆盖基础硬件、基础软件等核心领域。在信息技术应用创新浪潮席卷下,国产主板作为计算机系统的骨架,正从幕后走向台前。政策加持、技术突破与生态协同的三重动力,正推动这一领域迎来前所未有的发展机遇期。
    的头像 发表于 07-21 14:00 611次阅读

    破解数据瓶颈:智能汽车合成数据架构与应用实践

    合成数据因可控等特性,已成为智能汽车感知系统数据成本高、场景覆盖不足等困境的突破方向!。本文探讨其体系原则、分层结构,聚焦舱外道路感知与舱内乘员识别场景,阐述生成流程与实践,助力感知系统开发!
    的头像 发表于 07-16 10:31 1214次阅读
    破解<b class='flag-5'>数据</b>瓶颈:智能汽车<b class='flag-5'>合成数据</b>架构与应用实践

    破解数据瓶颈:智能汽车合成数据架构与应用实践

    智能汽车感知系统面临数据困境,如结构复杂、成本高昂、覆盖受限、合规性与隐私风险突出。合成数据作为新型数据生成方式,以高度可配置性、自动化、可复现为特点,有望解决这些问题。
    的头像 发表于 07-15 11:48 760次阅读
    破解<b class='flag-5'>数据</b>瓶颈:智能汽车<b class='flag-5'>合成数据</b>架构与应用实践

    物联网感知数据挖掘:赋能万物智联的核心引擎

    在数字化转型的浪潮中,物联网技术正以感知层设备为触角、通信网络为血管、数据智能为大脑,构建起覆盖物理世界的数字孪生体系。中国物联网产业规模预计2025年突破4万亿元,连接数超120亿,
    的头像 发表于 06-17 16:22 770次阅读

    信创浪潮下,国产主板有什么新的发展机遇?

    在信息技术应用创新浪潮的推动下,国产主板迎来了诸多新的发展机遇。信创产业旨在实现信息技术领域的自主可控,这一战略目标为国产主板的发展提供了广阔的空间。信创浪潮下国产主板的发展机遇多元且
    的头像 发表于 05-09 09:24 867次阅读
    信创<b class='flag-5'>浪潮</b>下,国产主板有什么新的发展机遇?

    是否可以在数据和电源中使用Cypd2122作为DRP?

    我想知道我是否可以在数据和电源中使用 Cypd2122 作为 DRP? 如果是,有任何参考设计或应用说明吗? 数据表说不推荐用于新设计,为什么?
    发表于 05-07 07:28

    大模型时代的新燃料:大规模拟真多风格语音合成数据

    以大模型技术为核心驱动力的人工智能变革浪潮中,语音交互领域正迎来广阔的成长空间,应用场景持续拓宽与延伸。 其中,数据作为驱动语音大模型进化的关键要素,重要性愈发凸显。丰富多样的高质量数据
    的头像 发表于 04-30 16:17 753次阅读

    借助OpenUSD与合成数据推动人形机器人发展

    适用于合成运动数据的 NVIDIA Isaac GR00T Blueprint 大幅加快人形机器人的数据生成和训练速度。
    的头像 发表于 04-25 10:04 1174次阅读