0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

教机器用计算机视觉阅读乐高手册

星星科技指导员 来源:NVIDIA 作者:Michelle Horton 2022-10-11 09:22 次阅读

乐高爱好者抓挠他们的头,阅读组装说明,可能很快有助于复杂的建设,感谢一个新的 学习 来自斯坦福大学、麻省理工学院和 Autodesk 。研究人员设计了一个深度学习框架,将 2D 手册翻译成机器可以理解的步骤,以构建 3D 乐高套件。这项工作可以推动专注于制造机器的研究,帮助人们组装物体。

“乐高手册提供了一个独立的环境,展示了人类的一项核心技能:在指导下学习完成任务。利用视觉场景解析和程序合成的最新进展,我们旨在构建具有类似技能的机器,从乐高开始,最终以现实世界场景为目标,”该研究资深作者吴家军说,斯坦福大学计算机科学助理教授。

研究人员表示,用人工智能翻译 2D 手册面临两大挑战。首先, AI 必须基于 2D 手动图像在每个装配步骤中学习和理解 3D 形状之间的对应关系。这包括考虑工件的方向和对齐。

它还必须能够对砖块进行分类,并在半组装模型中推断出砖块的三维姿态。作为乐高积木制作过程的一部分,小部件被组合成更大的部件,如吉他的头部、颈部和身体。当这些较大的部分组合在一起时,将创建一个完整的项目。这增加了难度,因为机器必须解析出所有的乐高积木,甚至是那些可能不可见的积木,如乐高钉和反积木。

该团队致力于创建一个模型,该模型可以将 2D 手册转化为机器可执行计划,以构建定义的对象。虽然目前有两种执行此任务的方法:基于搜索的方法和基于学习的方法,但都存在局限性。

基于搜索的方法寻找工件和手动图像的可能三维姿态,寻找正确的姿态。该方法计算量大,速度慢,但精度高。

基于学习的模型依赖于神经网络来预测部件的 3D 姿态。它们速度快,但精度不高,尤其是在使用看不见的 3D 形状时。

为了解决这一局限性,研究人员开发了手册到可执行计划网络 ( MEPNet ) ,根据研究,它使用深度学习和 计算机视觉 集成“神经 2D 关键点检测模块和 2D-3D 投影算法

​​根据一系列预测,在每一步,模型都会阅读手册,定位要添加的零件,并推导出 3D 定位。在模型预测了每一块和每一步的姿势后,它可以从头开始解析手册,创建一个机器人可以遵循的建筑计划来建造乐高对象。

研究人员在研究中写道:“对于每个步骤,输入包括 1 )一组在之前的步骤中构建的原始砖块和零件,以 3D 表示; 2 )一个显示组件应如何连接的目标 2D 图像。预期输出是该步骤中涉及的所有组件的(相对)姿态。”。

他们从一个包含 72 种砖块的乐高工具包中创建了第一个合成训练数据,并使用了来自 LPub3D ,一个用于“创建乐高风格的数字建筑说明”的开源应用程序

研究人员总共生成了 8000 份培训手册,其中 10 套用于验证, 20 套用于测试。每个数据集中有大约 200 个单独的步骤,约占培训中的 200000 个单独步骤。

他们在研究中写道:“我们在综合生成的数据集上对 MEPNet 进行全面监控,在该数据集中,我们有基本真相关键点、掩码和旋转信息。”。 MEPNet 模型在四个点上训练 5 天 NVIDIA Titan RTX GPU 由 NVIDIA 图灵架构提供支持。

他们还在 Minecraft house 数据集上测试了该模型,该数据集具有与乐高类似的构建风格。

通过将 MEPNet 与现有模型进行比较,研究人员发现,它在现实世界的乐高积木、合成手册和 Minecraft 示例中的表现优于其他模型。

MEPNet 在姿势估计方面更准确,甚至在识别不可见片段的构建方面也更好。研究人员还发现,该模型能够将从合成手册中获得的知识应用于现实世界的乐高手册。

虽然还需要制造一个能够执行计划的机器人,但研究人员将这项工作视为一个起点。

“我们的长期目标是制造能够帮助人类构造和组装复杂物体的机器。我们正在考虑将我们的方法扩展到其他组装领域,如宜家家具,”斯坦福大学计算机科学博士生王若成( Ruocheng Wang )说。

关于作者

Michelle Horton 是 NVIDIA 的高级开发人员通信经理,拥有通信经理和科学作家的背景。她在 NVIDIA 为开发者博客撰文,重点介绍了开发者使用 NVIDIA 技术的多种方式。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 计算机
    +关注

    关注

    19

    文章

    6651

    浏览量

    84545
  • AI
    AI
    +关注

    关注

    87

    文章

    26458

    浏览量

    264072
收藏 人收藏

    评论

    相关推荐

    【量子计算机重构未来 | 阅读体验】+ 初识量子计算机

    感觉量子技术神奇神秘,希望通过阅读此书来认识量子计算机。 先浏览一下目录: 通过目录,基本可以确定这是一本关于量子计算机的科普书籍,主要包括什么是量子计算机、量子
    发表于 03-05 17:37

    【量子计算机重构未来 | 阅读体验】初探

    本帖最后由 oxlm_1 于 2024-3-4 23:24 编辑 非常感谢能有这次机会参与《量子计算机重构未来》这本书的试读活动。当看到这本书的测评时,首先好奇的是,量子计算机能做什么,为此
    发表于 03-04 23:09

    机器视觉、工业视觉计算机视觉这三者的关系

    机器视觉、工业视觉计算机视觉这三者的关系
    的头像 发表于 01-24 10:51 572次阅读
    <b class='flag-5'>机器</b><b class='flag-5'>视觉</b>、工业<b class='flag-5'>视觉</b>和<b class='flag-5'>计算机</b><b class='flag-5'>视觉</b>这三者的关系

    计算机视觉与图像处理、模式识别、机器学习学科之间的关系

    计算机视觉(computer vision):用计算机来模拟人的视觉机理获取和处理信息的能力。就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等
    的头像 发表于 01-18 16:41 248次阅读

    工业计算机与商用计算机的区别

    工业计算机与商用计算机的区别  工业计算机和商用计算机是两种应用于不同领域的计算机系统。虽然它们在技术方面存在一些共性,但在功能、设计、可靠
    的头像 发表于 12-27 10:50 278次阅读

    什么是计算机视觉计算机视觉的三种方法

    计算机视觉是指通过为计算机赋予人类视觉这一技术目标,从而赋能装配线检查到驾驶辅助和机器人等应用。计算机
    的头像 发表于 11-16 16:38 3132次阅读
    什么是<b class='flag-5'>计算机</b><b class='flag-5'>视觉</b>?<b class='flag-5'>计算机</b><b class='flag-5'>视觉</b>的三种方法

    最适合AI应用的计算机视觉类型是什么?

    计算机视觉是指为计算机赋予人类视觉这一技术目标,从而赋能装配线检查到驾驶辅助和机器人等应用。计算机
    的头像 发表于 11-15 16:38 237次阅读
    最适合AI应用的<b class='flag-5'>计算机</b><b class='flag-5'>视觉</b>类型是什么?

    展开说说机器视觉计算机视觉的区别

    机器视觉系统在半导体器件制造中有着广泛的应用;事实上,如果没有机器视觉计算机芯片的产量将会显著降低。
    发表于 10-18 11:21 170次阅读

    人工智能计算机视觉方向是什么

    “看”并作出决策。 计算机视觉是人工智能领域的一大分支,是以计算机和数字图像处理技术为手段,通过对视觉信息的处理和分析来实现人工智能的各类应用。计算
    的头像 发表于 08-15 16:06 1198次阅读

    机器视觉计算机视觉的区别

    机器视觉计算机视觉的区别 机器视觉计算机
    的头像 发表于 08-09 16:51 1140次阅读

    机器视觉计算机视觉的区别 机器视觉中光源的特点及选择应用

    机器视觉计算机视觉是两个相关但不完全相同的概念,它们在以下几个方面有区别。
    的头像 发表于 08-05 16:19 1655次阅读

    计算机视觉是什么 计算机视觉历史及发展趋势

    perception)视觉认知(visual cognition)图像和视频理解(image and videounderstanding).这些概念有一些共性之处,也有本质不同。从广义上说,计算机视觉就是"赋予
    发表于 07-20 15:41 0次下载

    使用计算机视觉为工业工人进行跌倒检测

    电子发烧友网站提供《使用计算机视觉为工业工人进行跌倒检测.zip》资料免费下载
    发表于 06-12 16:00 0次下载
    使<b class='flag-5'>用计算机</b><b class='flag-5'>视觉</b>为工业工人进行跌倒检测

    使用计算机视觉进行电梯乘客计数

    电子发烧友网站提供《使用计算机视觉进行电梯乘客计数.zip》资料免费下载
    发表于 06-12 15:35 0次下载
    使<b class='flag-5'>用计算机</b><b class='flag-5'>视觉</b>进行电梯乘客计数

    什么是机器视觉机器视觉计算机有什么关系?

    机器视觉计算机视觉有什么区别
    的头像 发表于 06-05 09:28 865次阅读
    什么是<b class='flag-5'>机器</b><b class='flag-5'>视觉</b>?<b class='flag-5'>机器</b><b class='flag-5'>视觉</b>与<b class='flag-5'>计算机</b>有什么关系?