仅需20%信息 AI场景全再现-电子发烧友网

近日，Science子刊发表文章，来自Facebook、加州伯克利分校和德克萨斯奥斯汀大学的研究人员通过强化学习解决了“如何让智能体获取信息性的视觉观察”的问题。具体来说就是，AI智能体对新环境“瞥上几眼”，就能快速推断整个新环境的情况。AI的能力越来越接近人类了。

又接近了人类一步。

当我们给计算机视觉系统输入一张照片时，它们可以很容易捕获照片中的信息。但是，自主捕获信息对于计算机视觉系统还是非常困难的。

简单来说就是，当我们人类看到下图左、中两个不同方向的奖杯时，就有可能推测出第三个方向上奖杯的样子。

但对于计算机视觉系统或者AI智能体来说，这种能力的实现是较为困难的。

近日，Science子刊(Sience Robotics)封面发表了一篇文章，便对这项任务做了深入研究，并让智能体的视觉系统取得了突破性进展。不得不感叹AI离人类的距离又拉近了一段！

来自Facebook、加州伯克利分校和德克萨斯奥斯汀大学的研究人员通过强化学习解决了“如何让智能体获取信息性的视觉观察”的问题。具体来说就是，AI智能体对新环境“瞥上几眼”，就能快速推断整个新环境的情况。

如上图所示，AI智能体快速对新环境不同方向拍摄快照并作为输入，通过总计不超过20%场景内容的照片即可推测整个场景内容！

“轻轻一瞥”，新场景即刻再现！

对于一个智能体，环境的各个视图只提供所有相关信息的一小部分。

例如，一个智能体如果看到前面的电视屏幕，它可能不知道电视是在客厅还是卧室；智能体从侧面观察一个杯子，可能要从上面看才能知道杯子里面是什么。

这项研究的目标是学习一种控制智能体的摄像机运动策略，这样它就可以有效地探索新的环境和对象。

为此，研究人员制定了一个基于主动观察完成的无监督学习目标。它的主要思想是支持一系列的摄像机运动，这些运动能使智能体周围看不见的部分更容易预测。其输出是一个查找策略，用于在新环境中收集新图像。

主动完成观测任务面临三大挑战：

首先，为了很好地预测未观察到的视图，智能体必须学会从很少的视图理解3D关系。经典的几何解在这些条件下很难求解；

其次，智能行动选择是这项任务的关键。鉴于过去的一系列观察结果，系统必须根据可能提供最多信息的新观点采取行动，即，确定哪些视图最能改进其完整视图网格的模型。

强调系统将面对在训练期间从未遇到的对象和场景，但仍然必须智能地选择下一步看起来有价值的地方。

作为这些挑战的核心解决方案，研究人员提出了一种用于主动观测完成的RL方法，如下图所示。

仅需20%信息 AI场景全再现

我们的RL方法使用递归神经网络来聚合一系列视图中的信息; 随机神经网络使用聚合状态和当前观察来选择一系列有用的相机运动。智能体根据其对未观察到的视图的预测而获得奖励。因此，它学会了一种策略来智能地选择动作(摄像机动作)，以最大限度地提高预测的质量。

在训练期间，完整的viewgrid是已知的，因此允许智能体“自我监督”其策略学习，这意味着它学习时不需要任何人类提供的标签。

该模型判断了像素空间中viewgrid重构的质量，从而保持通用性：整个场景(或3D对象)的所有像素都包含了所有对任何任务都可能有用的视觉信息。

因此，该方法避免使用任何中间语义表示，而采用寻求对许多任务有用的通用信息的学习策略。也就是说，研究人员所提出的方法很容易适应更专业的环境。例如，如果目标任务只需要语义分割标签，那么预测可以放在对象标签的空间中。

RL方法往往存在勘探阶段成本高和部分状态可观测性差的问题。特别是，一个活跃的视觉智能体必须完全基于第一人称视图中有限的可用信息进行一系列的操作。最有效的视点轨迹隐藏在许多平庸的视点轨迹中，阻碍了智能体在复杂的状态-动作空间中的探索。

为了解决这一挑战，作为这项工作的第二个主要技术贡献，引入了“sidekick策略学习”。

sidekick方法引入了奖励塑造和演示，利用训练期间的完全可观察性来预先计算每个候选快照的信息内容。然后，助手引导智能体访问环境中的信息热点或样本中信息丰富的轨迹，同时考虑到在测试过程中可观察性只是部分的事实。通过这样做，助手们可以加快对实际智能体的训练，提高整体表现。

实验结果

数据集

为了基准和重现性，研究人员在两个广泛使用的数据集上评估了提出的方法。

SUN360 dataset for scenes

SUN360拥有26个不同类别的球形全景。数据集包括6174个训练、1013个验证和1805个测试示例。viewgrid有32×32像素分辨率的2D图像。

ModelNet dataset for objects

对于此数据集，智能体操纵3D对象以完成从所有查看方向看到的对象的视图。viewgrid构成了一个隐式的基于图像的三维形状模型。ModelNet有两个计算机辅助设计(CAD)模型子集：ModelNet-40(40个类别)和ModelNet-10 (ModelNet-40的10个类别子集)。不包括ModelNet-10类，ModelNet-40包含6085个训练、327个验证和1310个测试示例。ModelNet-10包含3991个训练、181个验证和727个测试示例。viewgrid有32×32分辨率的2D图像。

基线

研究人员测试了主动完成方法，使用/不使用sidekick策略学习(分别是lookaround和lookaround+spl)与各种基线进行比较：

one-view是用T = 1训练的方法。该基线没有进行信息聚合或动作选择。

rnd-actions与研究人员的方法相同，只是动作选择模块被所有可能动作池中随机选择的动作所取代。

large-actions选择最大允许动作。这测试了远距离观点是否足够丰富。

peek-saliency使用一个流行的saliency度量，在每个时间步长移动到可触及的最显著的视图。

仅需20%信息 AI场景全再现

不同智能体行为下的场景和对象完成精度

(A)随着获得更多的一瞥，两个数据集上的像素级MSE错误随时间的变化。(B)所有T次瞥见后，两个数据集的平均/对抗性MSE误差×1000(↓越低越好)和相对于单视图模型(↑越高越好)的相应改进(%)。

SUN360(左)和ModelNet(右)的活动观测完成情况

对于每个示例，左边的第一行显示了ground-truth viewgrid;左边的后续行显示了t = 0,1，t−1 = 3时的重构，以及像素方向的MSE错误(×1000)和代理当前的快照(用红色标记)。在右侧，每个时间步长所采样的智能体观察角度显示在观察球上。重建质量随着时间的推移而提高，因为它可以快速地细化场景结构和对象形状。

T = 6“瞥见”后的三个重建例子

适用于SUN360和ModelNet的多种环境的ground-truth 360全景图或viewgrid以及最终的GAN-refined重建

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

人工智能

人工智能

+关注

关注
1776

文章
43839

浏览量
230589
计算机视觉

计算机视觉

+关注

关注
8

文章
1599

浏览量
45613

原文标题：Science子刊封面：仅需20%信息，AI场景全再现！

文章出处：【微信号：AI_era，微信公众号：新智元】欢迎添加关注！文章转载请注明出处。

AI边缘盒子助力安全生产相关等场景

随着科技的迅猛发展和企业对安全生产管理的日益重视，以AI边缘计算为核心的边缘计算设备（内置灵活可配的AI算法库）已经在安全生产等相关场景得到广泛应用并取得了显著的成果。下面将为您介绍AI

发表于 03-28 15:30 •366次阅读

《6G网络AI场景用例业务应用需求详解白皮书》：全面梳理6G技术

和构建6GANA技术体系下，关于“AI场景”、“AI用例”、“AI业务”、“AI应用”等基本概念内涵，再通过广泛的

发表于 03-23 08:25 •264次阅读

NanoEdge AI的技术原理、应用场景及优势

能耗并提高数据安全性。本文将对 NanoEdge AI 的技术原理、应用场景以及优势进行综述。 1、技术原理 NanoEdge AI 的核心技术包括边缘计算、神经网络压缩和低功耗硬件设计。边缘计算

发表于 03-12 08:09

国际最新AI算力评测标准SPEC ML即将发布，浪潮信息连任SPEC ML主席

国际权威标准性能评估组织SPEC第35届年会日前在美国举行。会上，SPEC组织确定新一年工作计划，为推动AI算力产业的更快发展，国际最新AI算力评测标准SPEC ML即将发布，该标准由浪潮信息

发表于 02-24 19:07 •3205次阅读

成都华江信息AI人脸识别原理浅析# 人脸识别

AI边缘计算

成都华江信息
发布于 :2023年11月24日 16:35:54

鸿蒙原生应用/元服务开发-AGC分发如何配置版本信息（上）

”。 7.如果涉及以下两种场景，请填写HarmonyOS应用的“应用隐私说明”，否则直接进行下一步。如检测到应用软件包涉及获取敏感隐私权限，开发者需为每个敏感权限项填写相应的权限说明，每条权限说明

发表于 11-21 13:54

全志T113i全国产核心板上市

超低价、超灵活、超全能!飞凌嵌入式FET113i-S全国产核心板正式发布!整板采用100%国产工业级元器件，含税价最低仅需88元! FET113i-S核心板基于全志T113-i工业级处理器开发

发表于 11-20 16:32

AI智能呼叫中心

可以自动识别和响应来电，通过分析用户的语音、文字和情绪等信息，并给出针对性的应答，与传统的人工处理相比，AI智能呼叫中心能够实现24/7不间断的服务，大幅提高了处理效率和用户满意度。二、个性化服务AI

发表于 09-20 17:53

OpenHarmony AI框架开发指导

管理要求，需统一存放在各子系统的interfaces/kits目录中。当前AI业务子系统插件对外接口路径为//foundation/ai/engine/interfaces/kits，不同插件可在该路

发表于 09-19 18:54

阿里平头哥发布首个 RISC-V AI 软硬全栈平台

面向多媒体 AI 增强场景的 RISC-V 全栈软硬件平台。该平台将 RISC-V 扩展性的新型 Vector、Matrix 及第三方硬件进行算力抽象，并接入 OpenCV 与 CSI-NN 等弹性

发表于 08-26 14:14

华为彭松：打造端到端AI网络，打通全场景AI能力

[中国，南京，2023年8月24日]第七届未来网络发展大会期间，华为公司高级副总裁、ICT战略与Marketing总裁彭松发表了主题演讲《打造端到端AI网络，打通全场景AI能力》。他表示

发表于 08-24 20:15 •495次阅读

【全球首发】双核Cortex-A7@1.2GHz，仅79元起！#全志科技 #T113

全志科技

Tronlong创龙科技
发布于 :2023年08月07日 15:06:29

浪潮信息元脑生态：合力致新，打通金融场景AI落地最后一公里

这一转变的背后，不仅是技术的变革，更是生态的重塑，以生态之力让技术更具生命力，以技术之力塑造更贴合场景需求的产业落地价值。在柳州银行一站式OCR智能平台的建设实践中，可利邦、合合信息与浪潮信息

发表于 06-29 08:06 •258次阅读

淘屏计划推出自研云巢AI系统，多维赋能数字场景业态

深圳2023年6月15日 /美通社/ -- 淘屏有限公司（纳斯达克：TAOP，简称"淘屏"或"公司"），今日宣布计划推出一款名为"云巢"的全场景AI系统。云巢将沿袭公司一以贯之的"云管端"战略

发表于 06-16 06:05 •289次阅读

国产生成式AI，不能仅仅看向前方#生成式AI #信息无障碍

AI

脑极体
发布于 :2023年06月15日 19:06:36

搜索历史

仅需20%信息 AI场景全再现

评论

AI边缘盒子助力安全生产相关等场景

《6G网络AI场景用例业务应用需求详解白皮书》：全面梳理6G技术

NanoEdge AI的技术原理、应用场景及优势

国际最新AI算力评测标准SPEC ML即将发布，浪潮信息连任SPEC ML主席

成都华江信息AI人脸识别原理浅析# 人脸识别

鸿蒙原生应用/元服务开发-AGC分发如何配置版本信息（上）

全志T113i全国产核心板上市

AI智能呼叫中心

OpenHarmony AI框架开发指导

阿里平头哥发布首个 RISC-V AI 软硬全栈平台

华为彭松：打造端到端AI网络，打通全场景AI能力

【全球首发】双核Cortex-A7@1.2GHz，仅79元起！#全志科技 #T113

浪潮信息元脑生态：合力致新，打通金融场景AI落地最后一公里

淘屏计划推出自研云巢AI系统，多维赋能数字场景业态

国产生成式AI，不能仅仅看向前方#生成式AI #信息无障碍