0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

解读CV架构回归多层感知机;自动生成模型动画

智能感知与物联网技术研究所 来源:机器之心 作者:机器之心 2021-05-13 10:36 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

本周的重要论文包括来自谷歌大脑的研究团队提出了一种舍弃卷积和自注意力且完全使用多层感知机(MLP)的视觉网络架构,在 ImageNet 数据集上实现了媲美 CNN 和 ViT 的性能表现;清华大学图形学实验室 Jittor 团队提出了一种新的注意机制,通过控制记忆单元的大小,External-attention 可以轻松实现线性的复杂度等研究。

论文 1:MLP-Mixer: An all-MLP Architecture for Vision

摘要:计算机视觉的发展史证明,规模更大的数据集加上更强的计算能力往往能够促成范式转变。虽然卷积神经网络已经成为计算机视觉领域的标准,但最近一段时间,基于自注意力层的替代方法 Vision Transformer(ViT)实现新的 SOTA 性能。从技术上讲,ViT 模型延续了长久以来去除模型中手工构建特征和归纳偏置的趋势,并进一步依赖基于原始数据的学习。

近日,原 ViT 团队提出了一种不使用卷积或自注意力的 MLP-Mixer 架构(简称 Mixer),这是一种颇具竞争力并且在概念和技术上都非常简单的替代方案。Mixer 架构完全基于在空间位置或特征通道重复利用的多层感知机(MLP),并且仅依赖于基础矩阵乘法运算、数据布局变换(如 reshape 和 transposition)和非线性层。

JAX/Flax 编写的 MLP-Mixer 代码。

推荐:CV 领域网络架构的演变从 MLP 到 CNN 到 Transformer 再回到 MLP,真是太有意思了。

论文 2:Beyond Self-attention: External Attention using Two Linear Layers for Visual Tasks

摘要:清华大学图形学实验室 Jittor 团队提出了一种新的注意机制,称之为「External Attention」,基于两个外部的、小的、可学习的和共享的存储器,只用两个级联的线性层和归一化层就可以取代了现有流行的学习架构中的「Self-attention」,揭示了线性层和注意力机制之间的关系。自注意力机制一个明显的缺陷在于计算量非常大,存在一定的计算冗余。通过控制记忆单元的大小,External-attention 可以轻松实现线性的复杂度。

d98242e8-b364-11eb-bf61-12bb97331649.jpg

Self Attention 和 External Attention 的区别。

推荐:External Attention 的部分计图代码已经在 Github 开源,后续将尽快开源全部计图代码。

论文 3:Learning Skeletal Articulations with Neural Blend Shapes

摘要:该论文由北京大学陈宝权教授研究团队、北京电影学院未来影像高精尖创新中心、Google Research、特拉维夫大学以及苏黎世联邦理工学院合作,针对骨骼驱动的模型动画的高质量自动化生成进行改进,提出了神经融合形状技术。实验证明,该方法显著减少了已有方法中需要的人工干预,大大提升了生成动画的质量。

具体而言,为了简化骨骼搭建和蒙皮权重绑定的过程、高效利用动作捕捉数据以及生成高质量的动画,研究者开发了一套能生成具有指定结构的骨骼以及精准绑定权重的神经网络。加以他们提出的神经融合形状(neural blend shapes)技术,研究者实现了实时高质量三维人物模型动画的端到端自动生成。

d9d77bfa-b364-11eb-bf61-12bb97331649.jpg

框架概览。

推荐:该论文已被计算机图形学顶级会议 SIGGRAPH 2021 接收。

论文 4:A Survey of Modern Deep Learning based Object Detection Models

摘要:在本文中,来自阿斯隆理工学院的研究者概述了基于深度学习的目标检测器的最新发展,提供了用于检测的基准数据集和评估指标的简要概述以及用于识别任务的主要主干架构。

da0bce78-b364-11eb-bf61-12bb97331649.jpg

文章结构。

推荐:基于现代深度学习的目标检测模型综述。

论文 5:Total Relighting: Learning to Relight Portraits for Background Replacement

摘要:在人像抠图中,前景预测背景替换是至关重要的组成部分,此前也出现过各种效果不错的抠图方法,如商汤等提出的只需单张图像、单个模型的方法 MODNet、华盛顿大学单块 GPU 实现 4K 分辨率每秒 30 帧的 Background Matting 2.0 等。这些方法或多或少都有其局限性。

近日,来自谷歌的几位研究者提出了一种全新的人像重照明(portrait relighting)和背景替换系统,该系统不仅保留了高频边界细节,并精确地合成了目标人像在新照明下的外观,从而为任何所需场景生成逼真的合成图像。该研究的亮点是通过前景蒙版(alpha matting)、重照明(relighting)和合成(compositing)进行前景估计。

推荐:该论文已被 SIGGRAPH 2021 会议接收。

论文 6:Graph Learning: A Survey

摘要:本文是对图学习的最全面综述,重点关注四类已有的图学习方法,包括图信号处理、矩阵分解、随机游走和深度学习,回顾了采用这四类方法的主要模型和算法。此外,研究者探讨了文本、图像、科学、知识图谱和组合优化等领域的图学习应用。本文作者来自澳大利亚联邦大学、大连理工、莫纳什大学和亚利桑那州立大学。

推荐:最新图机器学习论文综述。

论文 7:Locate then Segment: A Strong Pipeline for Referring Image Segmentation

摘要:如何通过自然语言定位并分割出场景中的目标物体?比如给定一张图片,语言指示 「分割出穿白色衬衫的人」。这个任务在学术界叫做指代性物体分割(Referring Image Segmentation)。目前指代性分割的工作通常着重于设计一种隐式的递归特征交互机制用于融合视觉 - 语言特征来直接生成最终的分割结果,而没有显式建模被指代物体的位置。

为了强调语言描述的指代作用,来自中科院自动化所、字节跳动的研究者将该任务解耦为先定位再分割的方案(LTS, Locate then Segment),它在直观上也与人类的视觉感知机制相同。比如给定一句语言描述,人们通常首先会注意相应的目标图像区域,然后根据对象的环境信息生成关于对象的精细分割结果。该方法虽然很简单但效果较好。在三个流行的基准数据集上,该方法大幅度优于所有以前的方法。这个框架很有希望作为指代性分割的通用框架。

编辑:jq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5100

    浏览量

    134479
  • 机器学习
    +关注

    关注

    66

    文章

    8541

    浏览量

    136236
  • 视觉感知
    +关注

    关注

    0

    文章

    52

    浏览量

    3564

原文标题:7 Papers & Radios | CV架构回归多层感知机;自动生成模型动画

文章出处:【微信号:tyutcsplab,微信公众号:智能感知与物联网技术研究所】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    自动驾驶中Transformer大模型会取代深度学习吗?

    [首发于智驾最前沿微信公众号]近年来,随着ChatGPT、Claude、文心一言等大语言模型生成文本、对话交互等领域的惊艳表现,“Transformer架构是否正在取代传统深度学习”这一话题一直被
    的头像 发表于 08-13 09:15 3928次阅读
    <b class='flag-5'>自动</b>驾驶中Transformer大<b class='flag-5'>模型</b>会取代深度学习吗?

    自动驾驶感知系统如何设计才能确保足够安全?

    高可靠性、高可用性和高鲁棒性,必须多层面、全方位地统筹技术架构、硬件部署、软件算法、系统冗余与安全管理,共同构筑一套稳健的感知体系。
    的头像 发表于 07-24 18:11 716次阅读

    动态感知+智能决策,一文解读 AI 场景组网下的动态智能选路技术

    人工智能(AI),特别是大规模模型训练和推理,正以前所未有的方式重塑数据中心网络。传统的“尽力而为”网络架构,在处理海量、突发的AI数据洪流时捉襟见肘。AI模型对网络性能的严苛要求——高带宽、低延迟
    的头像 发表于 06-20 15:01 1320次阅读
    动态<b class='flag-5'>感知</b>+智能决策,一文<b class='flag-5'>解读</b> AI 场景组网下的动态智能选路技术

    知识分享 | 评估模型架构——如何实现?

    确保良好的模型架构对于开发安全和可靠的软件非常重要。本文为您介绍MES Model Examiner® (MXAM)如何优化模型架构,简化复杂度管理步骤,并最终提升软件质量。
    的头像 发表于 06-05 11:46 471次阅读
    知识分享 | 评估<b class='flag-5'>模型</b><b class='flag-5'>架构</b>——如何实现?

    半导体器件CV测量技术解析

    前言:研究器件特性和器件建模都离不开精确的电容电压(CV)测量。精确的CV模型在仿真器件的开关特性,延迟特性等方面尤为重要。目前,在宽禁带器件(GaN/SiC)、纳米器件、有机器件、MEMS等下
    的头像 发表于 06-01 10:02 1221次阅读
    半导体器件<b class='flag-5'>CV</b>测量技术解析

    模型如何推动自动驾驶技术革新?

    分模块设计,从环境感知、决策规划到车辆控制,各个子系统之间都是独立工作,协同控制车辆的行驶,在复杂的交通场景下,这种分层架构容易受到累积误差、信息丢失以及实时性不足等问题的困扰。大模型凭借其海量参数、跨模态
    的头像 发表于 04-20 13:16 698次阅读
    大<b class='flag-5'>模型</b>如何推动<b class='flag-5'>自动</b>驾驶技术革新?

    自动驾驶中基于规则的决策和端到端大模型有何区别?

    自动驾驶架构的选择上,也经历了从感知、决策控制、执行的三段式架构到现在火热的端到端大模型,尤其是在2024年特斯拉推出FSD V12后,各
    的头像 发表于 04-13 09:38 3436次阅读
    <b class='flag-5'>自动</b>驾驶中基于规则的决策和端到端大<b class='flag-5'>模型</b>有何区别?

    CORE-V(OpenHW Group)CV32E40P 详细解读

    CV32E40P 是 OpenHW Group 推出的开源 RISC-V 处理器 IP 内核,基于 PULP 平台的 RI5CY 内核演进而来,专为高效嵌入式系统设计。以下从技术架构、性能特性
    的头像 发表于 04-10 15:44 1679次阅读
    CORE-V(OpenHW Group)<b class='flag-5'>CV</b>32E40P 详细<b class='flag-5'>解读</b>

    英伟达Cosmos-Reason1 模型深度解读

    。以下从技术架构、训练策略、核心能力及行业影响四方面展开深度解读: Cosmos-Reason 1:从物理 AI 常识到具体决策 物理 AI 系统需要感知、理解和执行物理世界中的复杂作。在本文中,我们提出了 Cosmos-Rea
    的头像 发表于 03-29 23:29 2627次阅读

    多层料箱高速堆垛搭载 RFID:构建部队智能仓储新生态

    在部队迈向现代化的进程中,仓储管理的高效运转与信息化程度,对物资保障能力起着决定性作用。多层料箱高速堆垛凭借其在货物高密度存储与快速搬运方面的卓越表现,与 RFID 技术所实现的物资信息自动采集
    的头像 发表于 03-26 14:25 565次阅读
    <b class='flag-5'>多层</b>料箱高速堆垛<b class='flag-5'>机</b>搭载 RFID:构建部队智能仓储新生态

    ​Diffusion生成式动作引擎技术解析

    Diffusion生成式动作引擎 Diffusion生成式动作引擎是一种基于扩散模型(Diffusion Models)的生成式人工智能技术,专注于
    的头像 发表于 03-17 15:14 2715次阅读

    用DeepSeek-R1实现自动生成Manim动画

    ​ 作者:算力魔方创始人/英特尔创新大使刘力 前面我们分享了在本地运行能与OpenAI-o1 能力相媲美的DeepSeek-R1 模型。本文将介绍如何使用DeepSeek-R1实现自动生成Manim
    的头像 发表于 02-07 12:31 4655次阅读
    用DeepSeek-R1实现<b class='flag-5'>自动</b><b class='flag-5'>生成</b>Manim<b class='flag-5'>动画</b>

    【「基于大模型的RAG应用开发与优化」阅读体验】+Embedding技术解读

    今天学习大模型RAG 检索增强生成技术Embedding,即嵌入,是一种将离散数据(如文字、图像、音频等)转换为连续的密集向量表示的技术。这些向量能够反映原始数据之间的关系,使得计算机能够更好地处
    发表于 01-17 19:53

    AN-715::走近IBIS模型:什么是IBIS模型?它们是如何生成的?

    电子发烧友网站提供《AN-715::走近IBIS模型:什么是IBIS模型?它们是如何生成的?.pdf》资料免费下载
    发表于 01-13 14:21 0次下载
    AN-715::走近IBIS<b class='flag-5'>模型</b>:什么是IBIS<b class='flag-5'>模型</b>?它们是如何<b class='flag-5'>生成</b>的?

    基于移动自回归的时序扩散预测模型

    回归取得了比传统基于噪声的扩散模型更好的生成效果,并且获得了人工智能顶级会议 NeurIPS 2024 的 best paper。 然而在时间序列预测领域,当前主流的扩散方法还是传统的基于噪声的方法,未能充分利用自
    的头像 发表于 01-03 14:05 1650次阅读
    基于移动自<b class='flag-5'>回归</b>的时序扩散预测<b class='flag-5'>模型</b>