解读CV架构回归多层感知机；自动生成模型动画-电子发烧友网

本周的重要论文包括来自谷歌大脑的研究团队提出了一种舍弃卷积和自注意力且完全使用多层感知机（MLP）的视觉网络架构，在 ImageNet 数据集上实现了媲美 CNN 和 ViT 的性能表现；清华大学图形学实验室 Jittor 团队提出了一种新的注意机制，通过控制记忆单元的大小，External-attention 可以轻松实现线性的复杂度等研究。

论文 1：MLP-Mixer： An all-MLP Architecture for Vision

摘要：计算机视觉的发展史证明，规模更大的数据集加上更强的计算能力往往能够促成范式转变。虽然卷积神经网络已经成为计算机视觉领域的标准，但最近一段时间，基于自注意力层的替代方法 Vision Transformer（ViT）实现新的 SOTA 性能。从技术上讲，ViT 模型延续了长久以来去除模型中手工构建特征和归纳偏置的趋势，并进一步依赖基于原始数据的学习。

近日，原 ViT 团队提出了一种不使用卷积或自注意力的 MLP-Mixer 架构（简称 Mixer），这是一种颇具竞争力并且在概念和技术上都非常简单的替代方案。Mixer 架构完全基于在空间位置或特征通道重复利用的多层感知机（MLP），并且仅依赖于基础矩阵乘法运算、数据布局变换（如 reshape 和 transposition）和非线性层。

JAX/Flax 编写的 MLP-Mixer 代码。

推荐：CV 领域网络架构的演变从 MLP 到 CNN 到 Transformer 再回到 MLP，真是太有意思了。

论文 2：Beyond Self-attention： External Attention using Two Linear Layers for Visual Tasks

摘要：清华大学图形学实验室 Jittor 团队提出了一种新的注意机制，称之为「External Attention」，基于两个外部的、小的、可学习的和共享的存储器，只用两个级联的线性层和归一化层就可以取代了现有流行的学习架构中的「Self-attention」，揭示了线性层和注意力机制之间的关系。自注意力机制一个明显的缺陷在于计算量非常大，存在一定的计算冗余。通过控制记忆单元的大小，External-attention 可以轻松实现线性的复杂度。

Self Attention 和 External Attention 的区别。

推荐：External Attention 的部分计图代码已经在 Github 开源，后续将尽快开源全部计图代码。

论文 3：Learning Skeletal Articulations with Neural Blend Shapes

摘要：该论文由北京大学陈宝权教授研究团队、北京电影学院未来影像高精尖创新中心、Google Research、特拉维夫大学以及苏黎世联邦理工学院合作，针对骨骼驱动的模型动画的高质量自动化生成进行改进，提出了神经融合形状技术。实验证明，该方法显著减少了已有方法中需要的人工干预，大大提升了生成动画的质量。

具体而言，为了简化骨骼搭建和蒙皮权重绑定的过程、高效利用动作捕捉数据以及生成高质量的动画，研究者开发了一套能生成具有指定结构的骨骼以及精准绑定权重的神经网络。加以他们提出的神经融合形状（neural blend shapes）技术，研究者实现了实时高质量三维人物模型动画的端到端自动生成。

框架概览。

推荐：该论文已被计算机图形学顶级会议 SIGGRAPH 2021 接收。

论文 4：A Survey of Modern Deep Learning based Object Detection Models

摘要：在本文中，来自阿斯隆理工学院的研究者概述了基于深度学习的目标检测器的最新发展，提供了用于检测的基准数据集和评估指标的简要概述以及用于识别任务的主要主干架构。

文章结构。

推荐：基于现代深度学习的目标检测模型综述。

论文 5：Total Relighting： Learning to Relight Portraits for Background Replacement

摘要：在人像抠图中，前景预测背景替换是至关重要的组成部分，此前也出现过各种效果不错的抠图方法，如商汤等提出的只需单张图像、单个模型的方法 MODNet、华盛顿大学单块 GPU 实现 4K 分辨率每秒 30 帧的 Background Matting 2.0 等。这些方法或多或少都有其局限性。

近日，来自谷歌的几位研究者提出了一种全新的人像重照明（portrait relighting）和背景替换系统，该系统不仅保留了高频边界细节，并精确地合成了目标人像在新照明下的外观，从而为任何所需场景生成逼真的合成图像。该研究的亮点是通过前景蒙版（alpha matting）、重照明（relighting）和合成（compositing）进行前景估计。

推荐：该论文已被 SIGGRAPH 2021 会议接收。

论文 6：Graph Learning： A Survey

摘要：本文是对图学习的最全面综述，重点关注四类已有的图学习方法，包括图信号处理、矩阵分解、随机游走和深度学习，回顾了采用这四类方法的主要模型和算法。此外，研究者探讨了文本、图像、科学、知识图谱和组合优化等领域的图学习应用。本文作者来自澳大利亚联邦大学、大连理工、莫纳什大学和亚利桑那州立大学。

推荐：最新图机器学习论文综述。

论文 7：Locate then Segment： A Strong Pipeline for Referring Image Segmentation

摘要：如何通过自然语言定位并分割出场景中的目标物体？比如给定一张图片，语言指示「分割出穿白色衬衫的人」。这个任务在学术界叫做指代性物体分割（Referring Image Segmentation）。目前指代性分割的工作通常着重于设计一种隐式的递归特征交互机制用于融合视觉 - 语言特征来直接生成最终的分割结果，而没有显式建模被指代物体的位置。

为了强调语言描述的指代作用，来自中科院自动化所、字节跳动的研究者将该任务解耦为先定位再分割的方案（LTS， Locate then Segment），它在直观上也与人类的视觉感知机制相同。比如给定一句语言描述，人们通常首先会注意相应的目标图像区域，然后根据对象的环境信息生成关于对象的精细分割结果。该方法虽然很简单但效果较好。在三个流行的基准数据集上，该方法大幅度优于所有以前的方法。这个框架很有希望作为指代性分割的通用框架。

编辑：jq

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

gpu

gpu

+关注

关注
27

文章
4413

浏览量
126640
机器学习

机器学习

+关注

关注
66

文章
8112

浏览量
130545
视觉感知

视觉感知

+关注

关注
0

文章
38

浏览量
3120

原文标题：7 Papers & Radios | CV架构回归多层感知机；自动生成模型动画

文章出处：【微信号：tyutcsplab，微信公众号：智能感知与物联网技术研究所】欢迎添加关注！文章转载请注明出处。

未来已来，多传感器融合感知是自动驾驶破局的关键

的架构，预计未来许多智能驾驶团队都会引入“占用网络”来提升系统能力。多维像素的应用前景非常广阔。昱感微的融合感知技术+BEV +Transformer+占用网格有望成为L3/L4级自动驾驶最优的落地方案。昱感微电子融合

发表于 04-11 10:26

生成式 AI 制作动画：周期短、成本低！

工作室和特效公司正广泛采用生成式AI技术进行背景生成、角色创作和动作合成。这种技术的应用不仅提高了动画制作的效率，还使得动画作品在视觉效果和创意上有了更大的突破。

发表于 03-18 08:19 •2537次阅读

<b class='flag-5'>生成</b>式 AI 制作<b class='flag-5'>动画</b>：周期短、成本低！

3D人体生成模型HumanGaussian实现原理

在 3D 生成领域，根据文本提示创建高质量的 3D 人体外观和几何形状对虚拟试穿、沉浸式远程呈现等应用有深远的意义。传统方法需要经历一系列人工制作的过程，如 3D 人体模型回归、绑定、蒙皮、纹理贴图

发表于 12-20 16:37 •577次阅读

3D人体<b class='flag-5'>生成</b><b class='flag-5'>模型</b>HumanGaussian实现原理

从HumanEval到CoderEval: 你的代码生成模型真的work吗？

本文主要介绍了一个名为CoderEval的代码生成大模型评估基准，并对三个代码生成模型（CodeGen、PanGu-Coder和ChatGPT）在该基准上的表现进行了评估和比较。研究人

发表于 11-25 15:55 •740次阅读

从HumanEval到CoderEval: 你的代码<b class='flag-5'>生成</b><b class='flag-5'>模型</b>真的work吗？

Medusa如何加速大型语言模型（LLM）的生成？

面对推测性解码的复杂性，研究人员推出了Medusa技术，这个框架回归了Transformer模型的本质，减少了复杂度，增强了效率，让每个生成阶段都能快速产出结果。当将Medusa与基于树的注意机制结合时，

发表于 09-20 11:23 •486次阅读

Medusa如何加速大型语言<b class='flag-5'>模型</b>（LLM）的<b class='flag-5'>生成</b>？

在线研讨会 | 9 月 19 日，利用 GPU 加速生成式 AI 图像内容生成

生成式 AI 已经展示出其在艺术、设计、影视动画、互娱、建筑等领域加速内容创作的价值，可以简化耗时任务，让内容创作回归创意，并具有重塑无数行业的潜力。生成式 AI

发表于 09-14 17:40 •285次阅读

在线研讨会 | 9 月 19 日，利用 GPU 加速<b class='flag-5'>生成</b>式 AI 图像内容<b class='flag-5'>生成</b>

ICCV 2023 | 重塑人体动作生成，融合扩散模型与检索策略的新范式ReMoDiffuse来了

知识，涉及昂贵的系统和软件，不同软硬件系统之间可能存在兼容性问题等。随着深度学习的发展，人们开始尝试使用生成模型来实现人体动作序列的自动生成，例如通过输入文本描述，要求

发表于 09-10 22:30 •472次阅读

ICCV 2023 | 重塑人体动作<b class='flag-5'>生成</b>，融合扩散<b class='flag-5'>模型</b>与检索策略的新范式ReMoDiffuse来了

盘古大模型与ChatGPT的模型基础架构

华为盘古大模型以Transformer模型架构为基础，利用深层学习技术进行训练。模型的每个数量达到2.6亿个，是目前世界上最大的汉语预备训练模型

发表于 09-05 09:55 •1425次阅读

如何加速生成2 PyTorch扩散模型

加速生成2 PyTorch扩散模型

发表于 09-04 16:09 •820次阅读

基于扩散模型的图像生成过程

近年来，扩散模型在文本到图像生成方面取得了巨大的成功，实现了更高图像生成质量，提高了推理性能，也可以激发扩展创作灵感。不过仅凭文本来控制图像的生成往往得不到想要的结果，比如具体的人物

发表于 07-17 11:00 •2096次阅读

MBD的Simulink使用技巧：详解代码生成中的模型与代码（2）

上一篇文章中提到，生成嵌入式代码，必须选择定步长求解器。实际中，生成嵌入式代码几乎不会使用Simulink模型库中的连续模型，往往需要通过最简单的离散模块来实现算法

发表于 07-13 15:13 •2948次阅读

小鹏汽车新一代感知架构XNet信息解读

在上一代感知架构中，盲区问题很难解决。在最靠近本车的地方，尤其是车辆的下边界，感知系统的检测效果往往不好。XNet采用多相机多帧、前融合的感知方案，可以根据图像内的车身信息推测车辆在B

发表于 07-04 09:41 •502次阅读

图解大模型训练之：Megatron源码解读2，模型并行

前文说过，用Megatron做分布式训练的开源大模型有很多，我们选用的是THUDM开源的CodeGeeX（代码生成式大模型，类比于openAI Codex）。选用它的原因是“完全开源”与“清晰的

发表于 06-07 15:08 •2560次阅读

PyTorch教程5.2之多层感知器的实现

电子发烧友网站提供《PyTorch教程5.2之多层感知器的实现.pdf》资料免费下载

发表于 06-05 15:32 •0次下载

自动驾驶基础架构

”的核心价值，是为自动驾驶提供恰到好处的、全方位的技术保障。在自动驾驶系统中，如果说感知是眼睛，规划是大脑，那么基础架构就是神经系统，将自动

发表于 06-01 14:46 •0次下载