惊！大脑视觉信号被Stable Diffusion复现成视频！-电子发烧友网

现在，AI可以把人类脑中的信息，用高清视频展示出来了！

例如你坐在副驾所欣赏到的沿途美景信息，AI分分钟给重建了出来：

看到过的水中的鱼儿、草原上的马儿，也不在话下：

这就是由新加坡国立大学和香港中文大学共同完成的最新研究，团队将项目取名为MinD-Video。

Cinematic Mindscapes: High-quality Video Reconstruction from Brain Activity 主页：https://mind-video.com/ 论文：https://arxiv.org/abs/2305.11675 代码：https://github.com/jqin4749/MindVideo

这波操作，宛如科幻电影《超体》中Lucy读取反派大佬记忆一般：

引得网友直呼：

推动人工智能和神经科学的前沿。

值得一提的是，大火的Stable Diffusion也在这次研究中立了不小的功劳。

怎么做到的？

从大脑活动中重建人类视觉任务，尤其是功能磁共振成像技术（fMRI）这种非侵入式方法，一直是受到学界较多的关注。

因为类似这样的研究，有利于理解我们的认知过程。

但以往的研究都主要聚焦在重建静态图像，而以高清视频形式来展现的工作还是较为有限。

之所以会如此，是因为与重建一张静态图片不同，我们视觉所看到的场景、动作和物体的变化是连续、多样化的。

而fMRI这项技术的本质是测量血氧水平依赖（BOLD）信号，并且在每隔几秒钟的时间里捕捉大脑活动的快照。

相比之下，一个典型的视频每秒大约包含30帧画面，如果要用fMRI去重建一个2秒的视频，就需要呈现起码60帧。

因此，这项任务的难点就在于解码fMRI并以远高于fMRI时间分辨率的FPS恢复视频。

为了弥合图像和视频大脑解码之间差距，研究团队便提出了MinD-Video的方法。

整体来看，这个方法主要包含两大模块，它们分别做训练，然后再在一起做微调。

这个模型从大脑信号中逐步学习，在第一个模块多个阶段的过程，可以获得对语义空间的更深入理解。

具体而言，便是先利用大规模无监督学习与mask brain modeling（MBM）来学习一般的视觉fMRI特征。

然后，团队使用标注数据集的多模态提取语义相关特征，在对比语言-图像预训练（CLIP）空间中使用对比学习训练fMRI编码器。

在第二个模块中，团队通过与增强版Stable Diffusion模型的共同训练来微调学习到的特征，这个模型是专门为fMRI技术下的视频生成量身定制的。

如此方法之下，团队也与此前的诸多研究做了对比，可以明显地看到MinD-Video方法所生成的图片、视频质量要远优于其它方法。

而且在场景连续变化的过程中，也能够呈现高清、有意义的连续帧。

研究团队

这项研究的共同一作，其中一位是来自新加坡国立大学的博士生Zijiao Chen，目前在该校的神经精神疾病多模式神经成像实验室（MNNDL_Lab）。

另一位一作则是来自香港中文大学的Jiaxin Qing，就读专业是信息工程系。

除此之外，通讯作者是新加坡国立大学副教授Juan Helen ZHOU。

据了解，这次的新研究是他们团队在此前一项名为MinD-Vis的功能磁共振成像图像重建工作的延伸。

MinD-Vis已经被CVPR 2023所接收。

审核编辑：李倩

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

AI

AI

+关注

关注
87

文章
26455

浏览量
264070
人工智能

人工智能

+关注

关注
1776

文章
43866

浏览量
230618
视觉

视觉

+关注

关注
1

文章
140

浏览量
23678

原文标题：惊！大脑视觉信号被Stable Diffusion复现成视频！"AI读脑术"又来了！

文章出处：【微信号：CVer，微信公众号：CVer】欢迎添加关注！文章转载请注明出处。

Stability AI试图通过新的图像生成人工智能模型保持领先地位

Stability AI的最新图像生成模型Stable Cascade承诺比其业界领先的前身Stable Diffusion更快、更强大，而Stable

发表于 02-19 16:03 •431次阅读

Stability AI推出Stable audio的文本到音频生成人工智能平台

Stability AI是一家主要以人工智能生成的视觉效果而闻名的公司，它推出了一个名为Stable audio的文本到音频生成人工智能平台。 Stable Audio使用扩散模型，与该公司更受欢迎

发表于 09-20 10:20 •947次阅读

Stable Diffusion的完整指南：核心基础知识、制作AI数字人视频和本地部署要求

Stable Diffusion是一种扩散模型（diffusion model）的变体，叫做“潜在扩散模型”（latent diffusion model; LDM）。扩散模型是在20

发表于 09-18 10:06 •1579次阅读

<b class='flag-5'>Stable</b> <b class='flag-5'>Diffusion</b>的完整指南：核心基础知识、制作AI数字人<b class='flag-5'>视频</b>和本地部署要求

Stable Diffusion的完整指南：核心基础知识、制作AI数字人视频和本地部署要求

13400;i3 12100;i7 12700 ;i9 12900 在当今的数字时代,人工智能正在逐步改变人们的生活和工作方式。其中,Stable Diffusion作为一种深度学习技术,受到广泛关注。它能够通过对图像或视频

发表于 09-07 14:12 •1436次阅读

OpenVIN赋能BLIP实现视觉语言AI边缘部署

人类通过视觉和语言感知世界。人工智能的一个长期目标是构建智能体，通过视觉和语言输入来理解世界，并通过自然语言与人类交流。比如，在《几行代码加速 Stable Diffusion

发表于 09-04 10:54 •9987次阅读

OpenVIN赋能BLIP实现<b class='flag-5'>视觉</b>语言AI边缘部署

OpenVINO赋能BLIP实现视觉语言AI边缘部署

发表于 09-01 10:26 •2188次阅读

唠嗑儿：连Stable Diffusion文生图都如此麻溜儿，英特尔Evo认证到底有些啥名堂？

今儿暂时不推荐机型，而是结合最近的一些热点应用和舆论风向，来和大家唠个嗑儿，希望能对大家有帮助。先说几个事儿： ●来一张SD（Stable Diffusion）生成的AI图▼，用的是英特尔Iris

发表于 08-30 14:17 •419次阅读

唠嗑儿：连<b class='flag-5'>Stable</b> <b class='flag-5'>Diffusion</b>文生图都如此麻溜儿，英特尔Evo认证到底有些啥名堂？

树莓派能跑Stable Diffusion了？

Stable Diffusion是一种文本到图像生成的大型深度学习模型，它可以根据文本的描述生成详细的图像，也可以用于其他任务，如图像修复、图像扩展、图像翻译等。

发表于 07-26 11:46 •1108次阅读

使用OpenVINO在Stable Diffusion V2.1上实现AI硬件加速的方法

随着 AIGC 模型越来越强大，并取得了更惊人的结果，任意运行 AIGC 模型, 比如 Stable Diffusion，对于开发人员来说仍然面临一些挑战。首先，GPU 的安装设置需要我们处理复杂

发表于 07-21 11:47 •1308次阅读

使用OpenVINO在<b class='flag-5'>Stable</b> <b class='flag-5'>Diffusion</b> V2.1上实现AI硬件加速的方法

美格智能高算力AI模组成功运行Stable Diffusion大模型

研发团队成功在自研高算力模组上运行文生图大模型Stable Diffusion，而这仅仅是我们将思索变为实际行动的第一步，AIGC的大时代，才刚刚开始！

发表于 07-21 11:17 •609次阅读

iPhone两秒出图，目前已知的最快移动端Stable Diffusion模型来了

近日，Snap 研究院推出最新高性能 Stable Diffusion 模型，通过对网络结构、训练流程、损失函数全方位进行优化，在 iPhone 14 Pro 上实现 2 秒出图（512x512

发表于 06-12 15:25 •545次阅读

iPhone两秒出图，目前已知的最快移动端<b class='flag-5'>Stable</b> <b class='flag-5'>Diffusion</b>模型来了

基于一种移动端高性能 Stable Diffusion 模型

Stable Diffusion （SD）是当前最热门的文本到图像（text to image）生成扩散模型。尽管其强大的图像生成能力令人震撼，一个明显的不足是需要的计算资源巨大，推理速度很慢

发表于 06-12 10:14 •428次阅读

基于一种移动端高性能 <b class='flag-5'>Stable</b> <b class='flag-5'>Diffusion</b> 模型

优化 Stable Diffusion 在 GKE 上的启动体验

Diffusion 等应运而生。Stable Diffusion 是一个文字生成图像的 Diffusion 模型，它能够根据给定任何文本输入生成逼真的图像。我们在 GitHub Re

发表于 06-03 08:35 •579次阅读

使用OpenVINO™在算力魔方上加速stable diffusion模型

Stable Diffusion 是 stability.ai 开源的 AI 图像生成模型，实现输入文字，生成图像的功能。Stable Diffusion 将 AI 图像生成提升到了全

发表于 05-12 09:10 •948次阅读

使用OpenVINO™在算力魔方上加速<b class='flag-5'>stable</b> <b class='flag-5'>diffusion</b>模型

一文读懂Stable Diffusion教程，搭载高性能PC集群，实现生成式AI应用

PC Farm、生成式AI和Stable Diffusion模型都是非常有用的工具和技术，可以帮助用户快速构建和管理计算机集群，生成高质量的数据和图像，提高模型的泛化能力和鲁棒性。

发表于 05-01 07:47 •1893次阅读

搜索历史

惊！大脑视觉信号被Stable Diffusion复现成视频！

评论

Stability AI试图通过新的图像生成人工智能模型保持领先地位

Stability AI推出Stable audio的文本到音频生成人工智能平台

Stable Diffusion的完整指南：核心基础知识、制作AI数字人视频和本地部署要求

Stable Diffusion的完整指南：核心基础知识、制作AI数字人视频和本地部署要求

OpenVIN赋能BLIP实现视觉语言AI边缘部署

OpenVINO赋能BLIP实现视觉语言AI边缘部署

唠嗑儿：连Stable Diffusion文生图都如此麻溜儿，英特尔Evo认证到底有些啥名堂？

树莓派能跑Stable Diffusion了？

使用OpenVINO在Stable Diffusion V2.1上实现AI硬件加速的方法

美格智能高算力AI模组成功运行Stable Diffusion大模型

iPhone两秒出图，目前已知的最快移动端Stable Diffusion模型来了

基于一种移动端高性能 Stable Diffusion 模型

优化 Stable Diffusion 在 GKE 上的启动体验

使用OpenVINO™在算力魔方上加速stable diffusion模型

一文读懂Stable Diffusion教程，搭载高性能PC集群，实现生成式AI应用