0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

惊!大脑视觉信号被Stable Diffusion复现成视频!

CVer 来源:量子位 2023-06-02 16:51 次阅读

现在,AI可以把人类脑中的信息,用高清视频展示出来了!

例如你坐在副驾所欣赏到的沿途美景信息,AI分分钟给重建了出来:

e8e12ad0-fae1-11ed-90ce-dac502259ad0.gif

看到过的水中的鱼儿、草原上的马儿,也不在话下:

e8f91f00-fae1-11ed-90ce-dac502259ad0.gif

e90528ea-fae1-11ed-90ce-dac502259ad0.gif

这就是由新加坡国立大学和香港中文大学共同完成的最新研究,团队将项目取名为MinD-Video。

e914e28a-fae1-11ed-90ce-dac502259ad0.png

Cinematic Mindscapes: High-quality Video Reconstruction from Brain Activity 主页:https://mind-video.com/ 论文:https://arxiv.org/abs/2305.11675 代码:https://github.com/jqin4749/MindVideo

这波操作,宛如科幻电影《超体》中Lucy读取反派大佬记忆一般:

e91f001c-fae1-11ed-90ce-dac502259ad0.gif

引得网友直呼:

推动人工智能和神经科学的前沿。

e94a5302-fae1-11ed-90ce-dac502259ad0.png

值得一提的是,大火的Stable Diffusion也在这次研究中立了不小的功劳。

e9588300-fae1-11ed-90ce-dac502259ad0.png

怎么做到的?

从大脑活动中重建人类视觉任务,尤其是功能磁共振成像技术(fMRI)这种非侵入式方法,一直是受到学界较多的关注。

因为类似这样的研究,有利于理解我们的认知过程。

但以往的研究都主要聚焦在重建静态图像,而以高清视频形式来展现的工作还是较为有限。

之所以会如此,是因为与重建一张静态图片不同,我们视觉所看到的场景、动作和物体的变化是连续、多样化的。

而fMRI这项技术的本质是测量血氧水平依赖(BOLD)信号,并且在每隔几秒钟的时间里捕捉大脑活动的快照。

相比之下,一个典型的视频每秒大约包含30帧画面,如果要用fMRI去重建一个2秒的视频,就需要呈现起码60帧。

因此,这项任务的难点就在于解码fMRI并以远高于fMRI时间分辨率的FPS恢复视频。

为了弥合图像和视频大脑解码之间差距,研究团队便提出了MinD-Video的方法。

整体来看,这个方法主要包含两大模块,它们分别做训练,然后再在一起做微调。

e96f0e18-fae1-11ed-90ce-dac502259ad0.png

这个模型从大脑信号中逐步学习,在第一个模块多个阶段的过程,可以获得对语义空间的更深入理解。

具体而言,便是先利用大规模无监督学习与mask brain modeling(MBM)来学习一般的视觉fMRI特征。

然后,团队使用标注数据集的多模态提取语义相关特征,在对比语言-图像预训练(CLIP)空间中使用对比学习训练fMRI编码器

在第二个模块中,团队通过与增强版Stable Diffusion模型的共同训练来微调学习到的特征,这个模型是专门为fMRI技术下的视频生成量身定制的。

如此方法之下,团队也与此前的诸多研究做了对比,可以明显地看到MinD-Video方法所生成的图片、视频质量要远优于其它方法。

e97b83f0-fae1-11ed-90ce-dac502259ad0.png

而且在场景连续变化的过程中,也能够呈现高清、有意义的连续帧。

e98d88ac-fae1-11ed-90ce-dac502259ad0.png

研究团队

这项研究的共同一作,其中一位是来自新加坡国立大学的博士生Zijiao Chen,目前在该校的神经精神疾病多模式神经成像实验室(MNNDL_Lab)。

另一位一作则是来自香港中文大学的Jiaxin Qing,就读专业是信息工程系。

除此之外,通讯作者是新加坡国立大学副教授Juan Helen ZHOU。

据了解,这次的新研究是他们团队在此前一项名为MinD-Vis的功能磁共振成像图像重建工作的延伸。

MinD-Vis已经被CVPR 2023所接收。

e99ee28c-fae1-11ed-90ce-dac502259ad0.png

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    87

    文章

    26455

    浏览量

    264070
  • 人工智能
    +关注

    关注

    1776

    文章

    43866

    浏览量

    230618
  • 视觉
    +关注

    关注

    1

    文章

    140

    浏览量

    23678

原文标题:惊!大脑视觉信号被Stable Diffusion复现成视频!"AI读脑术"又来了!

文章出处:【微信号:CVer,微信公众号:CVer】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    Stability AI试图通过新的图像生成人工智能模型保持领先地位

    Stability AI的最新图像生成模型Stable Cascade承诺比其业界领先的前身Stable Diffusion更快、更强大,而Stable
    的头像 发表于 02-19 16:03 431次阅读
    Stability AI试图通过新的图像生成人工智能模型保持领先地位

    Stability AI推出Stable audio的文本到音频生成人工智能平台

    Stability AI是一家主要以人工智能生成的视觉效果而闻名的公司,它推出了一个名为Stable audio的文本到音频生成人工智能平台。 Stable Audio使用扩散模型,与该公司更受欢迎
    的头像 发表于 09-20 10:20 947次阅读

    Stable Diffusion的完整指南:核心基础知识、制作AI数字人视频和本地部署要求

    Stable Diffusion是一种扩散模型(diffusion model)的变体,叫做“潜在扩散模型”(latent diffusion model; LDM)。扩散模型是在20
    的头像 发表于 09-18 10:06 1579次阅读
    <b class='flag-5'>Stable</b> <b class='flag-5'>Diffusion</b>的完整指南:核心基础知识、制作AI数字人<b class='flag-5'>视频</b>和本地部署要求

    Stable Diffusion的完整指南:核心基础知识、制作AI数字人视频和本地部署要求

    13400;i3 12100;i7 12700 ;i9 12900  在当今的数字时代,人工智能正在逐步改变人们的生活和工作方式。其中,Stable Diffusion作为一种深度学习技术,受到广泛关注。它能够通过对图像或视频
    的头像 发表于 09-07 14:12 1436次阅读
    <b class='flag-5'>Stable</b> <b class='flag-5'>Diffusion</b>的完整指南:核心基础知识、制作AI数字人<b class='flag-5'>视频</b>和本地部署要求

    OpenVIN赋能BLIP实现视觉语言AI边缘部署

    人类通过视觉和语言感知世界。人工智能的一个长期目标是构建智能体,通过视觉和语言输入来理解世界,并通过自然语言与人类交流。比如,在《几行代码加速 Stable Diffusion
    的头像 发表于 09-04 10:54 9987次阅读
    OpenVIN赋能BLIP实现<b class='flag-5'>视觉</b>语言AI边缘部署

    OpenVINO赋能BLIP实现视觉语言AI边缘部署

    人类通过视觉和语言感知世界。人工智能的一个长期目标是构建智能体,通过视觉和语言输入来理解世界,并通过自然语言与人类交流。比如,在《几行代码加速 Stable Diffusion
    的头像 发表于 09-01 10:26 2188次阅读

    唠嗑儿:连Stable Diffusion文生图都如此麻溜儿,英特尔Evo认证到底有些啥名堂?

    今儿暂时不推荐机型,而是结合最近的一些热点应用和舆论风向,来和大家唠个嗑儿,希望能对大家有帮助。先说几个事儿: ●来一张SD(Stable Diffusion)生成的AI图▼,用的是英特尔Iris
    的头像 发表于 08-30 14:17 419次阅读
    唠嗑儿:连<b class='flag-5'>Stable</b> <b class='flag-5'>Diffusion</b>文生图都如此麻溜儿,英特尔Evo认证到底有些啥名堂?

    树莓派能跑Stable Diffusion了?

    Stable Diffusion是一种文本到图像生成的大型深度学习模型,它可以根据文本的描述生成详细的图像,也可以用于其他任务,如图像修复、图像扩展、图像翻译等。
    的头像 发表于 07-26 11:46 1108次阅读

    使用OpenVINO在Stable Diffusion V2.1上实现AI硬件加速的方法

    随着 AIGC 模型越来越强大,并取得了更惊人的结果,任意运行 AIGC 模型, 比如 Stable Diffusion,对于开发人员来说仍然面临一些挑战。首先,GPU 的安装设置需要我们处理复杂
    的头像 发表于 07-21 11:47 1308次阅读
    使用OpenVINO在<b class='flag-5'>Stable</b> <b class='flag-5'>Diffusion</b> V2.1上实现AI硬件加速的方法

    美格智能高算力AI模组成功运行Stable Diffusion大模型

    研发团队成功在自研高算力模组上运行文生图大模型Stable Diffusion,而这仅仅是我们将思索变为实际行动的第一步,AIGC的大时代,才刚刚开始!
    的头像 发表于 07-21 11:17 609次阅读

    iPhone两秒出图,目前已知的最快移动端Stable Diffusion模型来了

    近日,Snap 研究院推出最新高性能 Stable Diffusion 模型,通过对网络结构、训练流程、损失函数全方位进行优化,在 iPhone 14 Pro 上实现 2 秒出图(512x512
    的头像 发表于 06-12 15:25 545次阅读
    iPhone两秒出图,目前已知的最快移动端<b class='flag-5'>Stable</b> <b class='flag-5'>Diffusion</b>模型来了

    基于一种移动端高性能 Stable Diffusion 模型

      Stable Diffusion (SD)是当前最热门的文本到图像(text to image)生成扩散模型。尽管其强大的图像生成能力令人震撼,一个明显的不足是需要的计算资源巨大,推理速度很慢
    的头像 发表于 06-12 10:14 428次阅读
    基于一种移动端高性能 <b class='flag-5'>Stable</b> <b class='flag-5'>Diffusion</b> 模型

    优化 Stable Diffusion 在 GKE 上的启动体验

    Diffusion 等应运而生。Stable Diffusion 是一个文字生成图像的 Diffusion 模型,它能够根据给定任何文本输入生成逼真的图像。我们在 GitHub Re
    的头像 发表于 06-03 08:35 579次阅读

    使用OpenVINO™在算力魔方上加速stable diffusion模型

    Stable Diffusion 是 stability.ai 开源的 AI 图像生成模型,实现输入文字,生成图像的功能。Stable Diffusion 将 AI 图像生成提升到了全
    的头像 发表于 05-12 09:10 948次阅读
    使用OpenVINO™在算力魔方上加速<b class='flag-5'>stable</b> <b class='flag-5'>diffusion</b>模型

    一文读懂Stable Diffusion教程,搭载高性能PC集群,实现生成式AI应用

    PC Farm、生成式AI和Stable Diffusion模型都是非常有用的工具和技术,可以帮助用户快速构建和管理计算机集群,生成高质量的数据和图像,提高模型的泛化能力和鲁棒性。
    的头像 发表于 05-01 07:47 1893次阅读
    一文读懂<b class='flag-5'>Stable</b> <b class='flag-5'>Diffusion</b>教程,搭载高性能PC集群,实现生成式AI应用