0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

惊!大脑视觉信号被Stable Diffusion复现成视频!

CVer 来源:量子位 2023-06-02 16:51 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

现在,AI可以把人类脑中的信息,用高清视频展示出来了!

例如你坐在副驾所欣赏到的沿途美景信息,AI分分钟给重建了出来:

e8e12ad0-fae1-11ed-90ce-dac502259ad0.gif

看到过的水中的鱼儿、草原上的马儿,也不在话下:

e8f91f00-fae1-11ed-90ce-dac502259ad0.gif

e90528ea-fae1-11ed-90ce-dac502259ad0.gif

这就是由新加坡国立大学和香港中文大学共同完成的最新研究,团队将项目取名为MinD-Video。

e914e28a-fae1-11ed-90ce-dac502259ad0.png

Cinematic Mindscapes: High-quality Video Reconstruction from Brain Activity 主页:https://mind-video.com/ 论文:https://arxiv.org/abs/2305.11675 代码:https://github.com/jqin4749/MindVideo

这波操作,宛如科幻电影《超体》中Lucy读取反派大佬记忆一般:

e91f001c-fae1-11ed-90ce-dac502259ad0.gif

引得网友直呼:

推动人工智能和神经科学的前沿。

e94a5302-fae1-11ed-90ce-dac502259ad0.png

值得一提的是,大火的Stable Diffusion也在这次研究中立了不小的功劳。

e9588300-fae1-11ed-90ce-dac502259ad0.png

怎么做到的?

从大脑活动中重建人类视觉任务,尤其是功能磁共振成像技术(fMRI)这种非侵入式方法,一直是受到学界较多的关注。

因为类似这样的研究,有利于理解我们的认知过程。

但以往的研究都主要聚焦在重建静态图像,而以高清视频形式来展现的工作还是较为有限。

之所以会如此,是因为与重建一张静态图片不同,我们视觉所看到的场景、动作和物体的变化是连续、多样化的。

而fMRI这项技术的本质是测量血氧水平依赖(BOLD)信号,并且在每隔几秒钟的时间里捕捉大脑活动的快照。

相比之下,一个典型的视频每秒大约包含30帧画面,如果要用fMRI去重建一个2秒的视频,就需要呈现起码60帧。

因此,这项任务的难点就在于解码fMRI并以远高于fMRI时间分辨率的FPS恢复视频。

为了弥合图像和视频大脑解码之间差距,研究团队便提出了MinD-Video的方法。

整体来看,这个方法主要包含两大模块,它们分别做训练,然后再在一起做微调。

e96f0e18-fae1-11ed-90ce-dac502259ad0.png

这个模型从大脑信号中逐步学习,在第一个模块多个阶段的过程,可以获得对语义空间的更深入理解。

具体而言,便是先利用大规模无监督学习与mask brain modeling(MBM)来学习一般的视觉fMRI特征。

然后,团队使用标注数据集的多模态提取语义相关特征,在对比语言-图像预训练(CLIP)空间中使用对比学习训练fMRI编码器

在第二个模块中,团队通过与增强版Stable Diffusion模型的共同训练来微调学习到的特征,这个模型是专门为fMRI技术下的视频生成量身定制的。

如此方法之下,团队也与此前的诸多研究做了对比,可以明显地看到MinD-Video方法所生成的图片、视频质量要远优于其它方法。

e97b83f0-fae1-11ed-90ce-dac502259ad0.png

而且在场景连续变化的过程中,也能够呈现高清、有意义的连续帧。

e98d88ac-fae1-11ed-90ce-dac502259ad0.png

研究团队

这项研究的共同一作,其中一位是来自新加坡国立大学的博士生Zijiao Chen,目前在该校的神经精神疾病多模式神经成像实验室(MNNDL_Lab)。

另一位一作则是来自香港中文大学的Jiaxin Qing,就读专业是信息工程系。

除此之外,通讯作者是新加坡国立大学副教授Juan Helen ZHOU。

据了解,这次的新研究是他们团队在此前一项名为MinD-Vis的功能磁共振成像图像重建工作的延伸。

MinD-Vis已经被CVPR 2023所接收。

e99ee28c-fae1-11ed-90ce-dac502259ad0.png

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    89

    文章

    38171

    浏览量

    296884
  • 人工智能
    +关注

    关注

    1813

    文章

    49752

    浏览量

    261624
  • 视觉
    +关注

    关注

    1

    文章

    171

    浏览量

    24715
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    国产视觉软件企业加速布局90亿市场潜力

    作为工业自动化的“大脑”,视觉软件是实现图像采集、处理、分析与设备控制的核心支撑,直接决定了机器视觉系统的感知精度与应用效能。
    的头像 发表于 12-03 15:05 440次阅读

    本地部署Stable Diffusion实现AI文字生成高质量矢量图片应用于电子商务

    本地部署Stable Diffusion
    的头像 发表于 11-28 07:19 477次阅读

    工业4.0的“数据桥梁”:图像采集卡如何撑起智能制造的视觉核心

    工业4.0的本质是数据驱动的智能制造。在这个由物联网、大数据和人工智能构成的智慧工厂里,机器视觉系统扮演着“火眼金睛”的角色,而图像采集卡,正是连接这双“眼睛”与“大脑”(中央处理系统)不可或缺
    的头像 发表于 11-17 16:01 775次阅读
    工业4.0的“数据桥梁”:图像采集卡如何撑起智能制造的<b class='flag-5'>视觉</b>核心

    工业图像采集卡:机器视觉的“信号中枢”

    一、定位:连接物理视界与数字大脑的重要枢纽在工业自动化生产线的精密检测工位上,当高速相机捕捉到PCB板的微米级纹路时,一个常被忽视却至关重要的硬件正在完成关键转换——工业图像采集卡如同“信号翻译官
    的头像 发表于 11-06 15:09 159次阅读
    工业图像采集卡:机器<b class='flag-5'>视觉</b>的“<b class='flag-5'>信号</b>中枢”

    图像采集卡重要功能解析:打通视频信号处理全链路

    :实现模拟与数字的“双向奔赴”前端摄像头、摄像机等设备常输出模拟视频信号,这类信号难以计算机直接识别处理。图像采集卡的首要重要功能,便是通过内置的高精度模数转换
    的头像 发表于 10-20 16:57 472次阅读
    图像采集卡重要功能解析:打通<b class='flag-5'>视频信号</b>处理全链路

    信号处理到视觉感知:CM2001AT 与 索尼FCB-EV9520L 驱动车载智能升级

    系统的关键支撑:前者以 “信号处理中枢” 解决高清视频高效编码与稳定传输难题,后者以 “敏锐视觉之眼” 实现复杂环境下精准图像采集。二者形成 “感知 - 处理 - 传输” 闭环,为自动驾驶、车辆监控提供核心动力,推动车载
    的头像 发表于 09-15 16:25 633次阅读

    视频信号延长方案

    新龙鹏科技延长方案简介  Introduction to the Extension Scheme   适用于部署大屏幕广告、大型视频会议、家庭影院、医疗设备、金融系统、公共交通设施等场所的高清信号
    的头像 发表于 08-29 10:42 409次阅读
    <b class='flag-5'>视频信号</b>延长方案

    是德N5173B信号发生器在EMC测试中的干扰信号精准复现技巧

    具备宽频段覆盖、高精度调制和灵活的信号生成能力,成为EMC实验室中复现干扰信号的重要工具。掌握其使用技巧,可有效提升测试的精准性和效率。   二、干扰信号精准
    的头像 发表于 06-03 16:09 611次阅读
    是德N5173B<b class='flag-5'>信号</b>发生器在EMC测试中的干扰<b class='flag-5'>信号</b>精准<b class='flag-5'>复现</b>技巧

    Diffusion生成式动作引擎技术解析

    Diffusion生成式动作引擎 Diffusion生成式动作引擎是一种基于扩散模型(Diffusion Models)的生成式人工智能技术,专注于生成连续、逼真的人类动作或动画序列。这类引擎在游戏
    的头像 发表于 03-17 15:14 2712次阅读

    IGBT模块的反向恢复现

    IGBT模块的反向恢复现象是指在IGBT关断时,其内部集成的续流二极管(FWD)从正向导通状态转变为反向截止状态过程中出现的一些特定物理现象和电气特性变化。
    的头像 发表于 03-13 14:39 3450次阅读
    IGBT模块的反向恢<b class='flag-5'>复现</b>象

    使用OpenVINO GenAI和LoRA适配器进行图像生成

    借助生成式 AI 模型(如 Stable Diffusion 和 FLUX.1),用户可以将平平无奇的文本提示词转换为令人惊艳的视觉效果。
    的头像 发表于 03-12 13:49 1554次阅读
    使用OpenVINO GenAI和LoRA适配器进行图像生成

    安装OpenVINO™工具包稳定扩散后报错,怎么解决?

    :\\stable-openvino2\\stable-diffusion-webui-master\\venv\\lib\\site-packages\\diffusers\\models
    发表于 03-05 06:56

    Meta非入侵式脑机技术:AI读取大脑信号打字准确率80%

    脑机技术主要通过AI模型与特定硬件的结合,将用户的大脑信号映射成具体的键盘字符。该技术的准确率高达约80%,能够准确判断用户在“敲击”的按键,从而实现文字输入。 值得注意的是,这项设备完全依靠外部脑机读取用户的大脑
    的头像 发表于 02-11 15:45 1033次阅读

    Meta AI推出Brain2Qwerty:非侵入性大脑信号转文本系统

    。 Brain2Qwerty系统主要依赖于非侵入性的技术手段来捕捉和解析大脑活动。具体而言,它结合了脑电图(EEG)和脑磁图(MEG)这两种先进的神经科学工具,以精确记录志愿者在思考过程中的大脑信号。 在研究过程中,Meta A
    的头像 发表于 02-11 13:37 877次阅读

    如何开启Stable Diffusion WebUI模型推理部署

    如何开启Stable Diffusion WebUI模型推理部署
    的头像 发表于 12-11 20:13 1156次阅读
    如何开启<b class='flag-5'>Stable</b> <b class='flag-5'>Diffusion</b> WebUI模型推理部署