0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NÜWA多模态模型支持八大视觉生成与编辑任务

微软科技 来源:微软科技 作者:微软科技 2022-03-11 09:23 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

小编说:“自然语言”正在越来越经常地出现在我们的日常生活中。你有没有想象过,我们有一天可以使用自然语言对视觉内容进行编辑?微软亚洲研究院最新推出的多模态模型 NÜWA,不仅让视觉内容创造多了一条路,甚至还让 Windows 经典桌面有了更多的打开方式。人类对于信息的感知有五种途径,包括视觉、听觉、嗅觉、触觉和味觉,其中视觉是接受信息的最主要渠道,也是创造力的源泉。在推动人工智能发展的道路上,计算机视觉已经成为一个重要的研究领域,尤其是近几年视觉创作类应用的频繁涌现,让创作变得越来越便捷,越来越多的用户可以用这些工具制作和分享身边的美好生活。与此同时,视觉类应用的广泛使用也促进了计算机视觉领域的研究。

然而,尽管这些工具功能强大,但仍有不足之处:其一,它们需要创作者手动收集和处理视觉素材,导致现有的大规模视觉数据中所包含的视觉知识无法自动地有效利用。其二,这些工具往往是通过图形界面与创作者交互,并非自然语言指令,因此对于一些用户来说,具有一定的技术门槛,他们需要拥有丰富的使用经验。在微软亚洲研究院看来,下一代可视化内容创建工具应该能够利用大数据、AI 模型帮助用户更便捷地进行内容创作,并使用自然语言作为更加友好的交互界面。

在这样的理念下,微软亚洲研究院在视频生成预训练模型的基础上进行再创新,开发了多模态的 NÜWA(Neural visUal World creAtion)模型。通过自然语言指令,NÜWA 可以实现文本、图像、视频之间的生成、转换和编辑,帮助视觉内容创作者降低技术门槛,提高创造力。同时,开发者也可以利用 NÜWA 构建基于 AI 的视觉内容创造平台。

支持八大视觉生成与编辑任务

NÜWA 目前支持八大视觉生成和编辑任务。其中,支持图像的四类任务包括:文本到图像,草图到图像,图像补全,图像编辑;支持视频的四类任务包括:文本到视频,视频草图到视频,视频预测,视频编辑。下面,让我们以 Windows 经典桌面为例,试一下 NÜWA 的几个功能。

给定一张原始图片;

让 NÜWA 将图片补全为256x256(图像补全);

让 NÜWA 在图片的红框位置处添加“一匹在草地上行走的马”(图像编辑);

让 NÜWA 将这张图片生成为一个能“动”起来的视频(视频预测)。

NÜWA-LIP:让视觉编辑更精细

NÜWA 模型已基本包含了视觉创作的核心流程,可在一定程度上辅助创作者提升效率,但在实际创作中,创作者还有很多多样且高质量的需求。为此,微软亚洲研究院的研究员们在 NÜWA 的基础之上更新迭代,于近日提出了 NÜWA-LIP 模型,并且在视觉领域的典型任务——缺陷图像修复中取得了新突破。尽管此前也有方法完成了类似的图像修复,但是模型的创作却比较随意,无法符合创作者的意愿,而 NÜWA LIP 几乎可以按照给定的自然语言指令修复、补全成人们肉眼可接受的图像。下面,让我们直观感受一下 NÜWA-LIP 神奇的图像修复效果。图2给出了两个例子。第一个例子是希望模型可以按照“Racers riding four wheelers while a crowd watches”(一群人在看摩托车手骑四轮车)来补全黑色区域。已有工作 GLIDE 虽然可以补全,但是可以看到边界处有明显的白线,并且补全的区域比较模糊。NÜWA 模型使用自回归的方式从左到右依次扫描生成,边界处相比于 GLIDE 更加自然。但是由于在补全黑色区域时看不到右侧的车轮,因此标准的 NÜWA 模型存在补全边界衔接不对的问题。NÜWA-LIP 修复了 NÜWA 这一不足,它会提前预看整个图像,并创新地使用无损编码技术,然后再自回归地生成,因此可以做到黑色区域边界处衔接自然,并且补全区域也很清晰。

NÜWA-Infinity:让视觉创作趋于 “无限流”

除了图像修复之外,微软亚洲研究院在高分辨率、大图像的横向延展方面也进行了持续研究,提出了 NÜWA Infinity 模型。顾名思义,NÜWA Infinity 可以根据给定的图像生成无限连续的高清“大片”。“一开始 NÜWA 能够生成、编辑的图像和视频的分辨率相对较低,一般是256×256分辨率的小图。我们希望通过模型可以生成更高清的大图,形成更大的视觉冲击,满足不同创作者的实际需求。简单来说,NÜWA Infinity 会根据图像的不同层次内容扫描每一帧窗口,不断渲染形成高像素、连续的大图,”微软亚洲研究院研究员吴晨飞介绍说。想知道 Windows 经典桌面的右侧是什么样么?点击下图,NÜWA-Infinity 为你“揭开”神秘面纱。

段楠补充说,“表面看 NÜWA Infinity 解决了之前 NÜWA 生成图片不高清,以及视频帧数有限的问题。但其实 NÜWA Infinity 从底层形成了一套生成机制,不仅可以对图片进行延展式的生成,也可以应用于视频预测创作,而这也是我们接下来要攻克的研究课题。”

自此,NÜWA-LIP 让机器接受语言指令自动修图成为了可能,而 NÜWA-Infinity 则使得图像生成质量向高清、无限的真实世界迈进了一大步。按照这样的迭代创新步伐,未来创作者拥有一套趋于“无限流”的视觉创作辅助工具,指日可待。

段楠补充说,“表面看 NÜWA Infinity 解决了之前 NÜWA 生成图片不高清,以及视频帧数有限的问题。但其实 NÜWA Infinity 从底层形成了一套生成机制,不仅可以对图片进行延展式的生成,也可以应用于视频预测创作,而这也是我们接下来要攻克的研究课题。”

自此,NÜWA-LIP 让机器接受语言指令自动修图成为了可能,而 NÜWA-Infinity 则使得图像生成质量向高清、无限的真实世界迈进了一大步。按照这样的迭代创新步伐,未来创作者拥有一套趋于“无限流”的视觉创作辅助工具,指日可待。

NÜWA 在八大任务中的效果

NÜWA 多模态模型连锁反应:或将带来更多“杀手级”应用

微软亚洲研究院高级研究员段楠表示,“NÜWA 是第一个多模态预训练模型。我们希望 NÜWA 可以实现真实世界的视频生成,但在训练过程中模型会产生大量的‘中间变量’,消耗巨大的显存、计算等资源。因此,NÜWA 团队与系统组的同事们联手协作,为 NÜWA 在系统架构上设置了多种并行机制,如张量并行、管道并行和数据并行,使得我们的跨模态训练成为可能。”

未来,随着人工智能技术的发展,增强现实、虚拟现实等沉浸式的人机交互界面将会得到更广泛的应用,数字世界和物理世界的结合也将越来越紧密。而不同类型的多模态内容则是拉近虚拟空间与现实世界的强力胶,因此,虚拟内容的创建、编辑和交互将至关重要。NÜWA 提供的视觉内容生成和编辑技术,为这些应用提供了无限的想象空间。当多模态技术成为未来人工智能应用发展的方向时,多模态模型将会为学习、广告、新闻、会议、娱乐、社交网络、数字人、脑机交互等领域带来更多的下一代“杀手级”应用。

原文标题:用一句话,让AI画一匹马是什么体验?

文章出处:【微信公众号:微软科技】欢迎添加关注!文章转载请注明出处。

审核编辑:汤梓红

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据
    +关注

    关注

    8

    文章

    7317

    浏览量

    94073
  • AI
    AI
    +关注

    关注

    90

    文章

    38341

    浏览量

    297442
  • 模型
    +关注

    关注

    1

    文章

    3656

    浏览量

    51768

原文标题:用一句话,让AI画一匹马是什么体验?

文章出处:【微信号:mstech2014,微信公众号:微软科技】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    亚马逊云科技上线Amazon Nova模态嵌入模型

    Embeddings模态嵌入模型现已在Amazon Bedrock上线,这是一款专为Agentic RAG与语义搜索应用打造的顶尖模态
    的头像 发表于 10-29 17:15 133次阅读
    亚马逊云科技上线Amazon Nova<b class='flag-5'>多</b><b class='flag-5'>模态</b>嵌入<b class='flag-5'>模型</b>

    米尔RK3576部署端侧模态轮对话,6TOPS算力驱动30亿参数LLM

    加载 → 图片预处理 → 用户交互 → 推理输出”的核心流程,支持图文一体的模态对话,适配轮问答、视觉问答等典型场景。 具体运行机制可拆
    发表于 09-05 17:25

    基于米尔瑞芯微RK3576开发板的Qwen2-VL-3B模型NPU模态部署评测

    这类模态模型支持图像和文本交互)中,“视觉 + 投影”(Vision + Projector)是
    发表于 08-29 18:08

    研华科技携手创新奇智推出模态模型AI一体机

    这是一款基于研华高性能边缘计算平台MIC-733,深度集成创新奇智视觉模型模态模型的边缘智能终端,通过创新的“
    的头像 发表于 07-17 17:14 801次阅读
    研华科技携手创新奇智推出<b class='flag-5'>多</b><b class='flag-5'>模态</b>大<b class='flag-5'>模型</b>AI一体机

    爱芯通元NPU适配Qwen2.5-VL-3B视觉模态模型

    熟悉爱芯通元NPU的网友很清楚,从去年开始我们在端侧模态模型适配上一直处于主动紧跟的节奏。先后适配了国内最早开源的模态大模MiniCP
    的头像 发表于 04-21 10:56 2619次阅读
    爱芯通元NPU适配Qwen2.5-VL-3B<b class='flag-5'>视觉</b><b class='flag-5'>多</b><b class='flag-5'>模态</b>大<b class='flag-5'>模型</b>

    基于MindSpeed MM玩转Qwen2.5VL模态理解模型

    模态理解模型是让AI像人类一样,通过整合多维度信息(如视觉、语言、听觉等),理解数据背后的语义、情感、逻辑或场景,从而完成推理、决策等任务
    的头像 发表于 04-18 09:30 2716次阅读
    基于MindSpeed MM玩转Qwen2.5VL<b class='flag-5'>多</b><b class='flag-5'>模态</b>理解<b class='flag-5'>模型</b>

    移远通信智能模组全面接入模态AI大模型,重塑智能交互新体验

    全系智能模组产品已全面接入火山引擎豆包VLM(视觉语言)模态AI大模型。这一突破性进展表明,搭载移远任意智能模组的终端设备,均可无缝融合
    发表于 03-21 14:12 443次阅读
    移远通信智能模组全面接入<b class='flag-5'>多</b><b class='flag-5'>模态</b>AI大<b class='flag-5'>模型</b>,重塑智能交互新体验

    移远通信智能模组全面接入模态AI大模型,重塑智能交互新体验

    智能模组产品已全面接入火山引擎豆包VLM(视觉语言)模态AI大模型。这一突破性进展表明,搭载移远任意智能模组的终端设备,均可无缝融合
    的头像 发表于 03-20 19:03 674次阅读
    移远通信智能模组全面接入<b class='flag-5'>多</b><b class='flag-5'>模态</b>AI大<b class='flag-5'>模型</b>,重塑智能交互新体验

    ​VLM(视觉语言模型)​详细解析

    视觉语言模型(Visual Language Model, VLM)是一种结合视觉(图像/视频)和语言(文本)处理能力的模态人工智能
    的头像 发表于 03-17 15:32 7745次阅读
    ​VLM(<b class='flag-5'>视觉</b>语言<b class='flag-5'>模型</b>)​详细解析

    阶跃星辰开源模态模型,天数智芯迅速适配

    近日,头部大模型创业公司阶跃星辰在行业内引起了轩然大波,宣布正式开源两款Step系列模态模型——Step-Video-T2V视频生成
    的头像 发表于 02-19 14:30 841次阅读

    海康威视发布模态模型文搜存储系列产品

    模态模型为安防行业带来重大技术革新,基于观澜大模型技术体系,海康威视将大参数量、大样本量的图文模态
    的头像 发表于 02-18 10:33 1052次阅读

    一文详解视觉语言模型

    视觉语言模型(VLM)是一种模态生成式 AI 模型,能够理解和处理视频、图像和文本。
    的头像 发表于 02-12 11:13 3339次阅读
    一文详解<b class='flag-5'>视觉</b>语言<b class='flag-5'>模型</b>

    字节跳动即将推出模态视频生成模型OmniHuman

    字节跳动旗下一站式AI创作平台即梦AI即将迎来重大更新,全新模态视频生成模型OmniHuman即将上线。这款模型是字节跳动自研的闭源
    的头像 发表于 02-08 10:53 1159次阅读

    安霸发布N1-655前端生成式AI芯片

    Ambarella(下称“安霸”,纳斯达克股票代码:AMBA,AI 视觉感知芯片公司)在 CES 上发布了 N1-655 前端生成式 AI 芯片(SoC),该芯片可同时处理 12 路 1080p30 视频解码,并且可运行多个
    的头像 发表于 01-09 10:29 1521次阅读

    商汤日日新模态模型权威评测第一

    刚刚,商汤科技日日新SenseNova模态模型,在权威综合评测权威平台OpenCompass的模态评测中取得榜单第一。
    的头像 发表于 12-20 10:39 1527次阅读