0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

英特尔研究院发布全新AI扩散模型,可根据文本提示生成360度全景图

英特尔中国 来源:未知 2023-06-30 19:50 次阅读

英特尔研究院宣布与Blockade Labs合作发布LDM3D(Latent Diffusion Model for 3D)模型,这一全新的扩散模型使用生成式AI创建3D视觉内容。LDM3D是业界领先的利用扩散过程(diffusion process)生成深度图(depth map)的模型,进而生成逼真的、沉浸式的360度全景图。LDM3D有望革新内容创作、元宇宙应用和数字体验,改变包括娱乐、游戏、建筑和设计在内的许多行业。

生成式AI技术旨在提高和增强人类创造力,并节省时间。然而,目前的大部分生成式AI模型仅限于生成2D图像,仅有少数几种可根据文本提示生成3D图像。在使用几乎相同数量参数的情况下,不同于现存的潜在扩散模型,LDM3D可以根据用户给定的文本提示同时生成图像和深度图。与深度估计中的标准后处理方法相比,LDM3D能够为图像中的每个像素提供更精准的相对深度,并为开发者省去了大量用于场景开发的时间。

--Vasudev Lal

英特尔研究院人工智能机器学习研究专家

封闭的生态系统限制了规模。英特尔致力于推动AI的真正普及,通过开放的生态系统让更多人从这项技术中受益。计算机视觉领域近年来取得了重大进展,特别是在生成式AI方面。然而,当今许多先进的生成式AI模型只能生成2D图像。与通常只能根据文本提示生成2D RGB图像的现有扩散模型不同,LDM3D可以根据用户给定的文本提示同时生成图像和深度图。与深度估计(depth estimation)中的标准后处理(post-processing)方法相比,LDM3D在使用与潜在扩散模型Stable Diffusion几乎相同数量参数的情况下,能够为图像中的每个像素提供更精准的相对深度(relative depth)。

这项研究有望改变我们与数字内容的互动方式,基于文本提示为用户提供全新的体验。LDM3D生成的图像和深度图能够将诸如宁静的热带海滩、摩天大楼、科幻宇宙等文本描述转化为细致的360度全景图。LDM3D捕捉深度信息的能力,可以即时增强整体真实感和沉浸感,使各行各业的创新应用成为可能,包括娱乐、游戏、室内设计、房产销售,以及虚拟博物馆与沉浸式VR体验等。

6月20日,在IEEE/CVF计算机视觉和模式识别会议(CVPR)的3DMV工作坊上,LDM3D模型获得了“Best Poster Award”。

LDM3D是在LAION-400M数据集包含一万个样本的子集上训练而成的。LAION-400M是一个大型图文数据集,包含超过4亿个图文对。对训练语料库进行标注时,研究团队使用了之前由英特尔研究院开发的稠密深度估计模型DPT-Large,为图像中的每个像素提供了高度准确的相对深度。LAION-400M数据集是基于研究用途创建而成的,以便广大研究人员和其它兴趣社群能在更大规模上测试模型训练。

为了展示LDM3D的潜力,英特尔和Blockade的研究人员开发了应用程序DepthFusion,通过标准的2D RGB图像和深度图创建沉浸式、交互式的360度全景体验。DepthFusion利用了TouchDesigner,一种基于节点的可视化编程语言,用于实时互动多媒体内容,可将文本提示转化为交互式和沉浸式数字体验。LDM3D是能生成RGB图像及其深度图的单一模型,因此能够节省内存占用和降低延迟。

备注:

1 地址:https://huggingface.co/docs/diffusers/main/en/api/pipelines/stable_diffusion/ldm3d_diffusion

2 地址:

https://arxiv.org/abs/2305.10853


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 英特尔
    +关注

    关注

    60

    文章

    9429

    浏览量

    168951
  • cpu
    cpu
    +关注

    关注

    68

    文章

    10455

    浏览量

    206589

原文标题:英特尔研究院发布全新AI扩散模型,可根据文本提示生成360度全景图

文章出处:【微信号:英特尔中国,微信公众号:英特尔中国】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    谷歌发布全新AI模型Genie

    谷歌近日发布了其全新AI模型Genie,这一模型彻底改变了我们与数字世界的互动方式。Genie不仅可以接收
    的头像 发表于 02-28 18:25 1158次阅读

    谷歌推出AI扩散模型Lumiere

    近日,谷歌研究院重磅推出全新AI扩散模型Lumiere,这款模型基于谷歌自主研发的“Space-
    的头像 发表于 02-04 13:49 595次阅读

    英特尔酷睿14代处理器系列发布,Arrowlake/LunarLake24年问世

    处理器英特尔
    looger123
    发布于 :2024年01月10日 17:44:38

    英特尔研究院将在NeurIPS大会上展示业界领先的AI研究成果

    英特尔研究院将在NeurIPS 2023大会上展示一系列富有价值、业界领先的AI创新成果。面向广大开发者、研究人员和学界人士,这一AI和计算
    的头像 发表于 12-08 19:15 352次阅读

    英特尔研究院将在NeurIPS大会上展示业界领先的AI研究成果

    英特尔研究院将重点展示31项研究成果,它们将推进面向未来的AI创新。        英特尔研究院
    的头像 发表于 12-08 09:17 405次阅读

    #高通 #英特尔 #Elite 高通X Elite芯片或终结苹果、英特尔的芯片王朝

    高通英特尔苹果
    深圳市浮思特科技有限公司
    发布于 :2023年10月27日 16:46:07

    2023英特尔on技术创新大会:英特尔研究院展示多项技术“魔法”

    中探索如何帮助人类应对在计算、连接、从云到边缘的基础设施、AI、传感和感知等领域面临的重大技术挑战。 这就是英特尔研究院(Intel Labs)在做的事情。2023英特尔on技术创新大
    的头像 发表于 09-26 17:25 288次阅读
    2023<b class='flag-5'>英特尔</b>on技术创新大会:<b class='flag-5'>英特尔</b><b class='flag-5'>研究院</b>展示多项技术“魔法”

    英特尔研究院副总裁、英特尔中国研究院院长宋继强:英特尔技术为全行业带来卓越贡献

    英特尔作为全球资深芯片厂商,为广大消费者所认知的是其高性能的PC、服务器、移动端处理器,但是忽略了作为行业众多协议标准的制定者和领导者,其技术底蕴是非常深厚的。近日,我们收到了来自英特尔研究院对于
    的头像 发表于 09-26 14:06 309次阅读

    如何加速生成2 PyTorch扩散模型

    加速生成2 PyTorch扩散模型
    的头像 发表于 09-04 16:09 823次阅读
    如何加速<b class='flag-5'>生成</b>2 PyTorch<b class='flag-5'>扩散</b><b class='flag-5'>模型</b>

    Meta发布一款可以使用文本提示生成代码的大型语言模型Code Llama

    今天,Meta发布了Code Llama,一款可以使用文本提示生成代码的大型语言模型(LLM)。
    的头像 发表于 08-25 09:06 955次阅读
    Meta<b class='flag-5'>发布</b>一款可以使用<b class='flag-5'>文本</b><b class='flag-5'>提示</b><b class='flag-5'>生成</b>代码的大型语言<b class='flag-5'>模型</b>Code Llama

    英特尔媒体加速器参考软件Linux版用户指南

    英特尔媒体加速器参考软件是用于数字标志、交互式白板(IWBs)和亭位使用模型的参考媒体播放器应用软件,它利用固定功能硬件加速来提高媒体流速、改进工作量平衡和资源利用,以及定制的图形处理股(GPU)管道解决方案。该用户指南将介绍和解释如何为Linux* 使用
    发表于 08-04 06:34

    基于扩散模型的图像生成过程

    等很难用文本指定。   最近,谷歌发布了MediaPipe Diffusion插件,可以在移动设备上运行「可控文本到图像生成」的低成本解决方案,支持现有的预训练
    的头像 发表于 07-17 11:00 2113次阅读
    基于<b class='flag-5'>扩散</b><b class='flag-5'>模型</b>的图像<b class='flag-5'>生成</b>过程

    英特尔® AMX 加速AI推理性能,助阿里电商推荐系统成功应对峰值负载压力

    达沃斯论坛|英特尔王锐:AI驱动工业元宇宙,释放数实融合无穷潜力 英特尔研究院发布全新
    的头像 发表于 07-08 14:15 332次阅读
    <b class='flag-5'>英特尔</b>® AMX 加速<b class='flag-5'>AI</b>推理性能,助阿里电商推荐系统成功应对峰值负载压力

    英特尔研究院发布全新AI扩散模型可根据文本提示生成360全景图

    LDM3D是业界领先的可创建深度图的生成AI模型,有望革新内容创作、元宇宙和数字体验 英特尔研究院宣布与Blockade Labs合作
    的头像 发表于 06-25 09:19 281次阅读

    基于文本到图像模型的可控文本到视频生成

    文本到视频模型需要大量高质量的视频和计算资源,这限制了相关社区进一步的研究和应用。为了减少过度的训练要求,我们研究了一种新的高效形式:基于文本
    的头像 发表于 06-14 10:39 588次阅读
    基于<b class='flag-5'>文本</b>到图像<b class='flag-5'>模型</b>的可控<b class='flag-5'>文本</b>到视频<b class='flag-5'>生成</b>