0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

英特尔研究院发布全新AI扩散模型,可根据文本提示生成360度全景图

科技讯息 来源:科技讯息 作者:科技讯息 2023-06-25 09:19 次阅读

LDM3D是业界领先的可创建深度图的生成式AI模型,有望革新内容创作、元宇宙和数字体验

英特尔研究院宣布与Blockade Labs合作发布LDM3D(Latent Diffusion Model for 3D)模型,这一全新的扩散模型使用生成式AI创建3D视觉内容。LDM3D是业界领先的利用扩散过程(diffusion process)生成深度图(depth map)的模型,进而生成逼真的、沉浸式的360度全景图。LDM3D有望革新内容创作、元宇宙应用和数字体验,改变包括娱乐、游戏、建筑和设计在内的许多行业。

英特尔研究院人工智能机器学习研究专家Vasudev Lal表示:“生成式AI技术旨在提高和增强人类创造力,并节省时间。然而,目前的大部分生成式AI模型仅限于生成2D图像,仅有少数几种可根据文本提示生成3D图像。在使用几乎相同数量参数的情况下,不同于现存的潜在扩散模型,LDM3D可以根据用户给定的文本提示同时生成图像和深度图。与深度估计中的标准后处理方法相比,LDM3D能够为图像中的每个像素提供更精准的相对深度,并为开发者省去了大量用于场景开发的时间。”

封闭的生态系统限制了规模。英特尔致力于推动AI的真正普及,通过开放的生态系统让更多人从这项技术中受益。计算机视觉领域近年来取得了重大进展,特别是在生成式AI方面。然而,当今许多先进的生成式AI模型只能生成2D图像。与通常只能根据文本提示生成2D RGB图像的现有扩散模型不同,LDM3D可以根据用户给定的文本提示同时生成图像和深度图。与深度估计(depth estimation)中的标准后处理(post-processing)方法相比,LDM3D在使用与潜在扩散模型Stable Diffusion几乎相同数量参数的情况下,能够为图像中的每个像素提供更精准的相对深度(relative depth)。

这项研究有望改变我们与数字内容的互动方式,基于文本提示为用户提供全新的体验。LDM3D生成的图像和深度图能够将诸如宁静的热带海滩、摩天大楼、科幻宇宙等文本描述转化为细致的360度全景图。LDM3D捕捉深度信息的能力,可以即时增强整体真实感和沉浸感,使各行各业的创新应用成为可能,包括娱乐、游戏、室内设计、房产销售 ,以及虚拟博物馆与沉浸式VR体验等。

6月20日,在IEEE/CVF计算机视觉和模式识别会议(CVPR)的3DMV工作坊上,LDM3D模型获得了“Best Poster Award”

LDM3D是在LAION-400M数据集包含一万个样本的子集上训练而成的。LAION-400M是一个大型图文数据集,包含超过4亿个图文对。对训练语料库进行标注时,研究团队使用了之前由英特尔研究院开发的稠密深度估计模型DPT-Large,为图像中的每个像素提供了高度准确的相对深度。LAION-400M数据集是基于研究用途创建而成的,以便广大研究人员和其它兴趣社群能在更大规模上测试模型训练。

LDM3D模型在一台英特尔AI超级计算机上完成了训练,该超级计算机由英特尔®至强®处理器和英特尔®Habana Gaudi® AI加速器驱动。最终的模型和流程整合了RGB图像和深度图,生成360度全景图,实现了沉浸式体验。

为了展示LDM3D的潜力,英特尔和Blockade的研究人员开发了应用程序DepthFusion,通过标准的2D RGB图像和深度图创建沉浸式、交互式的360度全景体验。DepthFusion利用了TouchDesigner,一种基于节点的可视化编程语言,用于实时互动多媒体内容,可将文本提示转化为交互式和沉浸式数字体验。LDM3D是能生成RGB图像及其深度图的单一模型,因此能够节省内存占用和降低延迟。

LDM3D和DepthFusion的发布,为多视角生成式AI和计算机视觉的进一步发展铺平了道路。英特尔将继续探索如何使用生成式AI增强人类能力,并致力于打造一个强大的开源AI研发生态系统,让更多人能够使用AI技术。延续英特尔对开放AI生态系统的大力支持,LDM3D正在通过HuggingFace进行开源,让AI研究人员和从业者能对这一系统作出进一步改进,并针对特定应用进行微调。

在2023年6月18日至22日举行的IEEE/CVF计算机视觉和模式识别会议上,英特尔将发表这项研究成果。欲了解更多信息,请参考论文《LDM3D: Latent Diffusion Model for 3D》。

审核编辑黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 英特尔
    +关注

    关注

    60

    文章

    9428

    浏览量

    168944
  • AI
    AI
    +关注

    关注

    87

    文章

    26478

    浏览量

    264107
  • 计算机视觉
    +关注

    关注

    8

    文章

    1601

    浏览量

    45638
收藏 人收藏

    评论

    相关推荐

    基于扩散模型的图像生成过程

    等很难用文本指定。   最近,谷歌发布了MediaPipe Diffusion插件,可以在移动设备上运行「可控文本到图像生成」的低成本解决方案,支持现有的预训练
    的头像 发表于 07-17 11:00 2113次阅读
    基于<b class='flag-5'>扩散</b><b class='flag-5'>模型</b>的图像<b class='flag-5'>生成</b>过程

    #高通 #英特尔 #Elite 高通X Elite芯片或终结苹果、英特尔的芯片王朝

    高通英特尔苹果
    深圳市浮思特科技有限公司
    发布于 :2023年10月27日 16:46:07

    英特尔转型移动领域难言乐观

      英特尔在尴尬处境下也在尝试自我救赎,高调推出的超极本,销量却并不理想。超极本推出之初,英特尔曾表示,2012年超极本市场份额将能够占到消费类笔记本市场的40%,然而根据IDC的统计,今年上半年,超
    发表于 11-07 16:33

    英特尔多款平板电脑CPU将于明年推出

    将亮相。  据了解,英特尔的Z3735D系列是专为入门级Android平板设计的Bay Trail处理器。这款处理器将于2014年第一季度发布,覆盖的产品线包括8英寸至10英寸的平板电脑,这些平板
    发表于 12-19 16:48

    中马研究院正式挂牌成立

    `  12月30日下午,中马研究院于园区正式挂牌成立,园区管委会副主任杨健豪、主任助理曹全来出席并为研究院揭牌,园区管委会经济发展局全体成员见证揭牌。  中马研究院旨在打造“立足中马、面向东盟的新型
    发表于 01-07 16:02

    教你用Android轻松实现VR全景图设计

    通过Android实现简单的VR全景图
    发表于 02-12 11:53

    为什么选择加入英特尔

    近日,加入英特尔已有3个月的明星芯片架构师Jim Keller接受了外媒VentureBeat的采访,在采访中谈及了自己加入英特尔的始末和让其为之兴奋的新角色——英特尔公司技术、系统架构和客户端事业部高级副总裁兼芯片工程事业部总
    发表于 07-25 07:31

    英特尔重点发布oneAPI v1.0,异构编程器到底是什么

    ,2019年底发布时还是属于探索的第一步,现在已经转正了。oneAPI计划的跨架构开发模型基于行业标准和开放规范,支持广泛的行业生态系统采纳该技术来推动应用开发领域的新演进。英特尔® oneAPI beta
    发表于 10-26 13:51

    怎么安装适用于Linux *的OpenVINO™工具包的英特尔®发布版?

    怎么安装适用于Linux *的OpenVINO™工具包的英特尔®发布版?
    发表于 09-23 08:33

    凌华科技发布两款基于最新的英特尔® 酷睿™处理器的模块化电脑

    凌华科技发布基于第13代英特尔® 酷睿™处理器的COM Express和COM-HPC计算模块提供高达24核的扩展计算能力以及工业级的稳定性用英特尔®性能混合架构,可实现高效率的边缘计算、IoT
    发表于 02-15 10:30

    英特尔研究院发布全新AI扩散模型可根据文本提示生成360全景图

    英特尔研究院宣布与Blockade Labs合作发布LDM3D(Latent Diffusion Model for 3D)模型,这一全新
    的头像 发表于 06-30 19:50 237次阅读

    英特尔® AMX 加速AI推理性能,助阿里电商推荐系统成功应对峰值负载压力

    达沃斯论坛|英特尔王锐:AI驱动工业元宇宙,释放数实融合无穷潜力 英特尔研究院发布全新
    的头像 发表于 07-08 14:15 332次阅读
    <b class='flag-5'>英特尔</b>® AMX 加速<b class='flag-5'>AI</b>推理性能,助阿里电商推荐系统成功应对峰值负载压力

    Meta发布一款可以使用文本提示生成代码的大型语言模型Code Llama

    今天,Meta发布了Code Llama,一款可以使用文本提示生成代码的大型语言模型(LLM)。
    的头像 发表于 08-25 09:06 955次阅读
    Meta<b class='flag-5'>发布</b>一款可以使用<b class='flag-5'>文本</b><b class='flag-5'>提示</b><b class='flag-5'>生成</b>代码的大型语言<b class='flag-5'>模型</b>Code Llama

    英特尔研究院将在NeurIPS大会上展示业界领先的AI研究成果

    英特尔研究院将重点展示31项研究成果,它们将推进面向未来的AI创新。        英特尔研究院
    的头像 发表于 12-08 09:17 405次阅读

    谷歌推出AI扩散模型Lumiere

    近日,谷歌研究院重磅推出全新AI扩散模型Lumiere,这款模型基于谷歌自主研发的“Space-
    的头像 发表于 02-04 13:49 595次阅读