0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA视觉生成式AI的最新进展

NVIDIA英伟达企业解决方案 来源:NVIDIA英伟达企业解决方案 2024-09-09 10:08 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

NVIDIA Research 发表 50 多篇论文,介绍 AI 软件在创意产业、自动驾驶汽车开发、医疗和机器人领域的潜在应用。

NVIDIA 的研究人员站在快速发展的视觉生成式 AI 领域最前沿,正在开发用于创建和解释图像、视频与 3D 环境的新技术。

NVIDIA日前在西雅图举行的国际计算机视觉与模式识别会议(CVPR)上展示 50 多个此类项目成果。其中的两篇论文(一篇关于扩散模型训练动态,另一篇关于自动驾驶汽车高清地图)入围了 CVPR 最佳论文奖。

NVIDIA 同时还在 CVPR 自动驾驶大型挑战赛中获得了大规模端到端驾驶类别第一名。这座重要的里程碑代表 NVIDIA 正在将生成式 AI 全面应用于自动驾驶模型。NVIDIA 提交的获奖作品在全球 450 多件参赛作品中脱颖而出,还获得了 CVPR 创新奖。

NVIDIA 在 CVPR 上展示的研究成果包括:一种可轻松定制以描绘特定物体或角色的文本转图像模型、全新的物体姿态估计模型、神经辐射场(NeRF)编辑技术以及一种能够理解流行语的视觉语言模型等。另外还展示了介绍汽车、医疗和机器人等行业的特定领域创新的论文。

这些研究成果都加入了强大的 AI 模型,帮助创作者能够更快地将其艺术构想变为现实,加快制造业自主机器人的训练速度,通过协助处理放射学报告为医疗专业人员提供支持。

NVIDIA 感知与学习研究副总裁 Jan Kautz 表示:“人工智能,尤其是生成式人工智能,是一次关键的技术进步。从可以为专业创作者提供超强助力的强大图像生成模型,一直扩展到可以帮助开发新一代自动驾驶汽车的自动驾驶软件,都将在 CVPR 上呈现 NVIDIA Research 如何不断拓宽技术边界。”

NVIDIA 还在 CVPR 上发布了 NVIDIA Omniverse Cloud Sensor RTX,这套能实现物理级精确传感器仿真的微服务,从而加速各类全自主机器的开发工作。

无需微调,JeDi 简化自定义图像生成

扩散模型是当前基于文本生成图像的核心方法。使用扩散模型的创作者通常以一个特定的角色或物体为中心,例如围绕一只动画老鼠创作一个故事,或者集思广益讨论一款特定玩具的广告等。

此前的研究已经让这些创作者能够通过微调(即用户在自定义数据集上训练模型)对扩散模型的输出结果进行个性化处理,使模型能够专注于特定的主题。但这一过程非常耗时,而且不支持普通用户使用。

由约翰-霍普金斯大学(Johns Hopkins University)、丰田工业大学芝加哥分校(Toyota Technological Institute at Chicago)和 NVIDIA 研究人员共同撰写的论文《JeDi》提出了一种新的技术,使用户只需要使用参考图像就能在几秒钟内轻松实现个性化的扩散模型输出结果。研究小组发现该模型达到了最先进的质量水平,明显优于当前基于微调和无微调的方法。

JeDi 还可以与检索增强生成(RAG)相结合,为品牌产品目录等数据库生成特定视觉效果。

新基础模型让姿态更完美

NVIDIA 研究人员还在 CVPR 上展示了用于物体姿态估计和跟踪的基础模型 FoundationPose。该模型无需进行微调,即可在推理过程中即时应用于新的物体。

该模型通过一小组参考图像或者物体的 3D 呈现了解物体的形状,并且在流行的物体姿态估计基准测试中创下了新纪录。在了解物体形状后,它就可以识别并跟踪物体在视频中的 3D 移动和旋转情况,即使在光线条件较差或有视觉障碍物的复杂场景中也不受影响。

FoundationPose 可用于工业应用,以帮助自主机器人识别和跟踪与之交互的物体。它还可以用于增强现实应用,使用 AI 模型在实时场景上叠加视觉效果。

NeRFDeformer 转换 3D 场景,

只需一张快照

NeRF 是一种 AI 模型,可以基于在环境不同位置拍摄的一系列 2D 图像进行 3D 场景渲染。在机器人等领域,NeRF 可用于生成现实世界复杂场景的沉浸式 3D 渲染,例如杂乱无章的房间或建筑工地等。一旦需要进行更改,开发人员就需要手动定义场景的转变方式,或者重新制作 NeRF。

伊利诺伊大学香槟分校(University of Illinois Urbana-Champaign)和 NVIDIA 的研究人员则使用 NeRFDeformer 简化了这一过程。在 CVPR 大会上展示的这一方法,可以利用单张 RGB-D 图像成功转换现有的 NeRF。RGB-D 图像由正常照片与深度图组合而成,深度图可以捕捉到场景中每个物体与摄像机之间的距离。

VILA 视觉语言模型获取图像

NVIDIA 与麻省理工学院(MIT)联合开展的 CVPR 研究项目正在推动视觉语言模型技术的发展。视觉语言模型是一种能够处理视频、图像和文本的生成式 AI 模型。

该研究小组开发的 VILA 是一个开源视觉语言模型系列。在测试 AI 模型回答图像问题能力的关键基准测试中,VILA 的表现优于先前的神经网络。VILA 独特的预训练流程解锁了新的模型能力,包括更加深厚的世界知识、更强大的上下文学习能力以及多图像间的推理能力。

VILA 可以理解流行语并基于多个图像或视频进行推理。

VILA 模型系列支持使用 NVIDIA TensorRT-LLM 开源程序库进行推理优化,并且可以部署在数据中心、工作站甚至边缘设备的 NVIDIA GPU 上。

在 NVIDIA 技术博客和 GitHub 上均可进一步了解 VILA。

生成式 AI 助力自动驾驶和智慧城市研究

在 NVIDIA 主笔的 CVPR 论文中,关于自动驾驶汽车研究的论文有十多篇。其他与自动驾驶汽车相关的重点内容包括:

NVIDIA 自动驾驶汽车应用研究,赢得 CVPR 自动驾驶挑战赛冠军并在如下 demo 中进行了演示。

NVIDIA AI 研究副总裁 Sanja Fidler 于 6 月 17 日的自动驾驶研讨会上发表关于视觉语言模型的演讲。

多伦多大学和 NVIDIA 研究人员共同撰写的论文《在轨迹预测中生成和利用在线地图的不确定性》成为 24 篇入围 CVPR 最佳论文奖的论文之一。

此外,在本届 CVPR 上,NVIDIA 为 AI 城市挑战赛提供了有史以来最大的室内合成数据集,助力研究人员和开发人员推进智慧城市与工业自动化解决方案的开发。该挑战赛的数据集使用 NVIDIA Omniverse 生成,这是一个由 APISDK 和服务构成的平台,可帮助开发人员构建基于通用场景描述(OpenUSD)的应用和工作流。

NVIDIA Research 在全球拥有数百名科学家和工程师,专注于 AI、计算机图形学、计算机视觉、自动驾驶汽车和机器人等领域的研究。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5695

    浏览量

    110119
  • 自动驾驶
    +关注

    关注

    794

    文章

    14991

    浏览量

    181560
  • 生成式AI
    +关注

    关注

    0

    文章

    538

    浏览量

    1133

原文标题:CVPR 2024 | NVIDIA Research 在 CVPR 上展示视觉生成式 AI 最新进展

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    NVIDIA NVQLink推动量子计算迎来转折点

    在 GTC 上,NVIDIA 通过名为 cudaq-realtime 的全新应用程序接口(API)正式公开 NVQLink,并展示了多项推动量子纠错领域最新进展的演示成果。
    的头像 发表于 04-01 09:19 785次阅读

    OpenClaw部署新突破:国产芯片跑通、云厂商一键上云,AI手机内测

    本文将汇总手机端、芯片厂商、云厂商A为支持OpenClaw的AI端侧部署有哪些最新进展,国家互联网中心和安全软件平台为OpenClaw使用带来的最新的思路。
    的头像 发表于 03-20 09:54 2w次阅读
    OpenClaw部署新突破:国产芯片跑通、云厂商一键上云,<b class='flag-5'>AI</b>手机内测

    NVIDIA全新开放物理AI模型和框架加速人形机器人开发

    本文是洞悉 Omniverse 系列文章。“洞悉 Omniverse”重点介绍开发者、3D 从业者与企业如何使用 OpenUSD 和 NVIDIA Omniverse 的最新进展从根本上变革他们的工作流程。
    的头像 发表于 02-06 15:36 792次阅读

    国芯科技DPNPU新IP产品最新进展,单核支持0.5~4.8TOPS灵活算力配置

    国芯科技DPNPU新IP产品 最新进展,单核支持0.5~4.8TOPS 灵活算力配置   电子发烧友网综合报道 国芯科技发布公告称,其自主研发的神经网络处理器DPNPU(Dataflow
    的头像 发表于 01-09 09:19 5529次阅读
    国芯科技DPNPU新IP产品<b class='flag-5'>最新进展</b>,单核支持0.5~4.8TOPS灵活算力配置

    小鹏汽车分享在物理AI领域的最新进展

    中共中央政治局常委、国务院总理李强1月3日至5日在广东调研。在深圳市机器人谷,李强观看了机器人企业产品演示,细致询问了企业技术转化应用、产业集群发展等方面的情况。
    的头像 发表于 01-08 16:31 883次阅读

    使用OpenUSD与NVIDIA Halos构建安全物理AI系统

    如何使用 OpenUSD 和 NVIDIA Omniverse 的最新进展深入改变他们的工作流。 物理 AI 正从研究实验室走向现实世界,为智能机器人和智能汽车 (如无人驾驶出租车) 提供支持,这些系统必须在不可预测
    的头像 发表于 12-24 10:22 971次阅读

    从协议到实践——EtherNet/IP与NetStaX的最新进展

    从协议到实践——EtherNet/IP与NetStaX的最新进展
    的头像 发表于 12-19 15:26 1714次阅读
    从协议到实践——EtherNet/IP与NetStaX的<b class='flag-5'>最新进展</b>

    芯科科技分享在物联网领域的最新进展

    Labs(芯科科技)亚太区业务副总裁王禄铭、中国大陆区总经理周巍及台湾区总经理宝陆格就公司技术路线、产品策略及市场趋势回答了媒体提问。三位高管围绕安全认证、无线连接、边缘计算等议题,介绍了公司在物联网领域的最新进展
    的头像 发表于 11-13 10:48 1941次阅读

    DisplayPort汽车扩展标准新进展,显示系统灵活性和效率大幅提升

    电子发烧友网报道(文/李弯弯)2025年10月27日,VESA(视频电子标准协会)在深圳益田威斯汀酒店举办新闻发布会,详细介绍了DisplayPort汽车扩展标准(DP AE)的最新进展,同时分享了
    的头像 发表于 11-08 10:43 1.1w次阅读
    DisplayPort汽车扩展标准<b class='flag-5'>新进展</b>,显示系统灵活性和效率大幅提升

    上海光机所在激光驱动离子加速方面取得新进展

    图1 实验原理示意图 近期,中国科学院上海光学精密机械研究所超强激光科学与技术全国重点实验室宾建辉研究员团队在激光驱动离子加速方面取得新进展。相关研究成果分别以“Enhanced proton
    的头像 发表于 08-06 09:36 744次阅读
    上海光机所在激光驱动离子加速方面取得<b class='flag-5'>新进展</b>

    使用NVIDIA Cosmos模型提高未来智能汽车安全性

    本文是洞悉 Omniverse 系列文章。“洞悉 Omniverse” 重点介绍开发者、3D 从业者与企业如何使用 OpenUSD 和 NVIDIA Omniverse 的最新进展深入改变他们的工作流。
    的头像 发表于 07-14 11:46 1323次阅读

    东风汽车转型突破取得新进展

    上半年,东风汽车坚定高质量发展步伐,整体销量逐月回升,经营质量持续改善,自主品牌和新能源渗透率和收益性进一步提升,半年累计终端销售汽车111.6万辆,转型突破取得新进展
    的头像 发表于 07-10 15:29 1055次阅读

    使用NVIDIA Earth-2生成AI基础模型革新气候建模

    NVIDIA 正通过 cBottle(Climate in a Bottle 的简称)为这项工作带来新的突破,这是全球首个专为以公里尺度分辨率模拟全球气候而设计的生成 AI 基础模型
    的头像 发表于 06-12 15:54 1456次阅读

    英特尔持续推进核心制程和先进封装技术创新,分享最新进展

    近日,在2025英特尔代工大会上,英特尔展示了多代核心制程和先进封装技术的最新进展,这些突破不仅体现了英特尔在技术开发领域的持续创新,也面向客户需求提供了更高效、更灵活的解决方案。 在制程技术方面
    的头像 发表于 05-09 11:42 993次阅读
    英特尔持续推进核心制程和先进封装技术创新,分享<b class='flag-5'>最新进展</b>

    百度在AI领域的最新进展

    近日,我们在武汉举办了Create2025百度AI开发者大会,与全球各地的5000多名开发者,分享了百度在AI领域的新进展
    的头像 发表于 04-30 10:14 1485次阅读