NVIDIA在多模态生成式AI领域的突破性进展-电子发烧友网

在今年的国际学习表征大会（ICLR）上，NVIDIA 发表了 70 余篇论文，其内容涵盖医疗、机器人、自动驾驶汽车以及大语言模型等领域。

推动 AI 进步需要采用全栈式方法，这依赖于包括加速处理器和网络技术在内的强大计算基础设施，并将其与优化的编译器、算法及应用程序相连接。

NVIDIA Research 正在该领域进行全方位的创新，并在此过程中为几乎所有行业提供支持。在近日举行的国际学习表征大会（ICLR）上，NVIDIA 提交了 70 余篇论文，展示了 AI 在自动驾驶汽车、医疗、多模态内容创作、机器人等领域的应用进展。

NVIDIA 应用深度学习研究副总裁 Bryan Catanzaro 表示：“ICLR 是全球最具影响力的 AI 会议之一，研究人员在此发布推动各行各业进步的关键技术创新。NVIDIA 今年提交的研究成果旨在加速计算堆栈的各个层级，从而增强 AI 在各行业的影响力和实用性。”

解决现实世界挑战的研究工作

NVIDIA 在 ICLR 上提交的多篇论文聚焦多模态生成式 AI 领域的突破性进展，以及 AI 训练和合成数据生成的新方法，具体包括：

Fugatto：Fugatto 是世界上最灵活的音频生成式 AI 模型。根据输入的文本提示和音频文件，它能够生成或修改包含任意的音乐、人声和声音组合的作品。在 ICLR 上展示的其他 NVIDIA 模型对音频大语言模型（LLM）进行了改进，以使其更好地理解语音。

HAMSTER：这篇论文提出了一种视觉-语言-动作模型的分层设计方案，它可以更好地从域外微调数据（即无需在真实机器人硬件上收集的低成本数据）中迁移知识，进而提升机器人在测试场景中的技能水平。

Hymba：这个小语言模型家族采用混合模型架构，由此创造的 LLM 融合了 Transformer 模型和状态空间模型的优势，实现了高分辨率记忆检索、高效的上下文总结以及常识推理任务。借助这种混合模型架构，Hymba 在保持性能的前提下将吞吐量提升了 3 倍，缓存减少至约1/4。

LongVILA：该训练流程实现了高效的视觉语言模型训练与推理，以支持长视频理解。使用长视频训练 AI 模型时，需要大量算力和密集内存，而这篇论文提出的系统可以高效地并行处理长视频的训练和推理，在 256 块 GPU 上进行训练时可扩展到多达 200 万个 token。LongVILA 在 9 个主流视频基准测试中均达到当前最优性能。

LLaMaFlex：这篇论文提出了一种全新的零样本生成技术，可从单个大型模型来构建一系列压缩 LLM 家族。研究人员发现，LLaMaFlex 生成的压缩模型在精度上媲美或优于现有剪枝、弹性架构及从头训练的模型。相比剪枝和知识蒸馏等技术，这种能力能够显著降低训练模型家族的成本。

Proteina：该模型可以生成多样且可设计的蛋白质骨架，即维持蛋白质结构的框架。它采用 Transformer 模型架构，参数数量是此前模型的 5 倍。

SRSA：这个框架解决了使用现有技能库教会机器人执行新任务的难题。这意味着机器人无需从头学习，而是能够将现有技能应用并适配到新任务中。研究人员开发了预测最相关预置技能的框架，使机器人在执行未知任务时的零样本成功率提高了 19%。

STORM：通过仅需少量快照即可推断出精确的 3D 表示，该模型能够重建动态户外场景，比如行驶的汽车或随风摇曳的树木。该模型能够在 200 毫秒内重建大规模户外场景，在自动驾驶开发中具有应用潜力。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

机器人

机器人

+关注

关注
213

文章
30622

浏览量
219699
NVIDIA

NVIDIA

+关注

关注
14

文章
5496

浏览量
109118
AI

AI

+关注

关注
90

文章
38203

浏览量
297050

原文标题：NVIDIA Research 在 ICLR 大会引领新一波多模态生成式 AI 浪潮

文章出处：【微信号：NVIDIA-Enterprise，微信公众号：NVIDIA英伟达企业解决方案】欢迎添加关注！文章转载请注明出处。

搜索历史

NVIDIA在多模态生成式AI领域的突破性进展

评论