在今年的国际学习表征大会(ICLR)上,NVIDIA 发表了 70 余篇论文,其内容涵盖医疗、机器人、自动驾驶汽车以及大语言模型等领域。
推动 AI 进步需要采用全栈式方法,这依赖于包括加速处理器和网络技术在内的强大计算基础设施,并将其与优化的编译器、算法及应用程序相连接。
NVIDIA Research 正在该领域进行全方位的创新,并在此过程中为几乎所有行业提供支持。在近日举行的国际学习表征大会(ICLR)上,NVIDIA 提交了 70 余篇论文,展示了 AI 在自动驾驶汽车、医疗、多模态内容创作、机器人等领域的应用进展。
NVIDIA 应用深度学习研究副总裁 Bryan Catanzaro 表示:“ICLR 是全球最具影响力的 AI 会议之一,研究人员在此发布推动各行各业进步的关键技术创新。NVIDIA 今年提交的研究成果旨在加速计算堆栈的各个层级,从而增强 AI 在各行业的影响力和实用性。”
解决现实世界挑战的研究工作
NVIDIA 在 ICLR 上提交的多篇论文聚焦多模态生成式 AI 领域的突破性进展,以及 AI 训练和合成数据生成的新方法,具体包括:
Fugatto:Fugatto 是世界上最灵活的音频生成式 AI 模型。根据输入的文本提示和音频文件,它能够生成或修改包含任意的音乐、人声和声音组合的作品。在 ICLR 上展示的其他 NVIDIA 模型对音频大语言模型(LLM)进行了改进,以使其更好地理解语音。
HAMSTER:这篇论文提出了一种视觉-语言-动作模型的分层设计方案,它可以更好地从域外微调数据(即无需在真实机器人硬件上收集的低成本数据)中迁移知识,进而提升机器人在测试场景中的技能水平。
Hymba:这个小语言模型家族采用混合模型架构,由此创造的 LLM 融合了 Transformer 模型和状态空间模型的优势,实现了高分辨率记忆检索、高效的上下文总结以及常识推理任务。借助这种混合模型架构,Hymba 在保持性能的前提下将吞吐量提升了 3 倍,缓存减少至约1/4。
LongVILA:该训练流程实现了高效的视觉语言模型训练与推理,以支持长视频理解。使用长视频训练 AI 模型时,需要大量算力和密集内存,而这篇论文提出的系统可以高效地并行处理长视频的训练和推理,在 256 块 GPU 上进行训练时可扩展到多达 200 万个 token。LongVILA 在 9 个主流视频基准测试中均达到当前最优性能。
LLaMaFlex:这篇论文提出了一种全新的零样本生成技术,可从单个大型模型来构建一系列压缩 LLM 家族。研究人员发现,LLaMaFlex 生成的压缩模型在精度上媲美或优于现有剪枝、弹性架构及从头训练的模型。相比剪枝和知识蒸馏等技术,这种能力能够显著降低训练模型家族的成本。
Proteina:该模型可以生成多样且可设计的蛋白质骨架,即维持蛋白质结构的框架。它采用 Transformer 模型架构,参数数量是此前模型的 5 倍。
SRSA:这个框架解决了使用现有技能库教会机器人执行新任务的难题。这意味着机器人无需从头学习,而是能够将现有技能应用并适配到新任务中。研究人员开发了预测最相关预置技能的框架,使机器人在执行未知任务时的零样本成功率提高了 19%。
STORM:通过仅需少量快照即可推断出精确的 3D 表示,该模型能够重建动态户外场景,比如行驶的汽车或随风摇曳的树木。该模型能够在 200 毫秒内重建大规模户外场景,在自动驾驶开发中具有应用潜力。
-
机器人
+关注
关注
213文章
30622浏览量
219699 -
NVIDIA
+关注
关注
14文章
5496浏览量
109118 -
AI
+关注
关注
90文章
38203浏览量
297050
原文标题:NVIDIA Research 在 ICLR 大会引领新一波多模态生成式 AI 浪潮
文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。
发布评论请先 登录
今日看点:消息称已有模组企业调整原定产品规划;华为将发布 AI 领域突破性技术
NVIDIA AI助力科学研究领域持续突破
使用NVIDIA Earth-2生成式AI基础模型革新气候建模
华为公布AI基础设施架构突破性新进展
NVIDIA实现神经网络渲染技术的突破性增强功能
移远通信智能模组全面接入多模态AI大模型,重塑智能交互新体验

NVIDIA在多模态生成式AI领域的突破性进展
评论