0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA在多模态生成式AI领域的突破性进展

NVIDIA英伟达企业解决方案 来源:NVIDIA英伟达企业解决方案 2025-05-15 10:49 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

在今年的国际学习表征大会(ICLR)上,NVIDIA 发表了 70 余篇论文,其内容涵盖医疗、机器人自动驾驶汽车以及大语言模型等领域。

推动 AI 进步需要采用全栈式方法,这依赖于包括加速处理器和网络技术在内的强大计算基础设施,并将其与优化的编译器、算法及应用程序相连接。

NVIDIA Research 正在该领域进行全方位的创新,并在此过程中为几乎所有行业提供支持。在近日举行的国际学习表征大会(ICLR)上,NVIDIA 提交了 70 余篇论文,展示了 AI 在自动驾驶汽车、医疗、多模态内容创作、机器人等领域的应用进展。

NVIDIA 应用深度学习研究副总裁 Bryan Catanzaro 表示:“ICLR 是全球最具影响力的 AI 会议之一,研究人员在此发布推动各行各业进步的关键技术创新。NVIDIA 今年提交的研究成果旨在加速计算堆栈的各个层级,从而增强 AI 在各行业的影响力和实用性。”

解决现实世界挑战的研究工作

NVIDIA 在 ICLR 上提交的多篇论文聚焦多模态生成式 AI 领域的突破性进展,以及 AI 训练和合成数据生成的新方法,具体包括:

Fugatto:Fugatto 是世界上最灵活的音频生成式 AI 模型。根据输入的文本提示和音频文件,它能够生成或修改包含任意的音乐、人声和声音组合的作品。在 ICLR 上展示的其他 NVIDIA 模型对音频大语言模型(LLM)进行了改进,以使其更好地理解语音。

HAMSTER:这篇论文提出了一种视觉-语言-动作模型的分层设计方案,它可以更好地从域外微调数据(即无需在真实机器人硬件上收集的低成本数据)中迁移知识,进而提升机器人在测试场景中的技能水平。

Hymba:这个小语言模型家族采用混合模型架构,由此创造的 LLM 融合了 Transformer 模型和状态空间模型的优势,实现了高分辨率记忆检索、高效的上下文总结以及常识推理任务。借助这种混合模型架构,Hymba 在保持性能的前提下将吞吐量提升了 3 倍,缓存减少至约1/4。

LongVILA:该训练流程实现了高效的视觉语言模型训练与推理,以支持长视频理解。使用长视频训练 AI 模型时,需要大量算力和密集内存,而这篇论文提出的系统可以高效地并行处理长视频的训练和推理,在 256 块 GPU 上进行训练时可扩展到多达 200 万个 token。LongVILA 在 9 个主流视频基准测试中均达到当前最优性能。

LLaMaFlex:这篇论文提出了一种全新的零样本生成技术,可从单个大型模型来构建一系列压缩 LLM 家族。研究人员发现,LLaMaFlex 生成的压缩模型在精度上媲美或优于现有剪枝、弹性架构及从头训练的模型。相比剪枝和知识蒸馏等技术,这种能力能够显著降低训练模型家族的成本。

Proteina:该模型可以生成多样且可设计的蛋白质骨架,即维持蛋白质结构的框架。它采用 Transformer 模型架构,参数数量是此前模型的 5 倍。

SRSA:这个框架解决了使用现有技能库教会机器人执行新任务的难题。这意味着机器人无需从头学习,而是能够将现有技能应用并适配到新任务中。研究人员开发了预测最相关预置技能的框架,使机器人在执行未知任务时的零样本成功率提高了 19%。

STORM:通过仅需少量快照即可推断出精确的 3D 表示,该模型能够重建动态户外场景,比如行驶的汽车或随风摇曳的树木。该模型能够在 200 毫秒内重建大规模户外场景,在自动驾驶开发中具有应用潜力。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器人
    +关注

    关注

    213

    文章

    30622

    浏览量

    219699
  • NVIDIA
    +关注

    关注

    14

    文章

    5496

    浏览量

    109118
  • AI
    AI
    +关注

    关注

    90

    文章

    38203

    浏览量

    297050

原文标题:NVIDIA Research 在 ICLR 大会引领新一波多模态生成式 AI 浪潮

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    今日看点:消息称已有模组企业调整原定产品规划;华为将发布 AI 领域突破性技术

    华为将发布 AI 领域突破性技术 业内消息指出,华为将于 11 月 21 日发布一项 AI 领域突破性
    发表于 11-17 10:47 1115次阅读

    清华大学石墨负极储能领域取得系列突破性进展

    清华大学石墨负极储能领域取得系列突破性进展   电子发烧友网综合报道 全球能源结构向清洁能源转型的背景下,大规模电化学储能技术成为保障能
    的头像 发表于 09-22 02:34 3756次阅读
    清华大学<b class='flag-5'>在</b>石墨负极储能<b class='flag-5'>领域</b>取得系列<b class='flag-5'>突破性</b><b class='flag-5'>进展</b>

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI芯片到AGI芯片

    2)渗透AI的优势 5、大型模态模型 模态模型(LMM)可以被理解成大模型的更高级版本,
    发表于 09-18 15:31

    NVIDIA AI助力科学研究领域持续突破

    随着 AI 技术的广泛应用,AI 正在成为科学研究的引擎。NVIDIA 作为重要的技术推手,持续驱动着 AI 系统解锁更多领域的科学
    的头像 发表于 08-05 16:30 968次阅读

    使用NVIDIA Earth-2生成AI基础模型革新气候建模

    NVIDIA 正通过 cBottle(Climate in a Bottle 的简称)为这项工作带来新的突破,这是全球首个专为以公里尺度分辨率模拟全球气候而设计的生成
    的头像 发表于 06-12 15:54 1052次阅读

    华为公布AI基础设施架构突破性进展

    近日,华为公司常务董事、华为云计算CEO张平安在华为云生态大会2025上公布了AI基础设施架构突破性进展——推出基于新型高速总线架构的CloudMatrix 384超节点集群,并宣布已在芜湖数据中心规模上线。
    的头像 发表于 04-12 15:09 1694次阅读

    NVIDIA实现神经网络渲染技术的突破性增强功能

    近日,NVIDIA 宣布了 NVIDIA RTX 神经网络渲染技术的突破性增强功能。NVIDIA 与微软合作,将在 4 月的 Microsoft DirectX 预览版中增加神经网络着
    的头像 发表于 04-07 11:33 884次阅读

    2025设备管理新范式:生成AI故障知识库中的创新应用

    生成 AI 提供了全新的解决方案,引领设备管理进入“健康治理”新纪元。传统设备管理深陷知识困局,知识沉淀遭遇“三重断点”,而生成
    的头像 发表于 03-31 10:44 931次阅读
    2025设备管理新范式:<b class='flag-5'>生成</b><b class='flag-5'>式</b><b class='flag-5'>AI</b><b class='flag-5'>在</b>故障知识库中的创新应用

    移远通信智能模组全面接入模态AI大模型,重塑智能交互新体验

    全系智能模组产品已全面接入火山引擎豆包VLM(视觉语言)模态AI大模型。这一突破性进展表明,搭载移远任意智能模组的终端设备,均可无缝融合
    发表于 03-21 14:12 427次阅读
    移远通信智能模组全面接入<b class='flag-5'>多</b><b class='flag-5'>模态</b><b class='flag-5'>AI</b>大模型,重塑智能交互新体验

    移远通信智能模组全面接入模态AI大模型,重塑智能交互新体验

    智能模组产品已全面接入火山引擎豆包VLM(视觉语言)模态AI大模型。这一突破性进展表明,搭载移远任意智能模组的终端设备,均可无缝融合
    的头像 发表于 03-20 19:03 670次阅读
    移远通信智能模组全面接入<b class='flag-5'>多</b><b class='flag-5'>模态</b><b class='flag-5'>AI</b>大模型,重塑智能交互新体验

    NVIDIACES 2025带来多项发布

    NVIDIA 创始人兼首席执行官黄仁勋北京时间 1 月 7 日发表了 CES 开幕主题演讲,介绍了加速计算技术 AI、机器人、游戏和自动驾驶领域
    的头像 发表于 01-13 11:30 1280次阅读

    NVIDIA Omniverse扩展至生成物理AI领域

    NVIDIA近日宣布,其Omniverse™平台再次实现重大突破,成功推出多个生成AI模型和蓝图,将Omniverse的应用范围进一步扩展
    的头像 发表于 01-13 10:56 1071次阅读

    国内生成AI备案数量突破300款

    截至2024年底,我国生成人工智能服务领域取得了显著进展,国家互联网信息办公室备案的生成
    的头像 发表于 01-09 11:14 1146次阅读

    NVIDIA推出多个生成AI模型和蓝图

    NVIDIA 宣布推出多个生成 AI 模型和蓝图,将 NVIDIA Omniverse 一体化进一步扩展至物理
    的头像 发表于 01-08 10:48 1038次阅读

    麻省理工科技评论:2025年AI领域突破性技术

    《麻省理工科技评论》于1月3日公布2025年十大突破性技术,其中AI相关技术有:生成AI搜索:整合
    的头像 发表于 01-07 23:40 1623次阅读
    麻省理工科技评论:2025年<b class='flag-5'>AI</b><b class='flag-5'>领域</b><b class='flag-5'>突破性</b>技术