0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA在多模态生成式AI领域的突破性进展

NVIDIA英伟达企业解决方案 来源:NVIDIA英伟达企业解决方案 2025-05-15 10:49 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

在今年的国际学习表征大会(ICLR)上,NVIDIA 发表了 70 余篇论文,其内容涵盖医疗、机器人自动驾驶汽车以及大语言模型等领域。

推动 AI 进步需要采用全栈式方法,这依赖于包括加速处理器和网络技术在内的强大计算基础设施,并将其与优化的编译器、算法及应用程序相连接。

NVIDIA Research 正在该领域进行全方位的创新,并在此过程中为几乎所有行业提供支持。在近日举行的国际学习表征大会(ICLR)上,NVIDIA 提交了 70 余篇论文,展示了 AI 在自动驾驶汽车、医疗、多模态内容创作、机器人等领域的应用进展。

NVIDIA 应用深度学习研究副总裁 Bryan Catanzaro 表示:“ICLR 是全球最具影响力的 AI 会议之一,研究人员在此发布推动各行各业进步的关键技术创新。NVIDIA 今年提交的研究成果旨在加速计算堆栈的各个层级,从而增强 AI 在各行业的影响力和实用性。”

解决现实世界挑战的研究工作

NVIDIA 在 ICLR 上提交的多篇论文聚焦多模态生成式 AI 领域的突破性进展,以及 AI 训练和合成数据生成的新方法,具体包括:

Fugatto:Fugatto 是世界上最灵活的音频生成式 AI 模型。根据输入的文本提示和音频文件,它能够生成或修改包含任意的音乐、人声和声音组合的作品。在 ICLR 上展示的其他 NVIDIA 模型对音频大语言模型(LLM)进行了改进,以使其更好地理解语音。

HAMSTER:这篇论文提出了一种视觉-语言-动作模型的分层设计方案,它可以更好地从域外微调数据(即无需在真实机器人硬件上收集的低成本数据)中迁移知识,进而提升机器人在测试场景中的技能水平。

Hymba:这个小语言模型家族采用混合模型架构,由此创造的 LLM 融合了 Transformer 模型和状态空间模型的优势,实现了高分辨率记忆检索、高效的上下文总结以及常识推理任务。借助这种混合模型架构,Hymba 在保持性能的前提下将吞吐量提升了 3 倍,缓存减少至约1/4。

LongVILA:该训练流程实现了高效的视觉语言模型训练与推理,以支持长视频理解。使用长视频训练 AI 模型时,需要大量算力和密集内存,而这篇论文提出的系统可以高效地并行处理长视频的训练和推理,在 256 块 GPU 上进行训练时可扩展到多达 200 万个 token。LongVILA 在 9 个主流视频基准测试中均达到当前最优性能。

LLaMaFlex:这篇论文提出了一种全新的零样本生成技术,可从单个大型模型来构建一系列压缩 LLM 家族。研究人员发现,LLaMaFlex 生成的压缩模型在精度上媲美或优于现有剪枝、弹性架构及从头训练的模型。相比剪枝和知识蒸馏等技术,这种能力能够显著降低训练模型家族的成本。

Proteina:该模型可以生成多样且可设计的蛋白质骨架,即维持蛋白质结构的框架。它采用 Transformer 模型架构,参数数量是此前模型的 5 倍。

SRSA:这个框架解决了使用现有技能库教会机器人执行新任务的难题。这意味着机器人无需从头学习,而是能够将现有技能应用并适配到新任务中。研究人员开发了预测最相关预置技能的框架,使机器人在执行未知任务时的零样本成功率提高了 19%。

STORM:通过仅需少量快照即可推断出精确的 3D 表示,该模型能够重建动态户外场景,比如行驶的汽车或随风摇曳的树木。该模型能够在 200 毫秒内重建大规模户外场景,在自动驾驶开发中具有应用潜力。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器人
    +关注

    关注

    214

    文章

    31691

    浏览量

    224633
  • NVIDIA
    +关注

    关注

    14

    文章

    5732

    浏览量

    110342
  • AI
    AI
    +关注

    关注

    91

    文章

    42209

    浏览量

    303208

原文标题:NVIDIA Research 在 ICLR 大会引领新一波多模态生成式 AI 浪潮

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    全域复杂环境飞行适应AI评估系统融合大模型人工智能技术

    全域复杂环境飞行适应AI评估系统融合大模型人工智能技术 一、系统概述 北京华盛恒辉全域复杂环境飞行适应AI评估系统本系统面向航空、无人飞行器及低空通航
    发表于 05-29 11:37

    NVIDIA RTX PRO 5000 Blackwell GPU卡系统深度测评

    NVIDIA RTX PRO 5000 Blackwell 基于突破性NVIDIA Blackwell 架构构建,并配备 48GB 或 72GB 超高速 GDDR7 内存,有助于加速 AI
    的头像 发表于 05-25 09:19 330次阅读
    <b class='flag-5'>NVIDIA</b> RTX PRO 5000 Blackwell GPU<b class='flag-5'>多</b>卡系统深度测评

    NVIDIA发布Nemotron 3 Nano Omni开放模态模型

    今日发布的 NVIDIA Nemotron 3 Nano Omni 是一款开放模态模型,它将上述功能集成至一个系统中,使智能体能够对视频、音频、图像和文本进行高级推理,从而提供更快
    的头像 发表于 05-08 10:06 638次阅读

    模态大模型 前沿算法与实战应用 第一季》精品课程简介

    技术,需要开发者同时具备模态编码、跨模态对齐、系统优化等跨领域能力。从算法原理到项目落地,关键在于理解不同模态的互补,并通过合理的融合策略
    发表于 05-01 17:46

    雷曼光电入选ICDT 2026显示行业十大突破性进展榜单

    4月1日,国际信息显示学会中国区(简称:SID China)主办的2026国际显示技术大会(ICDT 2026)重庆正式启幕,作为大会十周年里程碑的重磅环节,“显示行业十大突破性进展”榜单同期揭晓,雷曼光电核心产品——雷曼Mi
    的头像 发表于 04-03 11:09 662次阅读

    融合场耦合效应:生成人工智能技术演进及其航空发动机复杂工程系统中的赋能机制研究

    人工智能技术正经历着从感知智能向生成智能、再向代理智能与物理智能演进的深刻变革。在这一进程中,生成AI技术的突破性发展尤为引人瞩目,其不仅
    的头像 发表于 02-26 10:07 781次阅读
    融合<b class='flag-5'>多</b>场耦合效应:<b class='flag-5'>生成</b><b class='flag-5'>式</b>人工智能技术演进及其<b class='flag-5'>在</b>航空发动机复杂工程系统中的赋能机制研究

    NVIDIA TensorRT Edge-LLM汽车与机器人行业的落地应用

    大语言模型(LLM)与模态推理系统正迅速突破数据中心的局限。越来越多的汽车与机器人领域的开发者希望将对话
    的头像 发表于 01-14 09:10 3365次阅读
    <b class='flag-5'>NVIDIA</b> TensorRT Edge-LLM<b class='flag-5'>在</b>汽车与机器人行业的落地应用

    NVIDIA技术推动化学和材料科学发展

    NVIDIA Holoscan 推动实时纳米成像技术取得突破性进展NVIDIA ALCHEMI 促进先进材料和冷却技术的发现。
    的头像 发表于 11-25 10:45 913次阅读

    今日看点:消息称已有模组企业调整原定产品规划;华为将发布 AI 领域突破性技术

    华为将发布 AI 领域突破性技术 业内消息指出,华为将于 11 月 21 日发布一项 AI 领域突破性
    发表于 11-17 10:47 1379次阅读

    清华大学石墨负极储能领域取得系列突破性进展

    清华大学石墨负极储能领域取得系列突破性进展   电子发烧友网综合报道 全球能源结构向清洁能源转型的背景下,大规模电化学储能技术成为保障能
    的头像 发表于 09-22 02:34 5177次阅读
    清华大学<b class='flag-5'>在</b>石墨负极储能<b class='flag-5'>领域</b>取得系列<b class='flag-5'>突破性</b><b class='flag-5'>进展</b>

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI芯片到AGI芯片

    2)渗透AI的优势 5、大型模态模型 模态模型(LMM)可以被理解成大模型的更高级版本,
    发表于 09-18 15:31

    NVIDIA AI助力科学研究领域持续突破

    随着 AI 技术的广泛应用,AI 正在成为科学研究的引擎。NVIDIA 作为重要的技术推手,持续驱动着 AI 系统解锁更多领域的科学
    的头像 发表于 08-05 16:30 1385次阅读

    龙芯产品赋能千行百业的突破性进展

    近日,2025龙芯产品发布暨用户大会在北京成功举办。本次大会集中展示了龙芯从基础民生到国防安全、从石油化工到航空航天、从智慧农业到轨道交通等领域的全栈创新应用成果,多角度、全方位呈现了龙芯用科技赋能千行百业的突破性进展,为与会嘉
    的头像 发表于 07-11 09:48 1543次阅读

    NVIDIA助力图灵新讯美推出企业级模态视觉大模型融合解决方案

    中国推出企业级模态视觉大模型融合解决方案,推动先进 AI 模型交通治理、工业质检、金融风控等领域实现高效识别、精准预警和稳定交付。
    的头像 发表于 06-26 09:17 1643次阅读

    使用NVIDIA Earth-2生成AI基础模型革新气候建模

    NVIDIA 正通过 cBottle(Climate in a Bottle 的简称)为这项工作带来新的突破,这是全球首个专为以公里尺度分辨率模拟全球气候而设计的生成
    的头像 发表于 06-12 15:54 1548次阅读