0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

英伟达发布视频AI大模型论文,自动驾驶是其潜在应用领域

Carol Li 来源:电子发烧友网 作者:李弯弯 2023-04-23 00:02 次阅读

电子发烧友网报道(文/李弯弯)近日,英伟达与慕尼黑大学等院校的研究人员联合发布了一篇有关视频潜在扩散模型(VideoLDM,Latent Diffusion Model)的论文,该模型能够将文本转换成视频,实现高分辨率的长视频合成。

研究人员指出,该模型其中一大具有潜力的应用领域,是驾驶数据的高分辨率视频合成,能够模拟特定驾驶场景,在自动驾驶领域中具有巨大的应用潜力。

AI大模型在自动驾驶领域的应用探索

当下,文字大模型、文生图大模型发展迅速,受限于视频训练数据的计算成本高昂以及缺乏大规模公开可用的数据集等原因,视频大模型的发展相对较慢。VideoLDM则成功解决了这个关键问题。

从原理上来分析,VideoLDM基于图像数据集预训练,并在此基础上加入时间维度以形成视频框架,最后在编码的视频序列上进行微调,得到视频生成器。

目前,VideoLDM生成视频的最高分辨率可达2048×1280、24帧。在论文中,该研究团队给出了几个驾驶场景视频的生成案例:

pYYBAGRCZSOAQuZdAAfWNjkpXd4563.png

在自动驾驶领域,AI大模型被认为能够赋能感知标注、决策推理等环节。今年4月11日,毫末智行了一款自动驾驶生成式大模型DriveGPT,中文名雪湖·海若。据介绍,毫末DriveGPT雪湖·海若现阶段主要用于解决自动驾驶的认知决策问题。

DriveGPT雪湖·海若的底层模型采用GPT(Generative Pre-trained Transformer)生成式预训练大模型,与ChatGPT使用自然语言进行输入与输出有所不同,DriveGPT输入是感知融合后的文本序列,输出是自动驾驶场景文本序列,即将自动驾驶场景Token化,形成“Drive Language”,最终完成自车的决策规控、障碍物预测以及决策逻辑链的输出等任务。

毫末表示,DriveGPT雪湖·海若首发车型新摩卡DHT-PHEV,即将量产上市。DriveGPT雪湖·海若可以逐步应用到城市NOH、捷径推荐智能陪练以及脱困场景中。

汽车是AI大模型一大重要应用场景

随着众多AI大模型的发展,其商业应用场景也引起诸多思考,其中汽车被认为是其中一大重要的应用场景。最近,百度、阿里、商汤发布AI大模型,都在汽车智能方面展示出能力。

3月16日,百度正式发布文心一言,在发布会上,李彦宏展示了文心一言在文学创作、商业文案创作、数理推算、中文理解、多模态生成五个使用场景中的综合能力。

其中在多模态生成方面,文心一言展示出了文本、图片、音频和视频的生成能力。李彦宏表示,多模态是生成式AI一个明确的发展趋势。未来,随着百度多模态统一大模型的能力增强,文心一言的多模态生成能力会不断提升。

文心一言发布之后,长安汽车官宣,旗下逸达将成为国内首款搭载文心一言的量产车型,后续将通过软件升级的形式搭载到新车上。除了长安汽车外,集度、吉利、岚图、红旗、长城、东风日产、爱驰、零跑、海马等多家车企都已确认将内测体验并接入其相关能力,与百度共同打造针对汽车智能场景的大模型人工智能交互体验。

4月11日,阿里也正式发布其AI大模型通义千问。与文心一言、ChatGPT类似,作为大语言模型,通义千问支持多轮交互及复杂指令理解、多模态融合以及外部增强API,能够实现多轮对话、文案创作、逻辑推理、多模态理解、多语言支持等功能。

在近日第二十届上海国际汽车工业展览会上,阿里集团副总裁、斑马智行CEO张春晖谈到,汽车是大模型最大的交互应用场景,智能汽车操作系统将会被重塑。他表示,AliOS智能汽车操作系统已接入通义千问大模型进行测试,相关技术会率先在智己汽车上落地。

商汤科技推出的“日日新SenseNova”大模型体系,含中文语言大模型应用平台“商量SenseChat”、图片生成模型“秒画SenseMirage”、AI数字人视频生成平台“如影SenseAvatar”、3D内容生成平台“琼宇SenseSpace”和“格物SenseThings”等,

在此次展会上,商汤科技展示了其大模型在车舱智能化方面的实力,商汤语言大模型“商量SenseChat”会与嘉宾交流互动,并推荐个性化体验内容。商量SenseChat还支持邮件模式,会自动提炼邮件关键信息,帮助用户节省阅读时间。“秒画SenseMirage”文生图创作平台亦首次与展示舱结合,借助商汤AIGC模型能力自动为嘉宾生成各种风格的照片。

在“日日新SenseNova”大模型体系的支持,其自动驾驶产品方案也获得持续创新的能力。商汤绝影率先实现BEV感知在国内首批量产落地,还首创自动驾驶GOP感知体系,充分提升数据利用效率,引领感知技术突破。

商汤绝影的自动驾驶GOP感知体系可将目标数据获取的人力成本降低94%,目前已投入量产。凭借通用视觉模型,绝影有效实现了对超过3000种物体目标的高精度识别,降低智能驾驶系统对激光雷达和高精度地图的依赖。

小结

今年以来,AI大模型的发展如火如荼,国内外众多科技企业纷纷入局。随着各种AI大模型陆续发布,其商业应用场景也引起业界关注,而汽车被认为是其中一大重要的应用场景。

从目前的情况来看,百度、阿里发布的AI大模型已经在推进汽车领域的应用。不过当前主要还是在智能座舱方面,用于人工智能交流对话等领域,在自动驾驶方面的应用少有提及。估计原因在于,虽然其AI大模型都具有视频生成能力,但这方面的能力还有待升级。就如李彦宏在发布会上就提到,视频生成能力方面,因为成本较高,现阶段还未对所有用户开放,当然未来会逐步接入。

可以看到,AI大模型在汽车的智能座舱、自动驾驶等领域都将有所作为,业界也正在推进AI大模型加速上车,预计在智能座舱方面会率先落地,而在自动驾驶方面还需要在视频能力方面有更多突破。而英伟达此次发布视频模型论文,可能会起到一定的引领作用。



声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 英伟达
    +关注

    关注

    22

    文章

    3323

    浏览量

    87756
  • 自动驾驶
    +关注

    关注

    773

    文章

    13027

    浏览量

    163201
收藏 人收藏

    评论

    相关推荐

    未来已来,多传感器融合感知是自动驾驶破局的关键

    巨大的进展;自动驾驶开始摒弃手动编码规则和机器学习模型的方法,转向全面采用端到端的神经网络AI系统,它能模仿学习人类司机的驾驶,遇到场景直接输入传感器数据,再直接输出转向、制动和加速信
    发表于 04-11 10:26

    上海人工智能实验室发布自动驾驶视频生成模型GenAD

    上海人工智能实验室近日取得重大技术突破,联合香港科技大学、德国图宾根大学及香港大学共同研发并发布了大规模自动驾驶视频生成模型——GenAD。这一创新
    的头像 发表于 03-26 10:40 176次阅读

    高通自动驾驶靠软件开发革新力压英伟自动驾驶芯片

    抛开价格不谈,英伟自动驾驶芯片毫无疑问是最强的,设计范围在2019年底确定的Orin至今仍是量产最强的自动驾驶芯片,但除了奔驰外的欧美大厂更倾向于选择高通平台
    的头像 发表于 02-20 13:50 867次阅读
    高通<b class='flag-5'>自动驾驶</b>靠软件开发革新力压<b class='flag-5'>英伟</b>达<b class='flag-5'>自动驾驶</b>芯片

    自动驾驶领域的数据集汇总

    自动驾驶论文哪少的了数据集,今天笔者将为大家推荐一篇最新的综述,总结了200多个自动驾驶领域的数据集,大家堆工作量的时候也可以找一些小众的数据集刷榜~
    的头像 发表于 01-19 10:48 364次阅读
    <b class='flag-5'>自动驾驶</b><b class='flag-5'>领域</b>的数据集汇总

    LabVIEW开发自动驾驶的双目测距系统

    精确的距离信息,从而提高车辆的主动安全性能。这一系统的开发和应用有望在自动驾驶领域取得更多突破性进展。 ​ 这是LabVIEW的一个功能介绍,更多的使用方法与开发案例,欢迎登录官网,了解更多信息。有需要LabVIEW项目合作开发,请与我们联系。
    发表于 12-19 18:02

    英伟达拓展中国自动驾驶团队 高通能否战胜英伟

    英伟达(Nvidia)微信官方账号发布消息,该公司正在扩大在中国的自动驾驶团队,要招募的职缺大约25个,包括:产品工程、系统整合、车辆测试、规划控制、地图等。
    的头像 发表于 12-01 10:46 1178次阅读

    李彦宏:大模型将走向多模态,自动驾驶是大模型重构物理世界的典型代表

    世界之外,一定会重构物理世界,自动驾驶就是大模型重构物理世界的一个典型应用。”李彦宏表示,大模型将会让百度的自动驾驶能力超越经验系统,更聪明处理复杂场景,实现更广泛的时空覆盖。 作为整
    的头像 发表于 10-18 19:20 312次阅读
    李彦宏:大<b class='flag-5'>模型</b>将走向多模态,<b class='flag-5'>自动驾驶</b>是大<b class='flag-5'>模型</b>重构物理世界的典型代表

    【KV260视觉入门套件试用体验】八、VITis AI自动驾驶多任务执行MultiTask V3

    是一种模型,旨在同时执行自动驾驶场景中的不同任务,同时实现优异的性能和效率。这些任务包括对象检测、分割、车道检测、可行驶区域分割和深度估算,这些都是自动驾驶感知模块的重要组成部分。 三、代码实现
    发表于 09-26 16:43

    华为盘古大模型如何赋能自动驾驶

    ,作为高度灵活、高度模块化的AI技术平台,不仅可以应用于智慧城市、工业制造等领域,也可以为自动驾驶注入更强劲的AI动力。那么,华为盘古大模型
    的头像 发表于 08-31 10:18 1433次阅读

    自动驾驶元老吴新宙正式加入英伟达,何小鹏亲自送行

    何小鹏表示,下一阶段,小鹏汽车将与英伟达在生成式人工智能、自动驾驶领域进行更深入的合作。吴新宙接着回答说:“明天是我在英伟达上班的第一天,感谢小鹏亲自将黄先生送过来。”黄仁勋也表示:“
    的头像 发表于 08-25 09:51 698次阅读

    地平线促进自由开放的学术研究 推动自动驾驶技术发展

      地平线研究员胡义涵和刘强代表全体合作者上台领奖 6月,在加拿大温哥华举办的计算机视觉领域顶级会议CVPR上,首篇以自动驾驶为主题的最佳论文“Planning-oriented
    的头像 发表于 06-27 11:40 446次阅读

    NVIDIA 自动驾驶实验室:如何通过 AI 分割模型增强自动驾驶安全性

    感知至关重要,在处理未知条件时尤为明显。 本期自动驾驶实验室视频中,将讨论一种名为 SegFormer 的 Vision Transformer 模型,它能够在保持高效率的同时生成鲁棒的语义分割结果
    的头像 发表于 06-16 11:45 456次阅读
    NVIDIA <b class='flag-5'>自动驾驶</b>实验室:如何通过 <b class='flag-5'>AI</b> 分割<b class='flag-5'>模型</b>增强<b class='flag-5'>自动驾驶</b>安全性

    百度Apollo自动驾驶平台及自动驾驶等级

    阿波罗(Apollo)是百度发布的面向汽车行业及自动驾驶领域的合作伙伴提供的软件平台。发布时间是2017年4月19日,旨在向汽车行业及自动驾驶
    发表于 06-02 16:18 0次下载
    百度Apollo<b class='flag-5'>自动驾驶</b>平台及<b class='flag-5'>自动驾驶</b>等级

    自动驾驶基础架构

    基础架构在互联网行业中,是一个相对比较成熟的领域。然而在自动驾驶领域,却是一个新鲜的话题。基础架构的工作包括硬 件、onboard(车载系统)、云端三大板块。在我们认为,自动驾驶
    发表于 06-01 14:46 0次下载
    <b class='flag-5'>自动驾驶</b>基础架构

    联发科回应结盟英伟合攻 Arm 架构芯片传闻

    外界推测英伟将与联发科共同宣布双方在 Arm PC 相关芯片的合作,但联发科发布公告表示,这个传闻纯属外界猜测,联发科不做任何评论。 外界认为,根据联发科的活动邀请函内容来看,将展示该公司产品在智能生活、移动通信、车用电子三
    发表于 05-28 08:47