0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

新版NVIDIA Maxine为实时音频和视频通信铺平道路

NVIDIA英伟达 来源:NVIDIA英伟达 作者:NVIDIA英伟达 2022-09-26 09:19 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

抢先体验 AI 微服务在云端提供的优质通信

新版NVIDIA Maxine为实时音频和视频通信铺平了道路。无论是参加视频会议、致电客户服务中心,还是进行直播,Maxine 都能够助您实现清晰明确的沟通,增强虚拟交互的效果。

NVIDIA Maxine 是一套由 GPU 加速的 AI 软件开发套件 (SDK) 和云原生微服务,用于部署经过优化和加速的 AI 功能,可达到实时增强音频、视频和增强现实 (AR) 效果的目的。

借助 Maxine 的先进模型,最终用户无需使用昂贵的设备即可改进音频和视频质量。基于 NVIDIA AI 的技术使标准的麦克风和摄像头设备也能够达到这些高质量的效果。

在 GTC 上,NVIDIA 宣布为云原生微服务重新构建 Maxine,并推出了 Maxine 音频效果微服务的抢先体验版。此外,还推出了新的 Maxine SDK 功能,包括发言者聚焦和人脸表情估计,并正式推出了眼神交流功能。NVIDIA Maxine 现在还包含现有 SDK 功能的增强版。

Maxine 实现云原生

Maxine 的云原生微服务允许开发者构建实时 AI 应用。微服务可以独立管理,并在云端进行无缝部署,从而缩短开发周期。

抢先体验版的 Audio Effects 微服务中包含四种先进的音频功能:

背景噪音消除:使用 AI 模型消除多种常见的背景噪音,同时保留说话者的自然声音。

房间回声消除:使用 AI 模型消除音频中的混响,恢复说话者声音的清晰度。

音频超高分辨率:提高音频信号的时间分辨率,改善音频质量。该功能目前支持 8 kHz 到 16 kHz 以及 16 kHz 到 48 kHz 的上采样。

声学回声消除:消除输入音频流中的实时声学设备回声,从而去除不匹配的声对和双声。借助基于 AI 的技术,Maxine 实现了比传统数字信号处理算法更有效的回声消除。

Pexip 是一家领先的企业视频会议和协作解决方案提供商,正在利用 NVIDIA 的 AI 技术将虚拟会议提升到更高水平,为现代员工队伍提供先进的功能。

Pexip 战略联盟高级副总裁 Eddie Clifton 表示:“随着 Maxine 向云原生微服务的转化,我们能够更加轻松地将 NVIDIA 的先进 AI 技术与我们独特的服务器端架构结合起来。这使我们的 Pexip 团队能够为虚拟会议提供更强的体验。”

探索 SDK 的增强功能

Maxine 提供了三款由 GPU 加速的 SDK,能够通过 AI 重塑实时通信的音频、视频和 AR 效果。

音频效果 SDK 可提供多效果、低延迟,以及基于 AI 的音频质量增强算法。发言者聚焦是抢先体验版中的新功能,该功能能够分离前景和背景发言者的音轨,使听众能够更加轻松地识别每种声音。此外,还更新了音频超高分辨率SDK 功能,使其具备更高的质量。

视频效果 SDK 会使用标准网络摄像头输入创建基于 AI 的视频效果。虚拟背景功能已获得更新,增强了时间稳定性,该功能能够分割个人形象并应用由 AI 驱动的背景去除、替换或模糊功能。

AR SDK 基于标准网络摄像头馈送,提供基于 AI 的实时 3D 面部追踪和身体姿态估计。新功能包括:

眼神交流:通过预估和将视线与摄像头对齐来模拟眼神交流。

人脸表情估计:追踪人脸并推断主体所呈现的表情。

更新了以下 AR 功能:

身体姿态估计:以 2D 和 3D 形式预测和追踪人体的 34 个关键点,并且现已支持多人追踪。

面部特征点追踪:使用 126 个关键点来识别面部特征和轮廓。现已可使用“画质”模式来追踪由于头部运动和表情造成的头部姿势和面部变形(实时追踪的自由度为 3 度),实现了更高质量的跟踪效果。

人脸网格:以高达 3000 个顶点和 6 个自由度的 3D 网格表示人脸,并且现在包括USC 创意技术研究所的 3D 可变形模型。

直接体验 Maxine 的惊艳效果。

体验由 AI 的强大功能带来的先进效果

Maxine SDK 和微服务可为您提供一套低延迟的 AI 效果,且可与现有的客户基础设施进行集成。由于 Maxine 的尖端 AI 功能的构建以 NVIDIA AI 平台为基础,并且拥有领先的预训练模型,所以开发者用户可利用其来创建、定制和部署优质的音频和视频质量功能。

Maxine 也是NVIDIA Omniverse Avatar Cloud Engine的一部分,NVIDIA Omniverse Avatar Cloud Engine 是一系列基于云的 AI 模型和服务,可供开发者构建、定制和部署交互式虚拟形象。Maxine 的可定制云原生微服务允许您在 AI 效果制作流程中进行独立部署。而且,您可以在本地、云端或边缘部署 Maxine。

审核编辑:汤梓红

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5725

    浏览量

    110291
  • AI
    AI
    +关注

    关注

    91

    文章

    41976

    浏览量

    303075
  • 云原生
    +关注

    关注

    0

    文章

    266

    浏览量

    8653

原文标题:GTC22 | 全新 NVIDIA Maxine 云原生架构可大规模实现突破性影音质量

文章出处:【微信号:NVIDIA_China,微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    Renesas ICS662 - 03:HDTV音频/视频时钟源的卓越之选

    Renesas ICS662 - 03:HDTV音频/视频时钟源的卓越之选 在电子设计领域,时钟源对于音频视频系统的稳定运行至关重要。今天我们来深入探讨Renesas的ICS662
    的头像 发表于 04-12 13:50 527次阅读

    NVIDIA DLSS 5发布并首次引入实时神经网络渲染模型

    NVIDIA 今天发布 NVIDIA DLSS 5,这是自 2018 年实时光线追踪首次亮相以来,NVIDIA 在计算机图形领域最重大的突破。
    的头像 发表于 03-19 15:33 460次阅读

    罗德与施瓦茨携手博通率先展示Wi-Fi 8射频信令测试,下一代连接技术铺平道路

    在IEEE标准最终批准之前,罗德与施瓦茨(以下简称“RS与博通合作,在2026年巴塞罗那世界移动通信大会(以下简称“MWC2026”)上展示其CMX500多技术多通 道信令测试仪,该测试仪现已新增
    的头像 发表于 03-18 11:54 670次阅读
    罗德与施瓦茨携手博通率先展示Wi-Fi 8射频信令测试,<b class='flag-5'>为</b>下一代连接技术<b class='flag-5'>铺平道路</b>

    高速全双工通信:数据世界的“双向快车道”

    通信过程的“零等待”。二、四大核心特点1. 双向并发,实时交互可同时进行数据的发送与接收,无需切换时序,极大提升响应速度与交互体验。2. 高速传输,流畅稳定支持高带宽数据流传输,适用于视频
    发表于 03-17 16:15

    CISPR 32核心产品标准更新解读

    国际无线电干扰特别委员会(CISPR)正积极推进其核心产品标准CISPR 32(多媒体设备电磁发射)的第三版制定工作。新版标准预计于2026年底发布,其在测试范围、测量方法及限值要求上均提出了显著更新,旨在应对日益复杂的技术集成,并为更高频段的测量铺平道路
    的头像 发表于 03-16 11:31 747次阅读
    CISPR 32核心产品标准更新解读

    NVIDIA和ComfyUI携手简化本地AI视频生成工作流

    借助 ComfyUI 的应用视图、NVIDIA RTX Video 超分辨率和全新的 NVFP4 模型,AI 驱动的视频生成更加易用。
    的头像 发表于 03-14 16:37 2617次阅读
    <b class='flag-5'>NVIDIA</b>和ComfyUI携手简化本地AI<b class='flag-5'>视频</b>生成工作流

    恩智浦S32N7超高集成度处理器SDV开发和生产铺平道路

    实现软件定义汽车 (SDV) 的真正差异化竞争力,首先需要构建车辆情景——即建立对车辆实时、全面的视图。这需要打破信息孤岛,使得原本分散在各个功能域的数据与功能,能够在整车层面可访问和可操作。
    的头像 发表于 02-01 11:28 2144次阅读
    恩智浦S32N7超高集成度处理器<b class='flag-5'>为</b>SDV开发和生产<b class='flag-5'>铺平道路</b>

    合科泰高可靠性MOSFET的核心应用场景

    智能工厂的“零中断”运营,最终依赖于能量转换与分配系统的绝对可靠。作为电力控制的核心执行单元,功率MOSFET的可靠性直接决定了电机驱动、电源转换等关键环节的效能与鲁棒性。现代工业系统不仅要求MOSFET具备强大的开关与控制能力,更期待其能提供集成化的状态感知,实现智能保护与预测性维护
    的头像 发表于 01-26 11:44 925次阅读

    超擎数智您深度解析NVIDIA Quantum-X800 InfiniBand平台

    NVIDIA
    专精特新
    发布于 :2026年01月08日 19:47:03

    充电桩与电气连接技术助力电动汽车产业蓬勃发展

    电动汽车在全电化社会中扮演着关键角色,可持续未来铺平道路。然而,其普及程度离不开广泛覆盖的充电桩、更低的维护需求以及更短的充电时间。而改善这些因素则高度依赖于电气连接技术。
    的头像 发表于 12-30 10:23 1198次阅读
    充电桩与电气连接技术助力电动汽车产业蓬勃发展

    Vision Pro只是开始?苹果新专利轻量级XR眼镜铺平道路

    电子发烧友网综合报道,在混合现实(MR)设备的交互体验中,注视追踪(Gaze Tracking)不仅是提升沉浸感的核心技术之一,更是实现自然人机交互、优化渲染效率与节能控制的重要基础。近期苹果公司公布了一项关于注视追踪技术的重大专利,该技术能够结合直接眼球视图与特殊透镜捕捉的反射图像。   双视图融合:突破传统眼动追踪局限 当前Apple Vision Pro所采用的注视追踪系统主要依赖于直接成像——即通过红外摄像头捕捉用户瞳孔与角膜的反射点来
    的头像 发表于 12-21 07:48 1.1w次阅读
    Vision Pro只是开始?苹果新专利<b class='flag-5'>为</b>轻量级XR眼镜<b class='flag-5'>铺平道路</b>

    NVIDIA IGX Thor 机器人处理器将实时物理 AI 引入工业和医疗边缘场景

    年 10 月 28 日——  AI 正由数字世界走向物理世界。在工厂车间和手术室等场景中,机器正逐步进化为能够实时观察、感知并作出决策的协作伙伴。   加速这一变革,NVIDIA 今日推出
    的头像 发表于 10-29 10:31 1543次阅读
    <b class='flag-5'>NVIDIA</b> IGX Thor 机器人处理器将<b class='flag-5'>实时</b>物理 AI 引入工业和医疗边缘场景

    恩智浦区域控制开发验证平台的功能

    随着整车电子电气架构的升级,Zonal区域控制架构已经成为新的“风口”。区域控制架构采用集中控制和计算的方式,按照边缘功能节点在车辆中的区域位置进行分区管理,能够大大简化车辆内部布线的复杂性,减少线缆的长度和重量,提升功能扩展的灵活性,实现“软件定义汽车”铺平道路
    的头像 发表于 08-26 16:39 1777次阅读

    ST 意法半导体与高通合作开发的Wi-Fi/蓝牙模块交钥匙方案正式量产及重要客户应用案例成功落地

    。无线通信技术专长和STM32嵌入式生态系统形成优势互补,用户设计铺平道路,加快产品上市强强联合,打造无线连接新标杆ST67W611M1是意法半导体与高通科技公司
    的头像 发表于 06-25 10:03 5864次阅读
    ST 意法半导体与高通合作开发的Wi-Fi/蓝牙模块交钥匙方案正式量产及重要客户应用案例成功落地

    乐鑫ESP-RTC实时视频通信方案

    ESP-RTC乐鑫科技推出ESP-RTC(Real-TimeCommunication)音视频通信方案,能够实现稳定流畅、超低延时的语音和视频实时
    的头像 发表于 05-26 18:07 1949次阅读
    乐鑫ESP-RTC<b class='flag-5'>实时</b>音<b class='flag-5'>视频</b><b class='flag-5'>通信</b>方案