0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

AI提供更好的视频沟通体验,GAN消除视频通话中的抖动

火花 来源:IT专家网 作者:火花 2020-10-22 12:07 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

NVIDIA Maxine是一款云AI视频流平台,将使用GAN来提高带宽性能

Ming-Yu Liu 和Arun Mallya 正在进行视频通话,其中一个人的画面开始出现卡顿,直至画面定格。这是一种常见且令人反感的情况。但与大多数人不同的是,Liu和Mallya可以做出一些改变。他们是NVIDIA的AI研究人员,专攻计算机视觉。在与Ting-Chun Wang共事中,他们意识到可以使用神经网络来替代被称为视频编解码器的软件,这种软件通常用于视频在网络传输过程中的压缩和解压缩。

迄今为止,他们的工作成果将用户在视频通话时所需的网络带宽压缩至原来的十分之一,还有望将带宽消耗降低数个数量级。Mallya表示:“我们希望通过AI提供更好的视频沟通体验,即使在带宽极低的情况下,也可以从语音升级到视频通话。”

GAN让连接质量更佳

即使用户的面部有遮挡(比如戴着帽子、眼镜、耳机或口罩),这项技术同样适用。为了增加趣味性,他们在演示中使用了一些装饰物,这样用户可以在线上更改其发型或衣服或者创建头像。更重要的是,如上图所示,借助神经网络定位,无需再盯着显示器上方摄像头才能与对方对视,这增强了面对面对话的感觉。Wang表示:“借助计算机视觉技术,我们可以从多个角度来定位头部。我们认为这将帮助人们更自然地进行对话。”迎接最前沿的AI技术,让虚拟生活更真实。

AI赋能视频通话的原理

AI辅助视频通话的工作机制十分简单。与目前使用压缩的视频流的系统类似,参考图像发送后,仅用户眼睛、鼻子和嘴巴周围几个关键点的位置数据被发送,而非发送大量压缩过像素的图像。接收端的生成式对抗网络通过初始图像和面部关键点,在本地GPU上重构后续图像。因此,通过网络传输的数据要比之前少得多。

Liu在GAN领域的工作成果GauGAN曾引发关注。GauGAN是一种可以将涂鸦转化为写实艺术作品的AI工具,目前已经创建了超过一百万张图像。该工具可在AI Playground中获取。Liu表示:“疫情期间频繁的视频会议启发了我们,因此我们开始探索突破带宽瓶颈的方式,让供应商可以同时为更多人提供服务。”

GPU突破带宽瓶颈

这一方法顺应当前行业趋势,将网络瓶颈转化为计算任务,从而借助本地或云端资源更轻松地解决此类问题。NVIDIA媒体集团高级产品总监Andrew Page表示:“如今,许多公司希望将带宽问题转化为计算问题,这是因为带宽一般很难增加,而增强算力则相对容易。”

NVIDIA Maxine搭配了一套视频会议和流媒体服务工具

AI 工具优化视频服务

GAN视频压缩是NVIDIA Maxine即将推出的几个功能之一,这是一个云AI视频流平台,用于增强视频会议和电话质量。它将音频、视频和对话式AI功能整合在一个工具包中,并支持多种设备。在上周的GTC大会上,NVIDIA宣布推出了Maxine平台。基于该平台,服务提供商能够在提供超高分辨率的视频的同时,实现实时翻译、噪声消除和情景感知的闭路字幕。用户可以享受到人脸校正、虚拟助手和化身逼真的动画角色等功能。

Page表示:“视频会议正在经历一场复兴。疫情期间,它的缺点给所有人带来了不愉快的使用体验,但回归视觉动物的属性,视频终将成为人们今后生活中的一部分。”通过利用基于Tensor Core核心的NVIDIA GPU,Maxine可运行如NVIDIA Jarvis的软件。NVIDIA Jarvis是用于对话式AI的SDK,提供了一套语音和文本功能。 它们共同提供了当今有用的AI功能,并成为未来视频产品和服务的基石。

fqj

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    91

    文章

    41988

    浏览量

    303082
  • 视频通话
    +关注

    关注

    0

    文章

    50

    浏览量

    12479
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    A-29P AI 降噪回音消除模块:高性能 DSP 语音处理,重塑全双工通话声学体验

    A-29P 作为高性能 AI 语音处理模块,以极致回音消除AI 智能降噪、远场宽范围拾音为核心优势,搭配紧凑结构、丰富接口、七大应用模式与工业级可靠性,彻底解决免提通话设备的声学痛点
    的头像 发表于 05-08 00:00 922次阅读
    A-29P <b class='flag-5'>AI</b> 降噪回音<b class='flag-5'>消除</b>模块:高性能 DSP 语音处理,重塑全双工<b class='flag-5'>通话</b>声学体验

    涂鸦On-App AI视频通话隐私保护方案:最快3ms极速响应,双端守护隐私安全

    越来越多的家庭用户通过带屏IPC进行远程视频通话,但一个问题始终困扰着他们——接通视频的那一刻,家里的环境、桌上的文件、身后的杂物,全都暴露在对方面前。这意味着视频
    的头像 发表于 05-07 18:20 146次阅读
    涂鸦On-App <b class='flag-5'>AI</b><b class='flag-5'>视频</b><b class='flag-5'>通话</b>隐私保护方案:最快3ms极速响应,双端守护隐私安全

    A-29P回音消除模块

    一,产品概述:A-29P是一款高性能的DSP数字语音处理模块,针对所有免提全双工通话设备的回音问题进行消除(AEC),并具有超强的AI环境噪音压制(
    发表于 05-07 17:11 1次下载

    F-23 双麦阵列回音消除模块|全双工 DSP 高清通话解决方案

    F-23是基于专业全双工通话DSP芯片的模拟语音处理模块,可高效消除免提通话回音、抑制环境噪声,支持差分接口抗干扰,适配各类音频通话系统快速集成。核心技术参数表格参数项规格说明产品型号
    的头像 发表于 04-21 14:52 222次阅读
    F-23 双麦阵列回音<b class='flag-5'>消除</b>模块|全双工 DSP 高清<b class='flag-5'>通话</b>解决方案

    探索 RENESAS ICS664 - 02 PECL 数字视频时钟源

    HDTV 数字视频设备提供常用的时钟生成和转换功能。它采用了最新的锁相环(PLL)技术,能够提供出色的相位噪声和长期抖动性能,从而实现
    的头像 发表于 04-12 09:30 499次阅读

    MAXIM CMOS视频复用器/放大器:高性能视频应用的理想之选

    、MAX454和MAX455,为视频应用提供了出色的解决方案。本文将详细介绍这些产品的特点、技术参数和应用场景,帮助电子工程师更好地了解和使用这些产品。 文件下载: MAX453.pdf 一、产品概述
    的头像 发表于 01-29 16:45 404次阅读

    重塑音频通话体验!A-29P AI 降噪回音消除模块赋能千行百业

    A-29P神经网络AI降噪回音消除模块创新突破音频处理技术瓶颈,融合DSP数字处理与AI降噪算法,实现100dB回音消除深度和45-90dB降噪效果,有效解决车载
    的头像 发表于 11-18 09:33 1594次阅读
    重塑音频<b class='flag-5'>通话</b>体验!A-29P <b class='flag-5'>AI</b> 降噪回音<b class='flag-5'>消除</b>模块赋能千行百业

    ‌LMH1981多格式视频同步分离器技术文档总结

    三电平同步,输出提供CMOS逻辑的所有关键定时信号,其中 从轨道到轨道的摆动 (V~CC~和 GND),包括复合、水平和 垂直同步、连拍/后廊定时、奇数/偶数场和视频格式输出。HSync 功能 其前缘(下降)沿的
    的头像 发表于 09-19 10:18 1355次阅读
    ‌LMH1981多格式<b class='flag-5'>视频</b>同步分离器技术文档总结

    RK3576赋能无人机巡检:多路视频+AI识别引领智能化变革

    巡检,需要快速、大量的采集作物表型信息并进行分析; 难点在于: 1)多路视频同步采集对带宽和处理能力要求高; 2)飞行过程AI识别必须实时,否则漏检率高; 3)机载设备功耗过高会
    发表于 08-20 17:26

    AI视频分析系统

    方案背景人工智能大时代背景下,视频应用领域相关的行业应用方式已经发生了深刻的变化,各论安防监控还是各类垂直行业视频应用,都需要AI视觉分析与识别技术助力,而且需求广泛而迫切。在应用层面,以AI
    的头像 发表于 08-06 14:39 1115次阅读
    <b class='flag-5'>AI</b><b class='flag-5'>视频</b>分析系统

    AI视频识别系统的应用领域

    一、城市治理现代化 AI视频识别技术 正深度重构城市管理体系。在城市安防领域,系统通过行为模式分析实现异常事件主动预警,对人员聚集、异常滞留等场景进行智能识别;交通治理实时监测车流密度、违法行为
    的头像 发表于 07-24 11:06 1483次阅读

    【BPI-CanMV-K230D-Zero开发板体验】视频会议场景下的 AI 应用(电子云台 EPTZ、人像居中 / 追踪、画中画)

    下,人物居中功能可将教师人像保持在画面中间,并且相比全景画面能看到更多教师动作细节。   苹果设备在近年也推出了人像居中功能来提供更好视频通话体验。 3、画中画 PIP   当参
    发表于 07-09 20:56

    神经网络AI降噪回音消除模块 A-29说明书

    A-29P 是一款高性能的 DSP 数字语音处理模块,针对所有免提全双工通话设备的回音 问题进行消除(AEC),并具有超强的 AI 环境噪音压制(
    发表于 06-18 15:23 0次下载

    4K、多模态、长视频AI视频生成的下一个战场,谁在领跑?

    电子发烧友网报道(文/李弯弯) 6月11日,豆包App上线视频生成模型豆包Seedance 1.0 pro。这是字节跳动最新视频模型,支持文字与图片输入,可生成多镜头无缝切换的1080P高品质视频
    的头像 发表于 06-16 00:13 7637次阅读

    A-29P AI智能降噪回音消除模块说明书

    通话设备获得更好的语音品质。在同类型模块,主芯片的处理能力,及算法差异,在外形结构比较小,喇叭音量又很大的通话产品,回音
    发表于 05-26 16:51 1次下载