0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

AI提供更好的视频沟通体验,GAN消除视频通话中的抖动

火花 来源:IT专家网 作者:火花 2020-10-22 12:07 次阅读

NVIDIA Maxine是一款云AI视频流平台,将使用GAN来提高带宽性能

Ming-Yu Liu 和Arun Mallya 正在进行视频通话,其中一个人的画面开始出现卡顿,直至画面定格。这是一种常见且令人反感的情况。但与大多数人不同的是,Liu和Mallya可以做出一些改变。他们是NVIDIA的AI研究人员,专攻计算机视觉。在与Ting-Chun Wang共事中,他们意识到可以使用神经网络来替代被称为视频编解码器的软件,这种软件通常用于视频在网络传输过程中的压缩和解压缩。

迄今为止,他们的工作成果将用户在视频通话时所需的网络带宽压缩至原来的十分之一,还有望将带宽消耗降低数个数量级。Mallya表示:“我们希望通过AI提供更好的视频沟通体验,即使在带宽极低的情况下,也可以从语音升级到视频通话。”

GAN让连接质量更佳

即使用户的面部有遮挡(比如戴着帽子、眼镜、耳机或口罩),这项技术同样适用。为了增加趣味性,他们在演示中使用了一些装饰物,这样用户可以在线上更改其发型或衣服或者创建头像。更重要的是,如上图所示,借助神经网络定位,无需再盯着显示器上方摄像头才能与对方对视,这增强了面对面对话的感觉。Wang表示:“借助计算机视觉技术,我们可以从多个角度来定位头部。我们认为这将帮助人们更自然地进行对话。”迎接最前沿的AI技术,让虚拟生活更真实。

AI赋能视频通话的原理

AI辅助视频通话的工作机制十分简单。与目前使用压缩的视频流的系统类似,参考图像发送后,仅用户眼睛、鼻子和嘴巴周围几个关键点的位置数据被发送,而非发送大量压缩过像素的图像。接收端的生成式对抗网络通过初始图像和面部关键点,在本地GPU上重构后续图像。因此,通过网络传输的数据要比之前少得多。

Liu在GAN领域的工作成果GauGAN曾引发关注。GauGAN是一种可以将涂鸦转化为写实艺术作品的AI工具,目前已经创建了超过一百万张图像。该工具可在AI Playground中获取。Liu表示:“疫情期间频繁的视频会议启发了我们,因此我们开始探索突破带宽瓶颈的方式,让供应商可以同时为更多人提供服务。”

GPU突破带宽瓶颈

这一方法顺应当前行业趋势,将网络瓶颈转化为计算任务,从而借助本地或云端资源更轻松地解决此类问题。NVIDIA媒体集团高级产品总监Andrew Page表示:“如今,许多公司希望将带宽问题转化为计算问题,这是因为带宽一般很难增加,而增强算力则相对容易。”

NVIDIA Maxine搭配了一套视频会议和流媒体服务工具

AI 工具优化视频服务

GAN视频压缩是NVIDIA Maxine即将推出的几个功能之一,这是一个云AI视频流平台,用于增强视频会议和电话质量。它将音频、视频和对话式AI功能整合在一个工具包中,并支持多种设备。在上周的GTC大会上,NVIDIA宣布推出了Maxine平台。基于该平台,服务提供商能够在提供超高分辨率的视频的同时,实现实时翻译、噪声消除和情景感知的闭路字幕。用户可以享受到人脸校正、虚拟助手和化身逼真的动画角色等功能。

Page表示:“视频会议正在经历一场复兴。疫情期间,它的缺点给所有人带来了不愉快的使用体验,但回归视觉动物的属性,视频终将成为人们今后生活中的一部分。”通过利用基于Tensor Core核心的NVIDIA GPU,Maxine可运行如NVIDIA Jarvis的软件。NVIDIA Jarvis是用于对话式AI的SDK,提供了一套语音和文本功能。 它们共同提供了当今有用的AI功能,并成为未来视频产品和服务的基石。

fqj

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    87

    文章

    26128

    浏览量

    263709
  • 视频通话
    +关注

    关注

    0

    文章

    49

    浏览量

    11595
收藏 人收藏

    评论

    相关推荐

    Meta欲打造巨型AI覆盖视频推荐生态系统

    Meta正计划打造一款巨型AI系统,以全面覆盖其视频推荐生态系统,为旗下产品提供统一的视频推荐引擎。
    的头像 发表于 03-11 11:14 222次阅读

    探索OpenAI Sora视频AI生成技术及其应用如何使用指南

    的应用范围从娱乐和教育到营销和内容创作等各个领域都有巨大潜力。 Sora视频AI的介绍 Sora视频AI是一种先进的人工智能工具,它利用深度学习算法根据用户
    的头像 发表于 02-20 12:01 695次阅读

    AI视频年大爆发!2023年AI视频生成领域的现状全盘点

    2023年,也是AI视频元年。过去一年究竟有哪些爆款应用诞生,未来视频生成领域面临的难题还有哪些?
    的头像 发表于 02-20 10:40 499次阅读
    <b class='flag-5'>AI</b><b class='flag-5'>视频</b>年大爆发!2023年<b class='flag-5'>AI</b><b class='flag-5'>视频</b>生成领域的现状全盘点

    什么是AI视频识别分析

    视频AI识别分析是指利用人工智能技术对视频数据进行智能化检测、分析和提取有用信息的过程。通过视频AI分析,可以自动化地识别、检测和理解
    的头像 发表于 12-02 08:26 801次阅读
    什么是<b class='flag-5'>AI</b><b class='flag-5'>视频</b>识别分析

    学习台灯|AI摄像头学习机_支持视频通话方案

    学习台灯|AI摄像头学习机_支持视频通话方案。采用联发科MTK平台解决方案,内置12nm四核Cortex-A53处理器,提供高效的性能支持。它配备了10.1英寸的高清屏幕,分辨率为19
    的头像 发表于 11-28 18:26 258次阅读
    学习台灯|<b class='flag-5'>AI</b>摄像头学习机_支持<b class='flag-5'>视频</b><b class='flag-5'>通话</b>方案

    【KV260视觉入门套件试用体验】Vitis-AI加速的YOLOX视频目标检测示例体验和原理解析

    本文将介绍如何使用Vitis-AI加速YOLOX模型实现视频的目标检测,并对相关源码进行解读。由于演示的示例程序源码是Vitis-AI开源项目提供
    发表于 10-06 23:32

    PowerAI Vision:用于图像和视频的自动AI

    电子发烧友网站提供《PowerAI Vision:用于图像和视频的自动AI.pdf》资料免费下载
    发表于 09-13 10:43 0次下载
    PowerAI Vision:用于图像和<b class='flag-5'>视频</b>的自动<b class='flag-5'>AI</b>

    华为马亮:新通话为音视频业务带来新机会

    2023年9月6日,第38届GTI峰会在伊斯坦布尔成功举办,华为云核心网产品线副总裁马亮在峰会上发表了《新通话为音视频业务带来新机会》的主题演讲。   马亮指出,智能交互式通话已经向我们走来,话音
    的头像 发表于 09-07 22:25 424次阅读

    启英泰伦通话降噪方案,采用深度学习降噪算法,让通话更清晰

    消除方案和基于深度学习的降噪方案推出了通话降噪方案,利用该方案可以实时消除回声及环境噪声,并通过算法优化提升语音信号的清晰度和逼真度,使得通话更加清晰、准确,提高语音交流的效率和舒适性
    发表于 08-22 17:36

    #单片机 腾讯云云端音视频通话

    单片机视频通话
    Kevincoooool
    发布于 :2023年08月01日 16:34:44

    Raspberry Pi支持电视上的视频通话

    电子发烧友网站提供《Raspberry Pi支持电视上的视频通话.zip》资料免费下载
    发表于 07-05 11:40 0次下载
    Raspberry Pi支持电视上的<b class='flag-5'>视频</b><b class='flag-5'>通话</b>

    基于树莓派的老年人视频通话

    电子发烧友网站提供《基于树莓派的老年人视频通话.zip》资料免费下载
    发表于 07-05 09:59 1次下载
    基于树莓派的老年人<b class='flag-5'>视频</b><b class='flag-5'>通话</b>

    基于WebAssembly构建Web端音视频通话引擎

    Web技术在发展,音视频通话需求在演进,怎么去实现新的Web技术点在实际应用中的值,以及给我们带来更大的收益是需要我们去探索和实践的。LiveVideoStackCon 2022北京站邀请到田建华
    的头像 发表于 06-26 15:56 433次阅读
    基于WebAssembly构建Web端音<b class='flag-5'>视频</b><b class='flag-5'>通话</b>引擎

    中国信通院和华为等产业伙伴联合发起新通话产业发展合作倡议

    通话业务是运营商最重要、最核心的基础业务,具有不可或缺的商业价值和社会价值。新通话是在运营商音视频通话的基础上,叠加超清、智能、交互等能力,为个人用户
    的头像 发表于 06-07 15:16 642次阅读

    华为陈海永:智能开放的音视频基础网,使能新通话创新

    一直以来,话音业务作为运营商的最重要、最核心的基础业务,满足了用户基本的沟通需求。运营商建设了完善的话音基础网络,并发展了庞大的用户群体。进入5G时代,话音业务正从语音向视频通话发展
    的头像 发表于 06-06 15:12 411次阅读