0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

英伟达开发新AI算法,视频通话的流量最高压缩90%以上

工程师邓生 来源:量子位 作者:凹非寺 2020-12-02 14:29 次阅读

为了让网速慢的用户用上高清通话,英伟达可谓绞尽脑汁。他们开发的新AI算法,可以将视频通话的流量最高压缩90%以上。

和其他视频相比,通话的场景比较单一,基本上只有人的头部在运动。因此只要能把头像数据大规模压缩,就能大大节约流量。

英伟达的新算法face vid2vid正是从这一点出发。只要一张图片,就能实现重建各种头部姿势图片。

H.264视频所需的带宽是这种新算法的2~12倍,从前面的演示也能看出,如果让二者使用相同比特率,那么H.264视频几乎不可用。

转动面部不扭曲

英伟达提供了一个试用Demo,可以在Pitch(俯仰角)、Yaw(偏航角)、Roll(翻滚角)三个方向上任意旋转。

输入一张人脸,最多可以在每个方向上最多旋转30度。以下是三个方向上旋转到最大角度生成的图片。

与相比之前的方法,英伟达的这种技术即使在面部转动幅度较大时,人脸也不会扭曲变形。

然而,图片终究是不动的,要把生成的人脸放在运动的视频中还要多一个步骤。

合成面部视频

我们把上传的清晰照片作为源图像,从中获取外貌特征。然后把视频中一帧帧画面作为重构视频的依据,从中提取出面部表情和头部姿势等信息

而表情和姿势这两个数据可以通过关键点进行编码,这样就分离了人物身份信息和运动信息。在传输视频时只要有运动信息即可,从而节约了流量。

从源图像s中,我们得到了两组数据:关键点坐标x和雅可比矩阵J。这两组参数与面部的具体特征无关,只包含人的几何特征。

其中,雅可比矩阵表示如何通过仿射变换将关键点周围的局部补丁转换为另一幅图像中的补丁。如果是恒等雅可比矩阵,则补丁将直接复制并粘贴到新位置。

下图展示了计算前5个关键点的流程。给定源图像以及模型预测的规范关键点。

从运动视频估计的旋转和平移应用于关键点,带动头部姿势的变化。然后可以感知表情的变形将关键点调整为目标表情。

接下来开始合成视频。使用源和运动的关键点与其雅可比矩阵来估计流wk,从生成流组合成掩码m,将这两组进行线性组合即可产生合成流场w。

接着输入人脸面部特征f,即可生成输出图像y。

这种方法不仅能用于视频通话,也有其他“新玩法”。

比如觉得人物头像有点歪,可以手动输入纠正后的数据,从而将面部转正。

又或者是,把一个人的面部特征点和雅可比矩阵用于另一个人,实现面部视频动作的迁移。

团队简介

这篇文章的第一作者是来自英伟达的高级研究员Ting-Chun Wang。

文章的通讯作者是英伟达的著名研究员刘洺堉。

如果你长期关注CV领域,一定对这两位作者非常熟悉。他们在图像风格迁移、GAN等方面做出了大量的工作。

△ GauGAN

两人之前已经有过多次合作。比如。无监督图像迁移网络(NIPS 2017),还有从涂鸦生成照片的GauGAN(CVPR 2019),都是出自这二位之手。

责任编辑:PSY

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 算法
    +关注

    关注

    23

    文章

    4451

    浏览量

    90742
  • 开发
    +关注

    关注

    0

    文章

    343

    浏览量

    40604
  • AI
    AI
    +关注

    关注

    87

    文章

    26396

    浏览量

    264004
  • 视频通话
    +关注

    关注

    0

    文章

    49

    浏览量

    11605
  • 英伟达
    +关注

    关注

    22

    文章

    3316

    浏览量

    87716
收藏 人收藏

    评论

    相关推荐

    基于门控线性网络(GLN)的高压缩比无损医学图像压缩算法

    实现基于门控线性网络(GLN)的高压缩比无损医学图像压缩算法,以提高医学图像存储和分发系统的效率。与“传统”的基于上下文的数据压缩算法相比,
    的头像 发表于 04-08 10:29 163次阅读
    基于门控线性网络(GLN)的<b class='flag-5'>高压缩</b>比无损医学图像<b class='flag-5'>压缩</b><b class='flag-5'>算法</b>

    英伟将用AI设计AI芯片

    AI芯片行业资讯
    深圳市浮思特科技有限公司
    发布于 :2024年02月19日 17:54:43

    英伟达:AI计算的领导者与市场前景展望

    英伟达在全球AI芯片市场中的份额一直处于领先地位。有数据显示,英伟达在中国AI芯片市场的规模预计在2023年将达到110亿美元,并且占据了该市场90
    的头像 发表于 01-10 10:04 380次阅读

    英伟新显卡起售近1.3万元

    英伟行业资讯
    深圳市浮思特科技有限公司
    发布于 :2023年12月29日 16:56:52

    英伟将在越南设法人实体

    英伟行业资讯
    深圳市浮思特科技有限公司
    发布于 :2023年12月12日 10:29:04

    英伟为何放不下中国?

    英伟行业资讯
    深圳市浮思特科技有限公司
    发布于 :2023年11月27日 15:11:09

    #英伟 #显卡 英伟全新旗舰显卡RTX 5090性能暴涨70%

    显卡英伟
    深圳市浮思特科技有限公司
    发布于 :2023年11月20日 14:19:25

    英伟达推出新款AI芯片H200 性能飙升90%但是估计依然被出口管制

    大,也是H100的升级版,号称性能飙升90%;全球最强 AI 芯片。 据英伟达的消息,H200拥有141GB的内存、4.8TB/秒的带宽,并将与H100相互兼容,推理速度几乎达到H100的两倍
    的头像 发表于 11-14 16:45 981次阅读
    <b class='flag-5'>英伟</b>达推出新款<b class='flag-5'>AI</b>芯片H200 性能飙升<b class='flag-5'>90</b>%但是估计依然被出口管制

    #消费级显示被禁止出口 英伟RTX 4090显卡遭遇下架风波

    英伟
    深圳市浮思特科技有限公司
    发布于 :2023年10月19日 15:58:35

    启英泰伦通话降噪方案,采用深度学习降噪算法,让通话更清晰

    消除方案和基于深度学习的降噪方案推出了通话降噪方案,利用该方案可以实时消除回声及环境噪声,并通过算法优化提升语音信号的清晰度和逼真度,使得通话更加清晰、准确,提高语音交流的效率和舒适性,为用户提供更好
    发表于 08-22 17:36

    全新一代Jetson Orin Nano来袭,40TOPS超强算力,刷新你的想象! #Jetson #英伟

    英伟
    学习电子知识
    发布于 :2023年07月02日 13:27:15

    00032 Jetson TX2 NX开发者套件!TX2的性能,NANO的尺寸! #英伟 #jetson

    英伟
    学习电子知识
    发布于 :2023年07月02日 13:21:19

    触景无限感知压缩方案优势

    基于深度学习的AI编码智能去图像信息冗余,实现更高压缩率。同时AI识别ROI兴趣区域低倍率压缩保留物体特征,背景区域高倍率压缩提升
    发表于 06-13 15:31 179次阅读
    触景无限感知<b class='flag-5'>压缩</b>方案优势

    联发科回应结盟英伟合攻 Arm 架构芯片传闻

    联发科计划周一下午举行 2023“旗舰科技 智领未来”记者会,由联发科 CEO 蔡力行与重量级嘉宾一同出席,这位嘉宾应该是近来引起全球关注、并成为 AI 创新推动者的英伟 CEO 黄仁勋。早些时候
    发表于 05-28 08:47