0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

移动端的实时视频修复技术

人工智能与大数据技术 来源:人工智能与大数据技术 作者:人工智能与大数据 2020-11-23 10:52 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

大变活人,需要几个步骤?

万万没想到,这么经典的大型魔术,现在都能零基础入门了。

在快手和江苏卫视联手打造的「一千零一夜」晚会上,迪丽热巴就当场表演了一个。

不需要道具,不需要托儿,也不挑时间地点,她就这么在直播镜头里blingbling地闪现了。

并且位场的波动,完全没有破坏背景的完整。(手动狗头)

最关键的是,给你一部安装了快手的手机,你同样可以实现。

没错,这个能实时实现电影大片里隐身特效的黑科技,就是快手最近上线的AI新玩法——「隐身魔法」。这是结合单图图像修复和帧间图像对齐技术的视频修复算法,在短视频行业中的首次应用。

不仅能「凭空出现」,对着镜头比个「6」,你还能当场变身透明人,跟空气融为一体。

效果如此丝滑,难怪上线几天时间,快手用户就玩得飞起,迅速贡献了77.5w个相关作品。

一时成为年度短视频最热特效玩法。

移动端的实时视频修复技术

让视频里的人实时隐身,怎么个原理?

此前,量子位其实介绍过类似的「隐身」算法,比如弗吉尼亚大学和Facebook联手打造的基于光流边缘引导的视频修复算法。

虽然有学术领域的前例,但想要把这样的技术应用到移动端,仍然存在不小的挑战。

最主要的问题在于计算量,视频修复涉及到多帧计算,其深度学习模型普遍计算量较大,很难在移动端运行。

那么快手是怎么做到的?量子位照例来一一捋清楚。

其实道理很简单,想要把画面中的人抹掉,除了自动把人像抠出来之外,AI还得学会脑补人像遮挡住的真实背景。

这就涉及到两方面的问题:

初始帧人像区域的背景修复

后续相机、人物运动过程中人像区域的背景填充

为了解决这两个问题,快手的工程师们将算法整体分成了两个阶段:

首帧使用移动端脑补模型实现对人像区域的背景填充,后续帧使用帧间实时跟踪匹配投影,实现可见背景区域向人物遮挡区域的填充。

基于DeepFill的图像修复算法

首先来看首帧修复。具体到模型架构上,快手工程师主要基于开源的DeepFill模型,根据实际需求进行了定制化开发和优化。

DeepFill是一种基于GAN提出的图像修复方法,修复能力是酱婶的:

在此基础上,快手在整个模型设计中采用coarse to refine双阶段结构。

第一阶段,在小尺寸上进行初步修复,利用较少计算量的coarse网络得到缺失区域的大概轮廓。

第二阶段,将该初步结果融合到原图在大尺寸上利用refine网络生成缺失区域的细节。

而为了让模型能在移动端上更好地部署运行,工程师们还采用剪枝和蒸馏方法进一步压缩了模型结构。

在算法研发过程中,工程师还发现,缺失区域越大,图像修复结果越不可控,使用L1损失和GAN损失无法有效的约束修复区域的结构和语义的合理性。

针对此问题,一方面采用边界生成联合训练的方法,对边界这一结构信息进行直接约束,明显提高了大缺失区域情况下修复结果的合理性。另一方面采用多尺度预测的方式对模型中间层的特征进行了约束,有效提升了修复结果的清晰度。

在损失函数方面,在训练中工程师采用了SSIM、Lpips感知损失、PatchGan损失和蒸馏损失,在小模型上也实现良好的图像修复结果。

在训练数据方面,快手工程师构建了一个包含100W背景图和10W人像mask的通用图像修复数据集,包含居家、办公、建筑、风景、虚拟CG等常见环境。

并且,根据背景数据的纹理复杂度进行了分类,模型训练过程中随着网络逐步收敛,逐渐加大复杂纹理数据的比例,使得模型更好地完成从简单到复杂等多种背景的修复。

一套组合拳下来,测试的结果如下。从左到右,分别是输入图像、边界预测、脑补结果和实际背景。

实时跟踪投影匹配

而在后续帧的背景修复上,为了更好地利用已有的背景信息,需要将已经存在的背景投影到当前帧实现对人像遮挡区域的修复,即帧间图像映射。

目前对帧间图像映射关系的描述主要有三种方式:简单的全局单应变换,基于栅格的局部单应变换,以及复杂的逐像素的稠密光流。

其中,全局单应变换虽然计算量较小,但无法描述复杂的三维结构映射。

逐像素的稠密光流算法可以得到精确的图像间可见像素的映射关系,但对于人像区域内未知区域的修复无法实现,另外限于手机平台计算量的限制,该算法无法满足实时获取映射关系的需求。

因此,快手采用基于栅格的局部单应变换的图像对齐算法,来平衡计算量和精确度之间的关系。通过同时优化帧间特征点的光度误差和栅格的形变误差,在低计算量的情况下也能得到精准的帧间映射关系,有效地将历史帧的可见区域信息实时传播到当前画面。

并且,通过调节栅格数量,可以很方便的调节算法的计算量和映射的精度,实现多机型的算法适配。

中低端机型都能用,真正麻瓜的「魔法」

其实,对快手的工程师而言,仅仅实现效果是远远不够的。

更重要的一点,是要在移动端硬件种类繁多的情况下,覆盖高、中、低端各种手机型号,让每一个档次的机型的能力都发挥到最大。

一方面,是因为每一次的产品落地,都关系到4亿用户的实际体验,牵一发而动全身。

另一方面,快手的用户特性决定,用户手中的手机型号分布会很广,不同机型算力和内存资源差异很大。

而要做到这一点,快手依靠的是自研的YCNN深度学习推理引擎。

CPU来说,无论是苹果、高通、华为还是联发科的芯片,无论是高端的骁龙865还是低端的骁龙450、430,YCNN引擎都能支持模型在上面运行。同样,GPU方面,YCNN引擎同时支持Mali、Adreno、Apple和英伟达等多种GPU。NPU方面,苹果Bionic,华为HiAI,高通SNPE和MTK的APU均在支持范围之内。

同时,YCNN引擎具有完备的模型结构与数值精度,支持常见的CNN, RNN结构,支持float32, float16,uint8等不同精度计算。

为了在更大程度上利用手机算力,YCNN引擎还提供了多种模型,既有针对高算力NPU设计的大模型,有针对高端CPU、GPU设计的级的不同的小模型,也有针对中低端CPU处理器设计的特定小模型。同时,通过模型下发的方式,将设备上的最好算力与相应的模型进行匹配,以期达到效果与性能的最佳平衡,给用户带来最好的体验。

在推理引擎的优化方面,针对不同的设备端,快手的工程师们分别设计了Metal算子、OpenCL算子以及Neon算子等等,有针对性地进行了算子的优化,以最大化利用设备性能,提升模型的运算速度。

此外,YCNN引擎具有完善的AI模型工具链,支持PyTorch, TF/TFlite模型直接转换为YCNN模型,并支持训练时模型量化与基于硬件的模型结构搜索。综合性能比业界引擎有10%左右的优势。

快手之道

最后,回到AI特效、回到晚会,回到快手本身。

快手的技术和AI特效魔法,之前介绍的也不少。这家依靠短视频迅速崛起的技术公司,一方面把最新最前沿的技术带给了更多人,另一方面也通过技术,让用户体验到从「记录每一种生活」到「拥抱每一种生活」。

但更值得称道的是,快手之道,更在于面对最前沿技术时的心态——希望无差别地让每一个用户使用,感受技术的乐趣,无论是何种机型,无论信号覆盖如何。

现在,这种快手之道,在往线下延续,让线上的用户有机会登上线下的舞台,和明星一起亮相,展示自己。从线上到线下,跨越平台和社区。

这次快手「九年磨一剑」打造的「一千零一夜」超豪华阵容晚会,就是最直观的例证。

一方面,快手与江苏卫视携手,台网联动,在节目内核和呈现形式上实现了大小屏的深度融合。不只是实时隐身特效,还有黄渤跟周杰伦的低延时连麦、虚拟技术加持下的F4隔空同台等黑科技,都给观众带来了新的观赏体验。

另一方面,从明星阵容上就可以看出快手的号召力在增强,星素同台的晚会形式,形成了快手独有的文化IP。

数据同样也佐证了这一点。据悉,这场晚会快手官方直播间观看总人数达9008万,直播间互动总量达1.34亿次,最高同时在线人数达315万,预约直播总人数达到3100万。

如此巨大的流量和关注度,无疑也是一场技术价值观的科普

在舞台之上,有明星大咖和快手达人的跨界合作;舞台之下,快手也踏踏实实遵循提升用户体验、创造用户价值的技术信仰,使得阳春白雪和下里巴人的种种「人间烟火」,都能通过AI技术这样的前沿科技为生活增添色彩。

这是理性科技之外的那一面:用奇幻科技,打破人间藩篱。

之前有句「老话」,说科技是麻瓜的魔法。

但比起这种魔法,打造魔法本身的工程师、让魔法真正无差别应用的工程师,不易于被推至镁光灯下,但依然值得掌声和褒奖。

你还能举出其他的「魔法」案例吗?

最后的最后,开发该特效的技术团队是快手Y-tech团队,这里也特别传送一下:

这支团队致力于计算机视觉、计算机图形学、机器学习、AR/VR 等领域的技术创新和业务落地,不断探索新技术与新用户体验的最佳结合点。目前 Y-tech 在北京、深圳、杭州、Seattle、Palo Alto 有研发团队,大部分成员来自于国际知名公司和大学。

责任编辑:lq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 视频
    +关注

    关注

    6

    文章

    1999

    浏览量

    74647
  • Facebook
    +关注

    关注

    3

    文章

    1432

    浏览量

    58351
  • 深度学习
    +关注

    关注

    73

    文章

    5590

    浏览量

    123907

原文标题:分分钟拥有哈利波特的隐身衣,还是在手机端的那种

文章出处:【微信号:TheBigData1024,微信公众号:人工智能与大数据技术】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    Flutter 移动开发:集成淘宝 API 实现商品数据实时展示 APP

    在电商蓬勃发展的当下,移动购物成为主流趋势。对于开发者而言,利用 Flutter 构建一个能够实时展示淘宝商品数据的 APP,既能满足用户便捷获取商品信息的需求,也能为电商业务拓展新的渠道
    的头像 发表于 11-13 09:36 161次阅读

    常用Web 实时通信技术:原理+选型,一篇通关

    在 Web 开发中,实时通信技术的核心目标是实现客户(Browser)与服务器之间低延迟、双向 / 单向的动态数据交互,而非传统 HTTP 的 “请求 - 响应” 模式。以下是 Web
    的头像 发表于 10-27 17:19 494次阅读
    常用Web <b class='flag-5'>实时</b>通信<b class='flag-5'>技术</b>:原理+选型,一篇通关

    全新Arm C1 CPU集群推动移动侧AI转型

    随着用户期待在不连接云端服务的情况下,能在移动设备上享有更好的即时响应、更智能的个性化服务,更加实时处理的体验,使其正迅速成为人工智能 (AI) 的强大载体。与此同时,随着移动 AI
    的头像 发表于 09-15 14:27 1097次阅读
    全新Arm C1 CPU集群推动<b class='flag-5'>移动</b><b class='flag-5'>端</b>侧AI转型

    负载减少50%!Arm用AI重新定义移动图形渲染

    电子发烧友网报道(文 / 吴子鹏)在移动互联网与游戏产业深度融合的当下,用户对移动游戏体验的期待持续攀升 —— 更清晰的画质、更流畅的帧率、更长的续航能力。然而,要在移动
    发表于 08-20 08:00 3838次阅读
    负载减少50%!Arm用AI重新定义<b class='flag-5'>移动</b><b class='flag-5'>端</b>图形渲染

    微信小程序API集成京东库存,移动销量暴涨!

    。本文将探讨如何通过微信小程序API集成京东库存系统,实现实时数据同步,并最终推动移动销量实现显著增长。我们将一步步分析集成过程、核心优势,以及实际案例中的效果。 什么是微信小程序API与京东库存集成? 微信小程序
    的头像 发表于 07-31 14:07 591次阅读

    明远智睿SSD2351开发板:视频监控领域的卓越之选

    开发板的四核1.4GHz处理器在视频监控数据处理方面表现优异。视频监控系统会产生大量的视频数据,需要进行实时编码、解码和分析。该处理器能够高效地完成这些任务,确保
    发表于 05-30 10:24

    Arm 公司面向移动市场的 ​Arm Lumex​ 深度解读

    子系统(CSS)​ ​ 在移动的落地形态,Lumex 旨在通过高度集成化的软硬件方案,解决移动设备在 AI 性能、能效比与开发效率上的挑战。以下从技术架构、性能突破、应用场景、生态系
    的头像 发表于 05-29 09:54 4054次阅读

    堆焊过程熔池相机实时缺陷检测技术

    在现代工业制造中,堆焊技术广泛应用于机械、能源、化工、航空航天等领域,用于修复磨损部件或增强工件表面性能。然而,传统堆焊过程的质量控制主要依赖人工经验或焊后检测,难以实现实时监控,导致缺陷发现滞后
    的头像 发表于 05-15 17:34 573次阅读
    堆焊过程熔池相机<b class='flag-5'>实时</b>缺陷检测<b class='flag-5'>技术</b>

    降低液晶面板修复线的信号延迟及液晶线路修光修复

    引言 在液晶面板生产与修复过程中,修复线的信号延迟会严重影响修复效率与质量,同时液晶线路的损伤也需要有效的修复手段。研究降低信号延迟的方法以及液晶线路修光
    的头像 发表于 05-12 15:17 494次阅读
    降低液晶面板<b class='flag-5'>修复</b>线的信号延迟及液晶线路修光<b class='flag-5'>修复</b>

    MWC2025亮点放送 探索Arm如何塑造移动技术未来

    ,彰显了人工智能 (AI) 和移动技术之间的共生关系。  Arm 计算平台赋能从云到边的 AI 体验。Arm 通过提供的高能效、高性
    的头像 发表于 03-14 15:40 1275次阅读
    MWC2025亮点放送 探索Arm如何塑造<b class='flag-5'>移动</b><b class='flag-5'>端</b><b class='flag-5'>技术</b>未来

    BEM在移动开发中的应用案例

    实时视频播放器项目 在移动开发中,实时视频播放器是一个常见的功能组件。通过BEM规范,可以为
    的头像 发表于 02-12 17:13 833次阅读

    低空视频传输在望获实时linux系统上的应用

    望获实时linux系统因其高确定性和低延迟的特性,在低空视频传输中扮演着关键角色。低空经济涵盖无人机物流、农业监控、低空交通管理等场景,这些场景对视频传输的实时性、可靠性和高效性有极高
    的头像 发表于 01-24 17:21 874次阅读

    腾讯视频携手顶尖移动厂商为用户打造极致观影体验

    腾讯视频正式推出臻彩认证体系,旨在让基于HDR Vivid的臻彩画质在不同终端呈现一致的至臻效果。目前,第一批品牌的移动终端已经获得认证。
    的头像 发表于 01-20 10:05 1741次阅读

    AI模型部署边缘设备的奇妙之旅:边缘设备的局域网视频流传输方案

    1、简介随着物联网(IoT)和智能设备的快速发展,边缘计算技术已成为高效数据处理和服务交付的重要组成部分。当我们考虑利用边缘设备进行实时监控时,一个常见的需求是通过摄像头捕捉视频,并
    的头像 发表于 01-04 12:00 1167次阅读
    AI模型部署边缘设备的奇妙之旅:边缘<b class='flag-5'>端</b>设备的局域网<b class='flag-5'>视频</b>流传输方案

    RTC技术实时通信中的应用 RTC与VoIP的区别

    在数字化时代,实时通信(RTC)技术已经成为我们日常生活和工作中不可或缺的一部分。从视频会议到在线教育,从远程医疗到社交网络,RTC技术都在发挥着重要作用。 一、RTC
    的头像 发表于 12-11 15:38 2306次阅读