0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

淘宝直播窄带高清技术,音视频技术趋势探讨

LiveVideoStack 来源:LiveVideoStack 2020-09-08 14:20 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

本文来自阿里巴巴淘系技术部 高级算法专家王立波在LiveVideoStackCon 2020线上峰会的分享,从直播背景、直播痛点分析、窄带高清、云视频技术趋势几方面详细介绍了如何在确保用户体验QOS不变的前提下,实现淘宝直播的技术架构升级和成本大幅缩减。

本次分享内容主要分为五个部分,首先是全民直播大时代的背景介绍,第二是直播痛点分析,第三是淘宝直播窄带高清技术,第四是音视频技术趋势探讨,最后是在线互动。 1 背景-全民直播大时代

在疫情的影响下,直播从传统的秀场应用逐渐渗透到行业的各个领域。包括在线课堂,旅游,政企,房车销售等等,可以说是全民直播时代已经到来。

在这样的一个大背景下,过去一年淘宝直播得以快速发展。2019年,淘宝直播拥有了4亿+的年度用户规模,有100万+年度主播入驻,2000亿+年度直播成交以及4000万+直播商品。春节期间,钉钉在线课堂更是有350万+的教师主播,为1.2亿+中小学生提供了在线课程服务。 2 直播痛点分析

在这么大的一个业务体量下,我们将会面对非常多的难点与挑战。总的来说,包含以下三个部分,首先是成本,包括带宽、存储和转码三个方面。其次是用户体验,例如画质,音质,秒开、卡顿和延时。最后是效率方面,例如开播的效率、审核的效率和理解分发的效率。接下来我们就来看一下淘宝在成本和体验优化方面做了哪些工作。 3 淘宝直播窄带高清技术 3.1 淘宝直播窄带高清

淘宝直播有三大核心技术,第一大核心技术是端上窄带高清。我们采用HEVC编码实现了720p,25fps,800kbps的压缩,并且PSNR> 43db/VMAF>90。端上窄带高清技术主要应用有三个方面:第一是音视频增强,采用基于AI的图像增强、美颜和语音增强来提高生产质量。第二是感知处理,采用信源信道联合自适应编码。第三是S265编码器,S265编码器是业界领先的HEVC编码器。 第二大核心技术是零转码系统,我们实现了端到端原始流生产的和播放,成功的解决了两个核心的痛点问题:不同网络速度的兼容和不同播放设备的兼容,后者主要通过高性能解码器实现iOSAndroid和H5三端的100%解码。 第三大核心技术是低延时技术,我们实现了端到端秒级延时。主要依靠两个技术,一个是基于RTC的实时直播系统,第二个是S265低延时编码技术。 3.2 淘宝直播系统架构

如图所示淘宝直播的系统架构,从生产侧来看,有采集、增强、感知处理、S265编码四个环节。云端我们有边缘的接入,有中心接入、切片录制和CDN分发以及边缘分发。在播放端有拥塞控制、解码、渲染和显示。除此之外,在云端还有内容审核,质量监控,内容理解和智能分发。 3.3 端上窄带高清

生产侧的第一个环节是图像增强,为了提升主观质量,我们引入了图像增强技术,对编码前的视频做去噪、去抖、纹理增强以及美颜、美型的功能。除此以外,在后处理部分,我们还引入了适时超分和HDR技术来提高观看质量。在美颜、美型以及图像处理等方面,我们引入了GPU的技术,包括内存带宽优化、shader优化、Pipeline优化等等以减少GPU的开销。

针对音质的优化,我们采用了智能降噪技术。无论是在STO还是PESQ的指标上都显著高于传统WebRTC算法,在性能和包大小方面也都可以实现普通设备的覆盖。下面播放的三段音频,分别是原始音频、RTC降噪和阿里降噪音频。原始音频我们可以明显听到马路上车呼啸而过的声音非常强烈。RTC降噪音频中降噪产生了一定的效果,但是汽车飞驰而过的呼啸声还是非常明显。而在阿里降噪音频中,我们可以听到汽车呼啸而过的声音已经基本消失。

生产的第二个环节是感知处理。我们采用信源信道联合自适应编码技术。感知处理分为5个方面,首先是ROI区域的感知,我们基于PixelAI人脸检测加商品检测,对ROI区域进行提取和重点编码。第二是场景的感知,不同的场景适合不同的编码参数,我们通过对场景进行分类,对于不同的场景赋予不同的编码参数来提高压缩质量。第三个是智能码控CARC,我们采用机器学习的码率控制,对简单场景赋予较低的码率,对复杂的场景赋予较高的码率来实现对带宽的节省。第四个是网络带宽的感知,在网络比较好的时候,我们会采用比较高的码率来实现画质的提升,在网络不太好的时候,会降低码率,避免发生带宽拥塞,由于cdn采用峰值收费,峰谷时间段还可以采用不同码率策略。最后是设备算力的感知,不同的设备拥有不同的算力,我们可以实时检测设备的算力情况及时调整编码的档次,以此来实现对算力和质量的平衡。

生产的第三个环节是编码,这又要讲到我们核心的S265编码器,得益于S265编码器的编码压缩技术,我们实现了淘宝直播的720p、800kbs、25fps编码,相比于业界常见的720p 1600kbps 节省了50%的带宽。钉钉的在线课堂我们更是把码率压缩到了200kbs,并实现了43db以上的质量。S265是淘宝和阿里云共同发起的HEVC编码器,目前已经实现集团内部的开源,并落地在点播、直播会议等各个场景中。相比起业界优秀的HEVC编码器,S265在PSNR指标上有比较大的优势。首先在编码工具提升方面,我们做了大量工作,实现了HierarchyB、GPB、Bi-Search、Longterm、RDOQ、AdaptGOP等编码工具,并且对这些工具进行了大量的算法和速度优化。我们还设计了50多种快速算法,比如说Deblock的优化,编码速度对比X265有1倍以上的提速。在工程上的优化,我们做了浮点转定点、位宽的缩减、SIMD的优化、冗余去除、访存效率提升及循环展开等等来提升我们的编码速度。在框架方面,我们还做了线程调度优化等等。在码率控制方面,我们对帧级别码控和块级别码控分别进行了优化,并且对2pass编码进行了原创性的优化来提高2pass编码的质量。在块级别码控中,我们设计了新的CUTree和AQ算法。

下面来看一下S265的几个典型优化,首先是CU划分决策,我们把CU划分决策模块分成两个步骤,一是纹理强度决策,通过计算CU的纹理梯度来判别平坦块和复杂块,如果是平坦块就直接退出,如果是复杂块就继续向下划分。第一步可以解决大部分块划分的决策问题,但是对于模棱两可的块,则需要依靠CNN模型来辅助划分。我们使用了一个5层网络的小模型把决策的准确度从72%提升到了96%;这个成果我们跟清华大学刘老师合作发表了一篇论文,在DCC会议上展示。

第二个方面的优化是运动搜索方面的优化。运动搜索是从参考帧寻找最佳匹配块的过程,包含整像素搜索和分像素搜索,分像素需要做7抽头或8抽头插值滤波,计算量大;整像素搜索已经有比较多的快速算法,比如菱形搜索、六边形搜索及分层搜索,但分像素搜索一直没有什么好的方法。比如在图中矩形的整像素周围,分布着60个分像素点,如果要对分像素点进行全部搜索的话,需要60次,经过优化之后一般需要搜4个、8个或16个点,但搜索次数还是比较多的。我们采用一个二元二次误差平面方程,用9个整像素点的预测误差来求解方程的5个系数,再对方程求偏导,可得到最佳分像素点的位置。只需对这个最佳分像素点计算1个1/4差值,就可以完成我们的搜索过程。这个技术在编码器的整个提速有12%,但bd-PSNR只有-0.016db。这些成果在VCIP 2016上可以看到。

第三个是我们的码率控制。ABR是较适合直播的一种码率控制方法。但HM中基于

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 直播
    +关注

    关注

    1

    文章

    267

    浏览量

    22944
  • 窄带
    +关注

    关注

    0

    文章

    19

    浏览量

    13007
  • 高清技术
    +关注

    关注

    1

    文章

    16

    浏览量

    14731

原文标题:淘宝直播窄带高清技术

文章出处:【微信号:livevideostack,微信公众号:LiveVideoStack】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    拆解HDMI 4K@30Hz音视频分离器(环出同轴/光纤),一文看透它的“里子”

    随着家庭影院系统和多设备娱乐中心的普及,HDMI音视频分离器成为连接多个高清源(如游戏机、蓝光播放器、电脑)与显示/音响设备的关键枢纽。本次拆解的HDMI4K@30Hz音视频分离器(支持
    的头像 发表于 04-22 10:18 100次阅读
    拆解HDMI 4K@30Hz<b class='flag-5'>音视频</b>分离器(环出同轴/光纤),一文看透它的“里子”

    C++实战FFmpeg音视频编码实战屏幕录像机视频课程-基于QT5和ffmpeg sdk

    pan.baidu.com/s/1g64x9D_jp9ufk4uBpQBmvA?pwd=497f QT5+FFmpeg底层实战,为未来音视频产品开发筑牢技术根基 站在2026年的技术浪潮之巅,
    的头像 发表于 04-21 15:27 575次阅读

    2026年高清音视频切换器方案选型分析

    宝安区,深度适配珠三角消费电子产业带客户需求,是专注高清音视频半导体芯片代理、定制化方案开发的国家高新技术企业,获评专精特新中小企业、创新型中小企业,拥有HDMI协会会员、全球HDCP2.2协会会员双重
    发表于 04-11 17:54

    MAX4079:完整的音视频后端解决方案

    MAX4079:完整的音视频后端解决方案 一、引言 在当今的电子设备中,音视频处理是一个关键的环节。无论是卫星接收器、有线电视接收器,还是家庭影院系统、DVD 播放器等,都需要高效可靠的音视频后端
    的头像 发表于 04-03 12:50 228次阅读

    从 “卡脖子” 到 “自主可控”,音视频分布式系统国产化实践之路

    在当前全球音视频芯片市场格局中,国外企业长期占据主导地位,核心技术与核心器件的垄断的局面,曾是国内音视频行业发展的重要制约因素。近年来,随着国际形势的深刻变化,国外对我国芯片行业的技术
    的头像 发表于 03-02 11:18 347次阅读
    从 “卡脖子” 到 “自主可控”,<b class='flag-5'>音视频</b>分布式系统国产化实践之路

    高清混合转换器:模块化技术重塑音视频信号转换行业格局

    近日,一款全新的高清混合转换器在成都某产品发布中心正式亮相。作为国内首款采用模块化、插卡式设计的高清数模混合转换器,该产品的推出在音视频行业引发广泛关注,其创新设计打破了传统信号转换器的固有模式,为
    的头像 发表于 02-11 11:09 419次阅读
    <b class='flag-5'>高清</b>混合转换器:模块化<b class='flag-5'>技术</b>重塑<b class='flag-5'>音视频</b>信号转换行业格局

    HT1001EK音视频编码器——高清传输.稳定无忧,全场景音视频解决方案

    一、精简版产品宣传单页文案(适合线下派发/线上传播) 标题:HT1001EK音视频编码器——高清传输·稳定无忧,全场景音视频解决方案 ✅ 核心亮点:4K输入+1080P输出,海思芯片7x24
    发表于 12-30 15:26

    洲明科技荣获2025年度音视频行业品牌评选九项大奖

    2025年12月20日,由DAV数字音视工程网与《数字音视工程》杂志联合主办的第17届音视频行业品牌评选结果正式揭晓。
    的头像 发表于 12-28 11:45 818次阅读

    打破国外垄断!自主分布式音视频方案筑牢行业安全根基

    在当前的全球音视频芯片市场中,国外公司一直占据着主导地位,然而,近年来国外对中国芯片行业的打压让国内音视频行业的发展面临了巨大的挑战。在这样的背景下,国内领先的音视频技术企业挺身而出,
    的头像 发表于 12-19 11:28 475次阅读
    打破国外垄断!自主分布式<b class='flag-5'>音视频</b>方案筑牢行业安全根基

    KS-PXIe638 型 8 通道音视频采集板:高清同步采集,专业场景 “性能标杆”

    在航空航天的数据记录、工业测控的实时监测、交通控制的画面留存等专业场景中,多通道、高保真的音视频采集是核心诉求 ——KS-PXIe638 型 8 通道音视频采集板,依托高速 FPGA 架构,以 8
    的头像 发表于 11-26 13:24 558次阅读
    KS-PXIe638 型 8 通道<b class='flag-5'>音视频</b>采集板:<b class='flag-5'>高清</b>同步采集,专业场景 “性能标杆”

    音视频编解码封装解封装部件介绍

    是否有探索开源鸿蒙音视频编解码技术的欲望?是否对开源鸿蒙音视频编解码格式支持有诉求?别急——今天这份开源鸿蒙AVCodec Kit介绍文章,就是解答疑惑的指南!参考这份指南,可以使用开源鸿蒙的
    的头像 发表于 10-31 09:15 667次阅读
    <b class='flag-5'>音视频</b>编解码封装解封装部件介绍

    音视频开发全栈解析

    Media Kit 让开发者可以调用系统的音视频能力,涵盖播放、录制、录屏、元数据提取与转码六大核心功能模块,支撑系统应用与第三方应用在视频播放、内容创作、教学录屏、直播互动等典型场景下的音视
    的头像 发表于 09-18 14:42 1043次阅读
    <b class='flag-5'>音视频</b>开发全栈解析

    千视电子受邀亮相2025音视频产业链研讨会,引领全链路音视频IP化新趋势

    主管部门负责人,共同探讨产业前沿技术、市场趋势及合作机会,旨在推动湖南音视频产业链高质量发展。当前,全球音视频产业正经历深刻变革,正在加速迈
    的头像 发表于 08-27 11:33 1537次阅读
    千视电子受邀亮相2025<b class='flag-5'>音视频</b>产业链研讨会,引领全链路<b class='flag-5'>音视频</b>IP化新<b class='flag-5'>趋势</b>

    雷曼光电COB超高清显示屏落地马栏山音视频实验室

    雷曼光电凭借在Micro LED领域的深厚技术积累和雷曼COB超高清显示产品的卓越性能,为湖南长沙马栏山音视频实验室打造了核心显示方案。
    的头像 发表于 07-09 17:05 1303次阅读

    泰芯半导体推出星闪音视频无线SOC芯片TXW828

    在短距离无线通信技术加速迭代的浪潮中,珠海泰芯半导体有限公司全球首先发布支持星闪(NearLink)标准的音视频无线SOC芯片——TXW828。这款集WiFi/蓝牙BLE/星闪三模融合音视频无线芯片
    的头像 发表于 06-20 15:51 3061次阅读