0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

LiveVideoStack采访声网Agora架构师庄泽森

LiveVideoStack 来源:LiveVideoStack 作者:LiveVideoStack 2020-10-13 15:54 次阅读

采访讲师|庄泽森

声网Agora架构师,毕业于复旦大学电子工程系,专业方向是信号处理和估计理论,毕业后一直从事音视频相关算法研究和优化。2014年加入声网后,专注于实时音视频方案的架构和实时网络加速相关技术的研究,对拥塞控制算法、丢包对抗技术、FEC、jitter buffer等算法等都有相关经验,多年来和团队一起研发了声网一系列关键产品,包括音频引擎、通信视频引擎、直播SDK、多人视频等等。

以下内容由LiveVideoStack与庄泽森的采访整理而成

您目前的工作以及近期关注的技术和产品?

庄泽森:目前在声网专注于传输和网络相关算法的研究,同时,作为架构师参与声网产品和服务核心质量的技术改进。

所以,对与网络相关算法和技术有关的、旨在提升音视频体验的传输和媒体技术以及机器学习深度学习应用于音视频场景和网络的技术,都比较关注。

您加入声网的六年间对音视频服务&技术有了哪些新的理解;在您眼中,声网在这期间又历经了怎样的发展和变化?

庄泽森:深刻体会到做好实时音视频服务的不易。实际网络和端设备的复杂性与多样性,对实现不卡、不糊和低延迟的音视频体验有着极大的挑战;另一方面,越来越多的实时音视频需求,需要我们的服务支持高并发,具备高可用性和高可扩展性。这都要求我们在技术上从算法、架构到工程不断迭代,勇攀高度,做到极致。

需要强调的是,相关的配套设施和服务产品也需要跟上,如质量监控和透明,以及客户支持等等。

这些年,声网团队规模一步步从小到大发展起来,声网的产品不断推出,产品线越来越全,业务也从一开始的无人问津到现在的每天亿级分钟数。这一切进步的背后,不变的是团队对技术能力技术高度的追求、对音视频技术和对实际网络的不断探索。

目前为止您所参与的最难忘的项目是什么,可以与LiveVideoStack的读者分享其中的一两个小故事吗

庄泽森:在声网的这些年有太多难忘的经历了,这里就说说刚加入声网时的情况吧。

那时我的第一个项目就是独立负责音频网络jitter buffer优化,这也是当时音频引擎研发中的难点之一。

团队对引擎的网络自适应能力要求很高,而我也发现实际网络jitter情况比想象中复杂得多,各种网络类型和各种网络条件,包括设备和服务器的处理瓶颈等等,都会最终表现为不同的jitter。如何做到在这些pattern下有流畅的音频体验,同时做到延时较低,这些都很有挑战性;而另一方面,那时我刚从稳定的外企来到创业团队,一切都是新鲜的也是让人忐忑的,能否快速适应更高效更快速的工作节奏和氛围,我心里也是没有底的。

针对这些情况,我的做法还是摆正心态,积极融入团队,并把注意力转移到技术上,快速学习相关技术文献和paper,同时进行实际网络pattern的抓取和分析。记得当时还写了一些脚本,对抓取的数据进行分析和可视化展示,进行算法仿真,并最终代码实现,这样才把第一个项目比较完美地交付了。

在您的技术进阶之路上,给您启发最大的是什么?

庄泽森:多年来一直从事技术工作,可以说有不少人都给了我很大的帮助和引导,比如声网的资深技术顾问钱世锷老师,他也是我上一家公司的导师;再比如现在声网的首席科学家钟声老师,大家都是相关领域的专家和学者,在技术上和职业发展上给了我不少引导,他们对学术的追求和求真的态度也对我影响很大。这里边儿还包括我们的CEOTony,他对技术的热忱和敏感判断,以及做事的方法,都给了我很多帮助和启示。

您现阶段正在解决的问题以及您下一阶段的研发目标?

庄泽森:现阶段主要在做下一代网络自适应的传输和媒体算法研发,在复杂的网络和应用场景下希望可以给出更鲁棒更极致的方案,进一步提升音视频体验,应对由于疫情和5G带来的在全世界范围井喷的音视频需求。

音视频服务做到“实时”并不容易,能请老师与大家分享您对构建实时音视频方案架构的相关经验,以及您对于技术意义上的“实时”的理解?

庄泽森:提到实时音视频,也许很多人都会想到低延时,而我想强调的是不要单看延时,除了“低延时”,还有“体验三角形”、“场景”这几个关键词。

音视频体验包括延时、流畅度和清晰度,我称之“体验三角形”。音视频方案如果只优化单一指标,事情会相对简单。举个例子,假如只看延时,我们可以在各种网络条件下尽量降低视频码率,整个传输和媒体方案可以做得很“敏感”,达到相对低的延时。但这样就牺牲了清晰度,最终体验可能也无法满足要求。

所以,实时音视频是在低延时语境下延时、流畅度和清晰度三者的综合体验结果,用现在流行的话说,就是“既要,又要,还要”的表述了。

另一方面,其实不同的业务对“体验三角形”里三方的要求也不一样,这就是“场景”的不同带来要求也不同。比如直播场景,延时的要求可能降低,而对清晰度和流畅度则要求很高;通信场景则对延时和流畅度的要求很高,清晰度相对就排在后面了。实时音视频也可以说是满足场景要求的实时音视频。

所以,实时音视频方案的基础,是需要一个在各种网络条件下鲁棒和高效的传输栈,传输延时和throughput两个指标综合评估能做到最佳结果,同时有根据业务需求向某个体验指标偏倚的能力,即可以方便地场景化;另一方面,在传输栈之上,需要一个具备网络适应和对抗能力的媒体层,如自适应网络的编码器,以及优化的媒体jitter buffer等等。

您觉得实时音视频场景下目前挑战较大的技术难点有哪些,声网的解决思路是什么?

庄泽森:实时音视频场景下从算法、架构到工程,各个方面都有不少难点和挑战。如果挑其中较大的难点来说,可能主要在两个地方:一个是随着疫情的出现和5G技术的发展,音视频服务的体量极大飙升,如何能撑得起这个体量,做到支持高并发,达到高可用和高可扩展;另一个就是如何在各种网络状况和资源条件下,始终提供极致的实时音视频体验。

对于第一个难点,声网团队在架构设计、资源储备和工程实现方面下足了功夫,迭代演进过程中也一直牢记着这些要求。甚至为了保证服务,我们会瞄准比计划的目标负荷更大的负荷;对于第二个难点,声网在算法和版本上快速迭代,对整个音视频pipeline、各个层级、各个模块先定义好边界,然后分别对具体模块具体算法不断探索,快速落地,进而迭代。

为什么您选择在这次LiveVideoStackCon中重点讲网络传输中的拥塞控制算法?

庄泽森:拥塞控制和带宽估计是网络传输里非常关键的部分,算法的设计将大大影响整个传输栈的性能和效率,进而影响上层业务的体验和结果。而复杂多样的网络条件、各个地区网络运营的不同以及应用场景的不同又对算法提出了不同的需求,如何有一个鲁棒的算法设计,确实很有挑战,而能否做到,将最终决定服务的好坏。

人工智能、深度学习在拥塞控制算法中的应用处于什么什么状态,以及未来的展望?

庄泽森:深度学习和机器学习的应用确实是当前拥塞控制算法研究的方向之一,也是热点。可以说,这个方向甚至可能是一把钥匙——最终完美解决目前该领域所有问题的钥匙。

不过,该方向的算法目前实际落地的很少,一些学术界的成果在实际网络或者更复杂的弱网环境下测试效果并不令人完全满意。这里面的原因有多方面,其中之一是实际网络数据及数据标定难以获得,特别是能涵盖所有网络状况和网络类型的数据。

后疫情时代的视频会议服务发生了哪些变化,对相关技术、算法优化提出了哪些新的要求?

庄泽森:关于疫情时代对音视频服务和行业的影响,相信已经有不少文章做过详细论述了,我就简单讲下个人的看法。

教育、办公、社交、娱乐等领域,都在往线上转移,或者说线上线下结合。其实这本来就是一种趋势,但疫情又在一定程度上加速了这种趋势,使得这些在短期内有了一个跳变。加上各种线上产品形态的迸发,又进一步带来了实时音视频服务需求的短期飙升。

其实不止线上办公、线上教育等领域,这次疫情的特殊性还在于,它让大家意识到,把业务搬到线上,可能是绕不开的一个工作,是保障业务对抗未知的“安全”战略。可以预计,更多的领域更多的玩法,都会有线上的形态,而实时音视频服务的需求和体量也许会比我们估计的更大。

一方面线上音视频体量飙升,另一方面,像线上教育线上办公这些应用场景,对实时音视频体验和质量的要求也更高了。同时,随着服务的客户和业务增多,也将碰到更多的场景,更多的网络状况和更多的国家地区以及更多的设备等等。

所以相应的,首先我们要“撑得起”现在的音视频体量,从架构和资源等方面要支持高并发,达到高可用性和高可扩展性。甚至为了保证服务,架构设计和资源储备时还要向前一步,把更大的体量支持考虑进去。

另一方面,从媒体层到传输层,算法能力也需要更上一层,以应对更多的网络状况、设备状况和场景,以保持鲁棒性,提供稳定的极致体验。举个例子,网络优化要考虑不同地区的差异,考虑到音视频用量激增后在传输中可能遇到更多的资源和网络瓶颈等等。

原文标题:实时音视频服务的“既要、又要、还要”

文章出处:【微信公众号:LiveVideoStack】欢迎添加关注!文章转载请注明出处。

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 音频
    +关注

    关注

    28

    文章

    2595

    浏览量

    79948
  • 人工智能
    +关注

    关注

    1775

    文章

    43688

    浏览量

    230479
  • 机器学习
    +关注

    关注

    66

    文章

    8094

    浏览量

    130513
  • 深度学习
    +关注

    关注

    73

    文章

    5219

    浏览量

    119863

原文标题:​实时音视频服务的“既要、又要、还要”

文章出处:【微信号:livevideostack,微信公众号:LiveVideoStack】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    OPPO与哲库科技解散团队,全力研发自研芯片底层架构

    1月8日,OPPO首席产品官刘作虎在接受媒体采访时指出,虽然OPPO不会自主研发芯片,但仍旧会保持哲库科技原有核心架构师团队,发挥其与联发科、高通等企业的沟通交流作用,旨在打通终端需求和 SoC 能力之间的通道。
    的头像 发表于 01-30 09:29 344次阅读

    【急招】嵌入式软件架构师,年80w内可谈!

    嵌入式linux平台,架构经验,5年以上经验 工作地点:北京市海淀区 薪酬:年80内可谈‼12月份需要到岗‼
    发表于 11-23 10:13

    架构师写的BUG会是什么样的

    程序考虑到了高并发场景,使用了线程安全的ConcurrentHashMap,然后每次通过监控key取出相应的数据,然后在value上递增。这么简单的代码,确实不需要增加什么注释。
    的头像 发表于 10-19 18:23 282次阅读
    <b class='flag-5'>架构师</b>写的BUG会是什么样的

    物联网流架构的五个组件组成

    设计IoT应用程序就像盖房子一样:组织需要强大的基础来支持应用程序的变化。对于物联网,该基础是流架构。   软件架构师必须遵循一个蓝图,以确保他们在考虑沿IoT数据路径的组件时不会失去对整体
    的头像 发表于 10-15 15:34 851次阅读

    IBM 专家观点:LinuxONE 全面助力企业级基础架构可持续创新

    本文作者:廉勇刚、孙晓妍 廉勇刚 IBM 大中华区主机及 LinuxONE 系统技术架构师 孙晓妍 IBM 大中华区主机及 LinuxONE 系统技术架构师 顺应市场趋势与客户需求,IBM
    的头像 发表于 08-15 18:15 251次阅读
    IBM 专家观点:LinuxONE 全面助力企业级基础<b class='flag-5'>架构</b>可持续创新

    SoC平台安全要求1.0

    本文件规定了芯片上系统(SoC)的最低安全要求多个市场。它主要适用于需要遵守各种安全性的芯片组设计者 要求。架构师、设计和验证工程可以使用此规范来支持该过程独立实验室的认证。 本文档未指定特定
    发表于 08-02 10:15

    采用LM48824设计的立体耳机放大器电路图

      采用LM48824集成电路,可以设计出非常简单的便携式立体耳机放大器。   LM48824 的立体耳机放大器(G 类架构)通过自适应电源方法增加音频(MP3、移动电视等)播放时间,该方法可
    发表于 08-01 17:28

    【书籍评测活动NO.18】 AI加速器架构设计与实现

    自动放弃------------------------------------------------------------------------地平线BPU首席架构师/英伟达前高级架构师15年
    发表于 07-28 10:50

    全新 Arm IP Explorer 平台助力 SoC 架构师与设计厂商加速 IP 选择

    Arm 推出全新 Arm IP Explorer 平台,该平台是一套由 Arm 提供的云平台服务,旨在为基于 Arm 架构设计系统的硬件工程师与 SoC 架构师,加速其 IP 选择和 SoC
    的头像 发表于 07-26 16:25 325次阅读

    湖仓一体:揭秘数据湖架构现代化之道

    作者: Hebert W. Pereyra,IBM 杰出工程师,Hybrid Data Management 首席架构师; 译者: 刘俊 ,IBM watsonx.data 开发架构师 数据湖诞生
    的头像 发表于 07-24 19:00 305次阅读
    湖仓一体:揭秘数据湖<b class='flag-5'>架构</b>现代化之道

    湖仓一体:揭秘数据湖架构现代化之道

    作者:Hebert W. Pereyra,IBM 杰出工程师,Hybrid Data Management首席架构师 译者:刘俊 ,IBM watsonx.data开发架构师 北京2023年7月17
    的头像 发表于 07-17 21:56 350次阅读

    Agora Video SDK之上运行AI姿势检测

    电子发烧友网站提供《在Agora Video SDK之上运行AI姿势检测.zip》资料免费下载
    发表于 06-30 14:19 0次下载
    在<b class='flag-5'>Agora</b> Video SDK之上运行AI姿势检测

    RISC-V架构师从过去指令集设计的错误中吸取的教训

    学习《RISC-V-Reader》中四个架构的特点,以及说明RISC-V架构的及取经验教训后的架构设计
    的头像 发表于 05-24 09:04 43w次阅读

    架构师需了解的一些知识

    *架构师** ”三个字眼的高薪职位。当你被它的高薪所吸引而点击查看职位详情时,又会被它的高要求所劝退。它们往往要求工作年限在5年以上,需要求职者有过3年以上的系统设计经验,精通各种架构模式和系统框架
    的头像 发表于 05-10 17:11 548次阅读
    <b class='flag-5'>架构师</b>需了解的一些知识

    【致敬未来的攻城狮计划】嵌入式方向的看过来,第3期免费报名咯。。。

    。对瑞萨MCU感兴趣的可以前往官了解更多信息:https://www.renesas.cn/cn/zh6.2 技术图书主赞助商待定。。。 7 活动计划特别说明本次活动计划的所有解释权归架构师李肯和瑞
    发表于 05-05 22:12