0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

LiveVideoStack采访声网Agora架构师庄泽森

LiveVideoStack 来源:LiveVideoStack 作者:LiveVideoStack 2020-10-13 15:54 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

采访讲师|庄泽森

声网Agora架构师,毕业于复旦大学电子工程系,专业方向是信号处理和估计理论,毕业后一直从事音视频相关算法研究和优化。2014年加入声网后,专注于实时音视频方案的架构和实时网络加速相关技术的研究,对拥塞控制算法、丢包对抗技术、FEC、jitter buffer等算法等都有相关经验,多年来和团队一起研发了声网一系列关键产品,包括音频引擎、通信视频引擎、直播SDK、多人视频等等。

以下内容由LiveVideoStack与庄泽森的采访整理而成

您目前的工作以及近期关注的技术和产品?

庄泽森:目前在声网专注于传输和网络相关算法的研究,同时,作为架构师参与声网产品和服务核心质量的技术改进。

所以,对与网络相关算法和技术有关的、旨在提升音视频体验的传输和媒体技术以及机器学习深度学习应用于音视频场景和网络的技术,都比较关注。

您加入声网的六年间对音视频服务&技术有了哪些新的理解;在您眼中,声网在这期间又历经了怎样的发展和变化?

庄泽森:深刻体会到做好实时音视频服务的不易。实际网络和端设备的复杂性与多样性,对实现不卡、不糊和低延迟的音视频体验有着极大的挑战;另一方面,越来越多的实时音视频需求,需要我们的服务支持高并发,具备高可用性和高可扩展性。这都要求我们在技术上从算法、架构到工程不断迭代,勇攀高度,做到极致。

需要强调的是,相关的配套设施和服务产品也需要跟上,如质量监控和透明,以及客户支持等等。

这些年,声网团队规模一步步从小到大发展起来,声网的产品不断推出,产品线越来越全,业务也从一开始的无人问津到现在的每天亿级分钟数。这一切进步的背后,不变的是团队对技术能力技术高度的追求、对音视频技术和对实际网络的不断探索。

目前为止您所参与的最难忘的项目是什么,可以与LiveVideoStack的读者分享其中的一两个小故事吗

庄泽森:在声网的这些年有太多难忘的经历了,这里就说说刚加入声网时的情况吧。

那时我的第一个项目就是独立负责音频网络jitter buffer优化,这也是当时音频引擎研发中的难点之一。

团队对引擎的网络自适应能力要求很高,而我也发现实际网络jitter情况比想象中复杂得多,各种网络类型和各种网络条件,包括设备和服务器的处理瓶颈等等,都会最终表现为不同的jitter。如何做到在这些pattern下有流畅的音频体验,同时做到延时较低,这些都很有挑战性;而另一方面,那时我刚从稳定的外企来到创业团队,一切都是新鲜的也是让人忐忑的,能否快速适应更高效更快速的工作节奏和氛围,我心里也是没有底的。

针对这些情况,我的做法还是摆正心态,积极融入团队,并把注意力转移到技术上,快速学习相关技术文献和paper,同时进行实际网络pattern的抓取和分析。记得当时还写了一些脚本,对抓取的数据进行分析和可视化展示,进行算法仿真,并最终代码实现,这样才把第一个项目比较完美地交付了。

在您的技术进阶之路上,给您启发最大的是什么?

庄泽森:多年来一直从事技术工作,可以说有不少人都给了我很大的帮助和引导,比如声网的资深技术顾问钱世锷老师,他也是我上一家公司的导师;再比如现在声网的首席科学家钟声老师,大家都是相关领域的专家和学者,在技术上和职业发展上给了我不少引导,他们对学术的追求和求真的态度也对我影响很大。这里边儿还包括我们的CEOTony,他对技术的热忱和敏感判断,以及做事的方法,都给了我很多帮助和启示。

您现阶段正在解决的问题以及您下一阶段的研发目标?

庄泽森:现阶段主要在做下一代网络自适应的传输和媒体算法研发,在复杂的网络和应用场景下希望可以给出更鲁棒更极致的方案,进一步提升音视频体验,应对由于疫情和5G带来的在全世界范围井喷的音视频需求。

音视频服务做到“实时”并不容易,能请老师与大家分享您对构建实时音视频方案架构的相关经验,以及您对于技术意义上的“实时”的理解?

庄泽森:提到实时音视频,也许很多人都会想到低延时,而我想强调的是不要单看延时,除了“低延时”,还有“体验三角形”、“场景”这几个关键词。

音视频体验包括延时、流畅度和清晰度,我称之“体验三角形”。音视频方案如果只优化单一指标,事情会相对简单。举个例子,假如只看延时,我们可以在各种网络条件下尽量降低视频码率,整个传输和媒体方案可以做得很“敏感”,达到相对低的延时。但这样就牺牲了清晰度,最终体验可能也无法满足要求。

所以,实时音视频是在低延时语境下延时、流畅度和清晰度三者的综合体验结果,用现在流行的话说,就是“既要,又要,还要”的表述了。

另一方面,其实不同的业务对“体验三角形”里三方的要求也不一样,这就是“场景”的不同带来要求也不同。比如直播场景,延时的要求可能降低,而对清晰度和流畅度则要求很高;通信场景则对延时和流畅度的要求很高,清晰度相对就排在后面了。实时音视频也可以说是满足场景要求的实时音视频。

所以,实时音视频方案的基础,是需要一个在各种网络条件下鲁棒和高效的传输栈,传输延时和throughput两个指标综合评估能做到最佳结果,同时有根据业务需求向某个体验指标偏倚的能力,即可以方便地场景化;另一方面,在传输栈之上,需要一个具备网络适应和对抗能力的媒体层,如自适应网络的编码器,以及优化的媒体jitter buffer等等。

您觉得实时音视频场景下目前挑战较大的技术难点有哪些,声网的解决思路是什么?

庄泽森:实时音视频场景下从算法、架构到工程,各个方面都有不少难点和挑战。如果挑其中较大的难点来说,可能主要在两个地方:一个是随着疫情的出现和5G技术的发展,音视频服务的体量极大飙升,如何能撑得起这个体量,做到支持高并发,达到高可用和高可扩展;另一个就是如何在各种网络状况和资源条件下,始终提供极致的实时音视频体验。

对于第一个难点,声网团队在架构设计、资源储备和工程实现方面下足了功夫,迭代演进过程中也一直牢记着这些要求。甚至为了保证服务,我们会瞄准比计划的目标负荷更大的负荷;对于第二个难点,声网在算法和版本上快速迭代,对整个音视频pipeline、各个层级、各个模块先定义好边界,然后分别对具体模块具体算法不断探索,快速落地,进而迭代。

为什么您选择在这次LiveVideoStackCon中重点讲网络传输中的拥塞控制算法?

庄泽森:拥塞控制和带宽估计是网络传输里非常关键的部分,算法的设计将大大影响整个传输栈的性能和效率,进而影响上层业务的体验和结果。而复杂多样的网络条件、各个地区网络运营的不同以及应用场景的不同又对算法提出了不同的需求,如何有一个鲁棒的算法设计,确实很有挑战,而能否做到,将最终决定服务的好坏。

人工智能、深度学习在拥塞控制算法中的应用处于什么什么状态,以及未来的展望?

庄泽森:深度学习和机器学习的应用确实是当前拥塞控制算法研究的方向之一,也是热点。可以说,这个方向甚至可能是一把钥匙——最终完美解决目前该领域所有问题的钥匙。

不过,该方向的算法目前实际落地的很少,一些学术界的成果在实际网络或者更复杂的弱网环境下测试效果并不令人完全满意。这里面的原因有多方面,其中之一是实际网络数据及数据标定难以获得,特别是能涵盖所有网络状况和网络类型的数据。

后疫情时代的视频会议服务发生了哪些变化,对相关技术、算法优化提出了哪些新的要求?

庄泽森:关于疫情时代对音视频服务和行业的影响,相信已经有不少文章做过详细论述了,我就简单讲下个人的看法。

教育、办公、社交、娱乐等领域,都在往线上转移,或者说线上线下结合。其实这本来就是一种趋势,但疫情又在一定程度上加速了这种趋势,使得这些在短期内有了一个跳变。加上各种线上产品形态的迸发,又进一步带来了实时音视频服务需求的短期飙升。

其实不止线上办公、线上教育等领域,这次疫情的特殊性还在于,它让大家意识到,把业务搬到线上,可能是绕不开的一个工作,是保障业务对抗未知的“安全”战略。可以预计,更多的领域更多的玩法,都会有线上的形态,而实时音视频服务的需求和体量也许会比我们估计的更大。

一方面线上音视频体量飙升,另一方面,像线上教育线上办公这些应用场景,对实时音视频体验和质量的要求也更高了。同时,随着服务的客户和业务增多,也将碰到更多的场景,更多的网络状况和更多的国家地区以及更多的设备等等。

所以相应的,首先我们要“撑得起”现在的音视频体量,从架构和资源等方面要支持高并发,达到高可用性和高可扩展性。甚至为了保证服务,架构设计和资源储备时还要向前一步,把更大的体量支持考虑进去。

另一方面,从媒体层到传输层,算法能力也需要更上一层,以应对更多的网络状况、设备状况和场景,以保持鲁棒性,提供稳定的极致体验。举个例子,网络优化要考虑不同地区的差异,考虑到音视频用量激增后在传输中可能遇到更多的资源和网络瓶颈等等。

原文标题:实时音视频服务的“既要、又要、还要”

文章出处:【微信公众号:LiveVideoStack】欢迎添加关注!文章转载请注明出处。

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 音频
    +关注

    关注

    31

    文章

    3134

    浏览量

    84921
  • 人工智能
    +关注

    关注

    1813

    文章

    49734

    浏览量

    261477
  • 机器学习
    +关注

    关注

    66

    文章

    8541

    浏览量

    136230
  • 深度学习
    +关注

    关注

    73

    文章

    5590

    浏览量

    123900

原文标题:​实时音视频服务的“既要、又要、还要”

文章出处:【微信号:livevideostack,微信公众号:LiveVideoStack】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    在TR组件优化与存算一体架构中构建技术话语权

    需要掌握HBM2e接口协议 类脑计算要求理解脉冲神经网络(SNN) 光子计算涉及硅基光电子集成技术 参与某国家级AI芯片项目的团队透露,核心研发人员均具备\"处理器架构师\"
    发表于 08-26 10:40

    山西能源科技集团有限公司选购我司热重分析仪

    山西能源科技集团有限公司,作为一家现代化民营企业,在煤炭生产、铝土矿开采及氧化铝生产等领域成绩斐然。公司秉持“安全、绿色、创新、协调、共享”的发展理念,始终走在行业前沿。​山西
    的头像 发表于 08-06 09:47 751次阅读
    山西<b class='flag-5'>森</b><b class='flag-5'>泽</b>能源科技集团有限公司选购我司热重分析仪

    伯格亮相2025汽车线束与电子电气架构创新技术峰会

    7月24日,第 13 届汽车线束与电子电气架构创新技术峰会暨展览会在上海盛大开幕。罗伯格汽车事业部高级技术专家周同昌发表了题为“车载高压及高频连接器的技术展望”的主题演讲,分享前沿技术解决方案,为行业内外人士提供了宝贵的技术洞见。
    的头像 发表于 07-24 17:27 1089次阅读

    Tenstorrent 首席架构师:未来 RISC-V 会是计算机的主流

    强,适合定制化需求等。在 7 月 17 日第五届(2025)RISC-V 中国峰会的主论坛上,Tenstorrent 首席架构师 Wei-Han Lien 表示,Tenstorrent 投入了大量人力
    发表于 07-17 11:26 1379次阅读

    如何释放异构计算的潜能?Imagination与Baya Systems的系统架构实践启示

    报告作者:PallaviSharma,Imaginaiton产品管理总监Dr.EricNorige,BayaSystems首席软件架构师关注Imagination公众号,消息框发送【异构计算】,即可
    的头像 发表于 06-13 08:33 829次阅读
    如何释放异构计算的潜能?Imagination与Baya Systems的系统<b class='flag-5'>架构</b>实践启示

    「案例分享」盾华助力亦视听产业园:打造智慧园区管理新模式

    「案例分享」盾华助力亦视听产业园:打造智慧园区管理新模式
    的头像 发表于 06-10 08:56 550次阅读
    「案例分享」盾华助力亦<b class='flag-5'>庄</b>视听产业园:打造智慧园区管理新模式

    华为推出面向AI WAN的智算IP广域解决方案

    在由上海电信主办的“云启智,畅想未来”的分论坛上,华为数据通信产品线城域路由器首席架构师任广涛分享了题为“面向AI WAN的智算IP广域助力企业高效用算”的演讲。
    的头像 发表于 05-19 11:27 864次阅读

    商汤科技日日新大模型SenseNova上线云市场

    日前,商汤科技日日新大模型SenseNova即将正式上线云市场,开发者和企业用户可通过的实时互动云服务进行调用,将商汤领先的模型能力集成到各类应用场景中,快速构建基于日日新大模
    的头像 发表于 04-08 17:24 1317次阅读

    伯格亮相第六届中国国际汽车以太峰会

    2025年4月1日-2日,全球连接技术开拓者罗伯格携最新汽车电子解决方案亮相第六届中国国际汽车以太峰会(AES 2025)。在上海建工浦江皇冠假日酒店B11展位,公司集中展示了面向智能网联时代的高速数据传输与高压连接创新成果,并通过两场重磅技术演讲,向行业分享罗
    的头像 发表于 04-03 17:23 861次阅读

    一个优秀的嵌入式软件“架构师” — AWFlow

    在大型项目的软件开发过程中,模块化开发面临着接口设计不合理、代码冲突以及模块间不兼容等问题,导致团队协作效率低下。为了解决这些问题,嵌入式软件“架构师”—AWFlow,应运而生!在大型项目
    的头像 发表于 02-10 16:44 770次阅读
    一个优秀的嵌入式软件“<b class='flag-5'>架构师</b>” — AWFlow

    联手TE与Microchip推出汽车Zonal架构电子书

    Technology携手合作,共同推出了一本全新的电子书。 这本电子书聚焦于汽车Zonal架构,旨在深入探讨这一架构如何助力设计应对汽车系统日益增长的复杂性,并从根本上改变车辆的构造方式。随着汽车电子系统的不断升级和智能化,
    的头像 发表于 01-22 11:23 933次阅读

    与TE Connectivity 和Microchip Technology联手推出 聚焦汽车Zonal架构的全新电子书

    Connectivity以及Microchip Technology合作推出全新电子书,深入探讨Zonal架构如何帮助设计跟上汽车系统日益复杂化的步伐,以及它如何从根本上改变车辆构造。   Zonal架构通过
    发表于 01-17 15:24 396次阅读

    软通动力中标亦控股司库管理系统建设项目

    近日,软通动力成功中标北京亦投资控股有限公司(以下简称:亦控股)司库管理系统建设项目,正式成为亦控股司库管理系统建设的合作伙伴。双方将在国资发财评规〔2022〕1号文件的指导下,携手探索具有亦
    的头像 发表于 01-16 10:56 802次阅读

    英特尔前Xeon首席架构师加盟高通

    高通公司近日宣布,英特尔前Xeon服务器处理器首席架构师Sailesh Kottapalli已正式加入高通,并担任高级副总裁一职。此举被视为高通进军数据中心CPU市场的重要一步
    的头像 发表于 01-15 15:30 719次阅读

    云知受邀出席2024央广(丽)财经年会

    日前, 2024央广(丽)财经年会在北京隆重举行。此次年会以“锚定战略,笃定信心”为主题,汇聚了来自政界、学界、企业界的众多精英,共同就当下经济、科技等领域的热门话题和行业难题展开多维度、多角度
    的头像 发表于 01-02 10:13 728次阅读