0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Open WebRTC Toolkit实时视频分析系统

LiveVideoStack 来源:LiveVideoStack 2020-07-13 15:45 次阅读

随着物联网技术的发展,实时视频分析技术已应用于智能物联网的各个领域。英特尔基于与GStreamer以及OpenVINO构建了整套实时视频分析方案,为用户提供更加灵活、便捷的实时视频分析服务。本文由英特尔高级软件工程师 吴秋娇在LiveVideoStack线上分享内容整理而成。

01 背景介绍

随着物联网技术的发展,实时视频分析技术已应用于智能物联网的各个领域,例如:智能零售、智能工厂、智能监控等,如果把视频比作物联网的眼睛,那么实时视频分析技术就是物联网的大脑。 目前基于深度学习以及计算机视觉的视频分析是最通用的方式。

以物联网技术中非常通用的场景-物体识别技术为例,如图是典型的物体识别的流程图,在前端采集一段视频流,再将物体识别出来,对所识别的物体进行标注,再进行回传显示,需要经过很多复杂的步骤,其中需要调用很多接口。同样还会涉及到颜色空间转换、缩放、推理、以及编解码的过程,这些过程都需要占用很大的计算资源。 同时在实际环境中如果有CPUGPU,VPU等多种计算资源,如何让编解码以及推理等过程充分利用不同的计算资源从而提升系统性能?此外,当系统需要应对更多的流分析任务时,如何进行方便快速地扩展。这些都是实时分析系统会碰到的问题。接下来我们从这些问题出发来介绍OWT(Open WebRTC Toolkit)如何解决实时分析系统的复杂性,性能以及扩展问题。OWT的实时分析系统是基于英特尔的OpenVINO以及开源的GStreamer框架进行开发,我们先对OpenVINO,GStreamer以及OWT做个简单的介绍。

02 英特尔 vision computing platform

Open VINO是英特尔推出的pipeline的工具集,具有完成算法、模型部署所需要的各种能力。 从图中可以看出,其主要由两部分组成:模型优化器(Model Optimizer),可以把在其它框架下已经训练好的模型转换为Open VINO所适用的模型再进行优化,转换速度较快;推理引擎(Inference Engine),即在设备上运行的AI负载在做推理时,可以将我们所需要的处理效果例如前处理、后处理、特征叠加等,通过Open VINO接口的形式方便的实现。 而且Open VINO 中还可以支持多种模型,目前已经提供有150多种训练好的模型供用户直接使用。可以在Open Model Zoo(https://docs.openvinotoolkit.org/2019_R1/_docs_Pre_Trained_Models.html)的网站查看具体支持的模型。另外OpenVINO在Intel平台进行优化,提升计算机视觉相关深度学习性能达19倍以上,可以充分利用相应的计算资源。

另外OWT使用GStreamer框架。GStreamer 是一个高度模块化的管线驱动式媒体框架,大概从2002年开始发布第一个版本,一直到现在还在不断更新。特别是AI时代,由于其灵活性及可扩展性,GStreamer在AI领域应用也比较广泛,目前已有很多丰富的AI插件,可以提供各种功能。 目前已经推出支持Open VINO的GStreamer插件gst-video-analytics, 提供了推理,监测及分类等多种功能的插件,详见https://github.com/opencv/gst-video-analytics/wiki/Elements。 OWT视频分析系统给用户提供了方便的接口,用户可自行组合不同的GStreamer plugin来实现不同的分析任务。 面向WebRTC的英特尔协同开发套件,从2014年发布第一个版本到现在已经是4.3.1版本,随着时间版本不断在演进,2019年进行了开源,开源后成为OWT(Open WebRTC Toolkit),在Github地址https://github.com/open-webrtc-toolkit/owt-server。

如图是OWT的整体框架,OWT不仅向服务器端提供了非常丰富的功能, 也实现了大范围的客户端支持,保证各种流的接入。在服务器端有Streaming、Conferencing、Transcoding、Analytics四大功能,都是在视频端常用的功能。 客户端支持JavaScript、AndroidIOS、Windows、Linux系统,保证用户的流可以通过不同的传输协议,例如WebRTC协议、RTSP协议、RTMP、HLS、SIP协议,传统领域应用的传输协议都可以将流接入OWT系统,进行分析,再传输。 同时OWT系统演进很长时间,在可扩展性、分布式部署、还有高可用方面也做了很多工作,产品正在向更完善的方向发展。OWT兼容英特尔的多个平台,让实时分析任务能充分运用硬件资源,从而大大系统提升性能。

关于视频分析架构,如图OWT分为四个大模块,通过接入节点将客户的流接入系统,传输到分析模块,再通过GStreamer pipeline进行视频解码,前处理、推理以及后处理,再编码、推流,返回给扩散节点,通过扩散节点返回客户端,在客户端实时显示。 OWT系统支持英特尔的VCAC-A卡,Movidus VPU以及英特尔各个产品系列。

对使用者来讲,想要通过接口接入流进行分析是一件比较简单的事情。例如IP摄像流通过RTSP 协议接入系统,若用户想要分析该流,如人脸检测、或算法分析等,需要在客户端发送简单的Restful请求指定分析哪一路流。 Management api收到消息之后传递给Conference agent进行Session 管理,通知分析模块,在分析模块进行初始化动作。初始化完成后返回Session控制,通知IP摄像的流接入节点与Analytics建立连接。此时,Streaming agent将流发送给Analytics agent,进行各种算法的分析。若用户希望在浏览器中看到流的分析结果,此时可以将分析后的流扩散给WebRTC节点,再传输给浏览器等待的用户。 若用户想要对流进行录像,可以将分析后的流扩散给Recordign agent,在用户端将分析后的流进行录制。另外,若用户想要将分析好的数据上传到云端,也可以进行导入插件再进行相应操作。 同时,在图中我们可以看到,分析过程是与OWT整套方案协同工作,OWT提供很多控制的API,例如分析、录像、sip calls、从不同的协议接入,如果想要将分析好的流推给RTMP服务器,方案也配有Streaming OUT接口进行推送,也有针对混合流、暂停/继续播放流等操作。

当一路流从其它节点传送到Analytics分析节点后,再送入Gstreamer pipeline中,在pipeline中进行一些操作。例如经过H.264 parse解析,解析后解码,通过videorate针对相应场景的丢帧处理,再传入推理模块,进行推理过程。例如:检测、分类等处理,进行编码,通过appsink传给输出节点。 图中解码过程没有明确表明具体使用哪个API,这些是用户可以自己进行选择的, GStreamer pipeline中有很多丰富的解码接口,例如CPU或GPU解码,大大的提升了解码效率。推理部分在GitHub上有gst-video-analytics提供的检测,分类等插件,使用CPU或VPU进行推理,可以更充分的利用系统的资源。 其中的pipeline构建用户可以自行定制,选择去掉某些步骤重新组合处理流程。

如果有一个分析任务,在OWT中如何实现的呢? 开发者可以使用OWT提供的接口,通过将不同功能的GStreamer plugin组合来实现一个特定分析任务的pipeline。一个分析任务最后被编译成一个动态库,在配置文件里配置算法号以及动态库名来对应分析任务,配置好之后用户通过restful请求开始分析任务时指定相应的算法号以及要分析的流,OWT就会对指定的流进行指定的分析。 若用户想要多个算法分析,只需要构建多个不同的pipeline,再编译成不同的动态库文件,并在配置文件里指定不同的算法号即可在OWT中实现多个算法分析。 对于这一部分的使用说明,在Webrtc hack网站(网址https://webrtchacks.com/accelerated-computer-vision-inside-a-webrtc-media-server-with-intel-owt/)上有一篇比较详尽的文章,可以进行查阅学习。

整个OWT系统演进了很多年,在资源调度方面进行了很多处理,OWT支持依据CPU,GPU,VPU资源使用情况进行任务调度。当部署在多台机器以及多种计算资源的环境下,OWT会收集各个节点上的CPU,GPU以及VPU使用情况,将新来的分析任务根据调度策略分配到相应的节点进行工作。我们提供了几种常用的调度策略,用户可根据实际部署情况对各个模块单独配置不同的策略。

对于HA,当Analytics处于正常状态,IP摄像机的流导入,通过图中最上端一路流程进行录像。分析任务正在进行时,突然出现故障,这时可以被Session Control检测到,。Session Control发现可用节点,将可用节点激活,再将正在分析的流导入该分析节点,继续被中断的分析任务,再传输到Recording节点进行录像。这样就可以在实际场景中实现高可用的过程。

03 总结

整体方案中分析部分是基于深度学习的方式与OWT相结合,OWT使用GStreamer pipeline简化实时视频分析过程,开发者可以方便地通过组合GStreamer plugin来实现不同的实时分析任务。同时,OWT利用OpenVINO以及OWT本身的调度机制来充分利用计算资源,从而提升整体性能。OWT支持分布式部署,各个功能模块可以快速方便地进行扩展。再加上OWT提供的HA机制,可以保证实时视频分析系统的稳健运行。 英特尔一直在致力于Visual cloud、Computing等基于IA平台的发展,同时也提供了很多开源资源,例如Open VINO、OWT 在GitHub上有相应的开源项目。同时英特尔在客户端也有一些AI的方案,例如WebNN等,未来也将在浏览器上落地,敬请期待。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 英特尔
    +关注

    关注

    60

    文章

    9504

    浏览量

    169203
  • 智能物联网
    +关注

    关注

    0

    文章

    67

    浏览量

    6264

原文标题:Open WebRTC Toolkit实时视频分析系统

文章出处:【微信号:livevideostack,微信公众号:LiveVideoStack】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    【RTC程序设计:实时视频权威指南】信令与媒体协商

    在rtc通信中,双方是如何进行的媒体数据的交换呢? 实时通信系统中信令起到了至关重要的作用,信令可以建立和维护、通信会话,能够功能协商和能力交换,也可以进行用户身份的验证,进行会话控制和控制状态
    发表于 04-29 17:24

    【RTC程序设计:实时视频权威指南】新书一瞥

    本人从事音视频领域的开发,经常接触实时视频处理相关的技术,看到这本书非常有兴趣阅读,这本书全面介绍实时视频(RTC)技术的权威著作,该书
    发表于 04-22 09:09

    名单公布!【书籍评测活动NO.29】RTC程序设计:实时视频权威指南

    标准。我们可以从头审视RTC系统,看看它的各个组成部分,以分析其必要性与实现方式。 因此,推荐这本《RTC程序设计:实时视频权威指南》给大家。 这是一本关于多媒体技术的书。从内容组织
    发表于 03-04 17:04

    V4L2视频采集,基于PCIe的多路视频采集与显示子系统

    视频采集与显示子系统可以实时采集多路视频信号,并存储到视频采集队列中,借助高效的硬实时
    的头像 发表于 02-22 20:05 302次阅读
    V4L2<b class='flag-5'>视频</b>采集,基于PCIe的多路<b class='flag-5'>视频</b>采集与显示子<b class='flag-5'>系统</b>

    嵌入式open函数的使用

    嵌入式系统是指嵌入到其他设备或系统中,用于控制和管理硬件资源的计算机系统。在嵌入式系统中,通常需要与外部设备进行数据交互,例如读取传感器数据、控制执行器等。
    的头像 发表于 01-04 15:51 281次阅读

    什么是AI视频识别分析

    相应事件的处理和告警信息。这项技术对于视频监控等领域具有重要意义,可以实现不同细分场景的实时监控和查看视频监控内容等智能应用。AI视频识别分析
    的头像 发表于 12-02 08:26 868次阅读
    什么是AI<b class='flag-5'>视频</b>识别<b class='flag-5'>分析</b>

    基于紫光同创FPGA的多路视频采集与AI轻量化加速的实时目标检测系统

    基于紫光同创FPGA的多路视频采集与AI轻量化加速的实时目标检测系统#2023集创赛#紫光同创#小眼睛科技助力紫光同创高校生态建设@小眼睛科技 获奖作品展示:华南理工大学+CR8_Pro队
    发表于 11-02 17:51

    WebRTC进行压测的思路及方式和一些经验

    最近几年WebRTC特别火,但如何对WebRTC服务进行压力测试是一个很有难度和挑战的工作,因为WebRTC客户端实际使用上产生的压力瓶颈主要来源对象是码流而非传统的HTTP并发请求。
    的头像 发表于 10-30 11:30 708次阅读
    <b class='flag-5'>WebRTC</b>进行压测的思路及方式和一些经验

    浅谈边缘视频分析

    边缘视频分析
    的头像 发表于 10-27 16:34 398次阅读
    浅谈边缘<b class='flag-5'>视频</b><b class='flag-5'>分析</b>

    基于DL Streamer与YOLOv8模型实现多路视频实时分析

    作为众多 AI 应用场景的基座,基于流媒体的视觉分析一直是传统 AI 公司的核心能力之一。但想要搭建一套完整的视频分析系统其实并不容易,其中会涉及多个图像处理环节的开发工作,例如
    的头像 发表于 10-20 11:17 1127次阅读
    基于DL Streamer与YOLOv8模型实现多路<b class='flag-5'>视频</b>流<b class='flag-5'>实时分析</b>

    实时视频技术在直播中的应用案例解析

    由于明星侧有实时沟通需求,因此传输协议只能选择WebRTC。而观众侧下行用户的基数很大(数万到数十万),使用WebRTC虽然延时低但成本压力高,使用成本较低的HLS延时又过高,不利于明星实时
    发表于 09-26 09:26 501次阅读
    <b class='flag-5'>实时</b>音<b class='flag-5'>视频</b>技术在直播中的应用案例解析

    基于ARM的视频监控系统设计方案

    本文搭建了视频监控系统的实验原型系统,对视频监控系统视频采集、以太网通讯、客户端
    发表于 09-25 06:50

    使用Openvino从视频实时检测逃票

    电子发烧友网站提供《使用Openvino从视频实时检测逃票.zip》资料免费下载
    发表于 06-29 10:53 0次下载
    使用Openvino从<b class='flag-5'>视频</b>中<b class='flag-5'>实时</b>检测逃票

    什么是RTC技术(WebRTC

    RTC(Real time communication)实时通信,是实时视频的一个简称,我们常说的RTC技术一般指的是WebRTC技术,已经被 W3C 和 IETF 发布为正式标准。
    的头像 发表于 05-26 17:24 9019次阅读
    什么是RTC技术(<b class='flag-5'>WebRTC</b>)

    什么是RTC?

    ,包含H323 SIP 私有协议等等通信标准,涵盖从端,服务器,支撑系统等一整套的通信标准,通信的形式包括实时语音,实时视频实时文本等,而
    的头像 发表于 05-26 14:27 4504次阅读
    什么是RTC?