0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

深度解析依图行为识别的AI技术

454398 来源:雷锋网 作者:雷锋网 2021-03-19 10:34 次阅读

江湖三十年鏖战,AI 即出,多方势力涌入让这个世界重新异彩纷呈,也经历了新一轮洗牌。

在这场战役中留下姓名的企业,皆因技术、产品、服务等硬实力,成为了行业中的佼佼者。

在同样起跑线,有些企业总是能独占鳌头,以不卑不亢的姿态,成为“别人家的孩子”。

AI 独角兽依图也是这样一位“别人家的孩子”。

最近,在国际权威机构 ACM MM(ACM MM’20 Grand Challenge)主办的“大规模复杂场景下人体视频解析”挑战赛(Large-scale Human-centric Video Analysis in Complex Events)的核心赛道——行为识别中,依图科技再夺一冠。

ACM MM 被认为是多媒体技术领域奥运级别的顶级盛会,也是中国计算机学会(CCF)认证和多媒体研究领域评级中唯一的 A 类国际顶级会议。此次挑战赛集结了国内外约 100 支参赛队伍,包括亚马逊、大华、腾讯、中山大学等知名企业和院校。

同时,此次竞赛是该方向最接近真实场景的大规模挑战赛,主要基于各类人群和复杂事件(如地震逃生、食堂用餐、下火车等)来分析人的行为,包括多人追踪、姿态估计、姿态追踪、行为识别等四大任务;目的在于考察算法在复杂场景下对人体的解析能力,鼓励研究者在以人为中心的分析中解决非常具有挑战性和现实的问题。

更为关键的一点是,与其他举办过多次的国际竞赛不同,作为首届竞赛,参赛队伍在赛前无法了解识别的类别、数据集的大小和识别的具体需求,也就是说,对即将面对的行为类别、数据模型、比赛需求一无所知,这意味着没有经验可借鉴,没有路径可学习。依图是如何在短短两个月的挑战时间内,实现最优的算法性能,拿下世界第一?

挑战不可能

顾名思义,大规模复杂场景挑战赛必然需要大规模和复杂场景。大规模即丰富的场景、大额的数据量(一般情况下,100 万以上的数据量在学术界会被称为大规模)。

作为首届比赛,HiEve 数据集标注超 100 万个,内容以真实视频场景为主,囊括了当前姿态数量最多的数据集。其中,有超 56000 个复杂事件下的人体行为,包括但不限于排队、打架、俯身、同行、跑动等;平均轨迹长度超过 480,是轨迹数量最多的数据集之一。

结合到比赛的具体任务而言,行为识别,简单场景指的是一个视频里只分析一个行为的主体;复杂场景指的是视频里有多个人,在密集、拥挤的场景下,分析的行为还需要包含人和人之间的互动。

1)数据量大,但有效数据少

比赛中,考察的行为种类非常多,且每种行为可以有多种表达方式,例如出拳、拉扯、扇巴掌等都属于打架,而训练集很难覆盖所有可能的组合。

虽然数据总量达到 100 万,但由于视频数据帧之间的相似性很高,包含了大量冗余数据。这些数据对算法提升泛化性的作用有限。如果去除这些极为相似的连续帧冗余数据,整个训练数据中的数据也只有几万个,仅仅覆盖 20 个左右的视频场景。这意味着有效的数据且测试分布一致的数据量并不多, 极大的增加了泛化难度。

换句话说,在训练过程中,大量测试的场景,并没有被算法系统直接学习过。这就需要算法具备强大的泛化性能,让算法学会“举一反三”

2)场景复杂

此外,场景的复杂性无法一言以概。例如,摄像头的拍摄质量(清晰、抖动、模糊、扭曲)不一, 不同场景的布局不同 (例如:商场、走廊、马路、大厅、餐厅、公园等), 场景光线受到室内、室外、晴天、阴天的影响也比较大;甚至还存在摄像头俯拍、平拍、斜拍各个角度的差异、人体框的大小和远近不同、乃至人之间(人与物之间)还会经常发生相互遮挡。

解决了算法的泛化能力问题,克服了场景的复杂性,还有其他待解难题。

3)行为差异大

要知道,实际中行为分析是非常复杂的。即使是同一类行为,在不同时刻、不同场景也具有很大差异性。比如不同的人在不同时刻行走,速度、姿态和场景遮挡都会不同。或者同一行为具有多种不同的表现形式,比如单“打架”一个行为,可能包含踢人、扇耳光、拉扯等不同形式。

在多人场景甚至是密集场景下,除了要准确识别个人行为,还要标出人与人之间的互动,需要对每个人,在任何一个时间点上,给出此刻的行为判断。

4)连续动作和长时间动作捕捉难

通俗的说,读懂一个动作,需要长期、连续跟进,还需要结合上下文,才能做“阅读理解”。这就需要同时具备时间和空间的感知能力,准确的捕捉到人在前几秒每帧的动作, 并集合时间上动作发生的变化推测出行为。

以“挥拳”为例,整个过程经历了开始的靠近阶段、挥动拳脚的高潮阶段以及结束阶段。只有结合了人体每个时刻的姿态,才能更准确地判别出动作。

更重要的是,需要在短短两个月的时间内解决以上问题并夺冠,做到世界第一,没有极其深厚的技术积累、行业经验以及快速解决问题的能力,难之又难。

算法“凿山”, 算力“开路”,解锁智能未来

当然,也有一些业界人士毫不讳言:相较于人脸领域这种算法流程已经相对确定、算法框架的技术水准也趋于稳定的成熟领域而言,行为识别,尤其是人的行为识别,还处于学术界的摸索阶段,正因如此,很可能成为 AI 界的下一掘金地。

学术界的探索意味着没有多少前人指路,依图能在囊括如此复杂难题的行为识别赛道夺冠,并非偶然,除了对场景的深度理解、创新融合,还有硬实力的支撑。

学术界常用 frame mAP (f-mAP@avg)来作为行为识别的评价指标,f-mAP@avg 代表的含义是以关键帧为单位,评判行为的位置与分类是否准确;与学术界对行为识别的考察指标不同,此次竞赛的评价标准是 wf-mAP@avg,这意味着更注重对难度较大的拥挤场景的考察,以及比较少见的动作的识别,同时对于人体框的定位的精确性要求也更高。

在短短两个月的挑战时间内,依图算法的指标达到了 wf-mAP@avg0.26,将以往学术界中的基准算法提升了近 3 倍。

掘金不易,凿山开路更不易。何况视频相较于图像的行为识别更加复杂,如何建模、视频帧之间的相关性仍是学术界一直存在的难题。

依图深谙这一点,优化算法来“凿山”。

研发团队透露,当应用场景明确后,在已知分析的对象是人体且明确知道要识别的类别后,就可以针对性的进行算法优化,通过算法定制化来提升算法性能,解决以往不能很好解决的问题。

此外,依图还创新性地将算法与场景进行了深度结合——一方面创新性的从视频中自动提取到丰富准确的场景信息,结合先进的行人检测、行人重识别算法,全面构建了人与人、人与场景、人与物之间在视频中的关系;另一方面,借助长期在智能城市场景下的算法积淀和对行业场景的理解,从需求出发,对比赛中要求的特定的 14 类任务进行了深度算法优化。

与其他队伍追求复杂的多模态融合策略不同,依图在此次竞赛中竟然是用单模型夺冠。也就是说,他们借助背景提取和分割算法,将行为的解析与场景结合,大大降低了问题难度。

敢在比赛中用单模型与其他多模型融合策略 PK,不外乎自信中带着点跟自己较真的狠劲,又一次展现了在有限的时间内依图算法可以做到极致。

算法“凿山”的依图,在开拓 AI 新领域的版图上一直策马长驱,离不开算力的“开路”。

此前,依图科技自主研发的全球首款云端视觉智能芯片求索(questcore™),可以提供强大算力,单路摄像头功耗不到 1W,开启了算法设计与芯片设计相结合的时代。

集合了高性能 AI 算法和芯片耦合设计优化的芯片平台,结合世界领先的行为识别算法的依图,将更有利于赋能智能城市、安全生产、智能商业等领域,打造新一代 AI 基础设施。

细观依图半年来的动态,在疫情爆发初期快速研发出业界首个新冠肺炎辅助诊断系统并投入全国的医院,同时,频频刷新顶级赛事的世界纪录,分别在贵阳和福州落地千万量级规模的城市级人工智能应用、通过全球权威隐私认证管理国际认证,发布语音超级本、入选工信部知识图谱案例集……技术愈加成熟、落地经验愈加丰富。

这些会给未来带来什么?借用依图科技创始人朱珑近期在《人民日报》署名文章中所说:未来 10 年,低阶感知智能将向高阶决策智能跃迁;人工智能将向具有高度不确定性、多任务融合、复杂推理等特点的高阶智能突破,有望实现看、听、理解、规划和控制等能力的重大跃升。

编辑:hfy

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 算法
    +关注

    关注

    23

    文章

    4437

    浏览量

    90552
  • AI
    AI
    +关注

    关注

    87

    文章

    26130

    浏览量

    263714
  • 依图科技
    +关注

    关注

    0

    文章

    40

    浏览量

    9682
收藏 人收藏

    评论

    相关推荐

    人脸识别之智能行为检测技术

    运用非常多。在家居、小区、教育、门店、交通、公安等许多地方都可以涉及到。我今天主要给大家讲的就是人脸识别的智能行为检测技术行为就是比如你走路、脚步迈开就是一个
    发表于 07-07 13:30

    一文读懂语言识别技术原理1

    ` 本帖最后由 讯飞开放平台 于 2018-7-2 08:55 编辑 语音识别是十年来发展最快的技术之一,随着AI的不断发展,深度学习让语音识别
    发表于 06-28 11:27

    1小时玩转AI语音识别

    `报名链接:http://t.elecfans.com/live/563.html直播主题及亮点本次直播讲解AI语音识别核心技术知识以及语音识别系统架构,现场实操写代码实现语音采集、语
    发表于 09-19 13:40

    直播福利:1小时玩转AI语音识别

    `报名链接:http://t.elecfans.com/live/563.html直播主题及亮点本次直播讲解AI语音识别核心技术知识以及语音识别系统架构,现场实操写代码实现语音采集、语
    发表于 09-19 13:46

    【免费直播】AI芯片专家陈小柏博士,带你解析AI算法及其芯片操作系统。

    。并且跟大家从多个视角畅聊展望人工智能芯片的未来发展趋势。适合各类对AI芯片感兴趣的学员们,欢迎大家届时来听。直播主题:【第2期】AI芯片技术解析-
    发表于 11-07 14:03

    一种对通信信息诈骗行为进行识别和对深度受害人进行防控双重防护的方法

    研判和处置。  2 系统技术架构  整体系统技术架构如图1所示。系统主要包含诈骗电话识别、受害程度判定规则及易感人群识别等三大模块。利用信令数据中异常主叫
    发表于 12-03 14:14

    【CC3200AI实验教程11】疯壳·AI语音人脸识别-AI语音系统架构

    CC3200AI实验教程——疯壳·开发板系列AI语音系统架构AI语音识别系统的系统架构如图1.0.1所示。1.0.1
    发表于 08-30 14:54

    基于深度图形与骨骼数据的多特征行为识别方法

    处理。随着图像技术与硬件的发展,利用微软Kinect或华硕Xtion等设备,学者可以实时获取人体的深度图像信息。与传统的图像相比,深度图像不受光照影响,能够提供三维空间信息。利用深度
    发表于 12-09 11:47 0次下载
    基于<b class='flag-5'>深度</b>图形与骨骼数据的多特征<b class='flag-5'>行为</b><b class='flag-5'>识别</b>方法

    技术 | 基于深度学习图像识别的变电站监控系统

    基于计算机网络技术以及无线通信技术和视频监控技术,研究深度学习图像识别的变电站基建安全行为监控系
    的头像 发表于 07-22 08:29 5019次阅读

    语音识别的技术历程

    深度学习技术自 2009 年兴起之后,已经取得了长足进步。语音识别的精度和速度取决于实际应用环境,但在安静环境、标准口音、常见词汇场景下的语音识别率已经超过 95%,意味着具备了与人类
    的头像 发表于 08-22 14:21 4126次阅读

    AI行为识别分析技术在智慧养老行业的应用

    AI行为识别分析技术,是一款基于AI神经网络的深度学习算法,通过实时分析视频流,从视频流中勾勒出
    发表于 05-13 15:53 1w次阅读

    基于深度学习的行为识别算法及其应用

    基于深度学习的行为识别算法及其应用
    发表于 06-16 14:56 20次下载

    深度解析多模态数据行为识别技术的研究发展

    行为识别在一些数据集上的识别率已经很高,在日常生活中也有一些应用。但是行为识别仍然存在许多挑战。
    发表于 12-19 17:43 1529次阅读

    用科技改变生活:帕克西手势识别技术解析

    帕克西手势识别是通过普通PC/手机摄像头,快速检测并返回图片或视频中的手势/动作,深度解析用户的行为信息,提供基于普通摄像头的全新手势交互无限可能。
    的头像 发表于 11-27 15:05 212次阅读

    AI视觉识别有哪些工业应用

    AI视觉识别涵盖多种应用,如人脸识别、目标检测和识别、图像分割、行为识别、视频分析等。本篇就简单
    的头像 发表于 11-27 18:05 403次阅读
    <b class='flag-5'>AI</b>视觉<b class='flag-5'>识别</b>有哪些工业应用