0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

商汤科技在智能视觉方面的进展和落地应用方面的实践

商汤科技SenseTime 来源:未知 作者:李倩 2018-11-13 15:53 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

近日,******强调人工智能具有溢出带动性很强的“头雁”效应,必须把增强原创能力作为重点,夯实新一代人工智能发展的基础。这把原本就火热的人工智能推向新的高潮,也可以看到发展人工智能原创技术的重要性。

“坚持原创,让AI引领人类进步”是商汤科技的使命。11月8日,在“2018中国AI开发者大会(AINEXTCon)”上,商汤科技副总裁、工程院院长沈徽发表了主题为“创新极限赋能百业——商汤智能视觉的产业化落地”的演讲。

沈徽认为,人工智能特别是计算机视觉技术不是一个单点上的突破,如果我们要真正把它做好,是整个技术平台性的提升。当AI跟越来越多的场景结合之后,能够获得新的需求,这些需求点会成为技术提升的输入和数据。从实践中来到实践中去,AI产业不断发扬光大。

如下是商汤君整理的沈徽演讲内容:

很高兴能够有机会和大家分享商汤科技在智能视觉方面的进展和落地应用方面的实践。

首先讲下大背景,人类社会的演进背后都有技术在推进,如青铜器的出现让农业有了较大发展。

过去几年,由于深度学习技术突破所带来的AI领域革命性的突破,对社会影响非常深远。往次的技术革命,技术延展了我们的手和脚,增强了我们的肌肉。而AI则延展了我们的大脑,使人类能够更加敏锐,AI技术进步对人类社会的影响和文化影响都是非常深远的,大家应该感到非常激动,因为我们正处在这样一个时代的开始。

人工智能从技术领域来说是个很泛的技术,人能做计算机不能做的我们都认为是智能。人工智能的技术路线有很多模块,基于统计思路的机器学习是人工智能里很重要的技术方向,经历了三次浪潮,1957年感知器,1986年神经网络,以及近些年基于深度学习技术所带来的AI感知层面的突破。我们现在处在第三次浪潮中,2010、2011年由深度学习真正实用化开始为代表的一次浪潮。

计算机视觉处在一个超越大众的阶段

什么是机器学习?输入x输出y,假设y满足一定规律,机器学习就能找出f,能更好的拟合概率分布。第一类是物体识别,是猫还是狗,还有一种应用是低分辨率图像变成高分辨率图像。在机器学习里面拟合f有多种不同的技术,神经网络是中间技术的一种,神经网络由多个神经元以及之间互相连接形成的一个网络,如果看到每个神经元都有一个或者多个输入通常一个输出,一个输出可能连接到多个神经元的输入里,在神经网络里每个神经元都要找到相应的位置,得出一个输出函数。

我们看神经网络的时候,X1、X2、X3这些输入叫做特征,特征在深度学习出现之前大量都是人手工把它做出来的,人根据自己的经验、自己的技术把现实世界中的数据转化成可以被神经网络消费的特征。

我们在很大程度上不需要人工做特征的识别,而是可以用神经网络把这样的特征学出来,这是深度学习网络带来的很重要的突破,它的应用会变得更加普适,因为不需要针对每个场景做特征指令级,我们可以把算力变成真正的智能,这样一个通路就打开了。

我想很客观的评价一下我们现在处在什么阶段,技术必须要到一定程度才能真正转化为生产力,否则之前更多的是研究的状态。第一阶段往往技不如人,五年前的人脸识别、语音识别和人的差距还很大,从错误率来看大概几倍甚至几十倍的差距。第二阶段是我们真正能达到甚至超越普通人的水准。第三阶段是超越专家,AlphaGo在围棋这个领域超越了专家。

计算机视觉现在大概还处在第二阶段,处在一个超越大众的阶段。一方面,在一些细分领域定义的很清楚,我们用深度学习的办法有足够的数据能够做得非常好,超越人类;另一方面,它的普适性还有很大的欠缺,包括对数据的依赖没有达到人工智能需要的量。在这个阶段,AI已经变成一个非常可用的东西了。

下面我分三方面介绍一下商汤所做的事,从技术与平台、产品和行业解决方案三个角度进行介绍。

技术与平台

深度学习最重要的三个点,第一是算法模型,第二是数据,第三是算力。

商汤在三年前构建的DNN(深层神经网络),有1200多层,在ImageNet上第一次赢得世界冠军。

再讲一下商汤的深度学习平台SenseParrots。大家知道AI领域有各种各样的开源平台,商汤为什么要建立自己的SenseParrots平台?因为商汤的数据资源处于世界领先地位,如果想取得不断的突破必须要很好的工具,这个训练平台是非常重要的工具,而领先的工具很难从开源平台获取,很多时候想真正满足用户的需求不是一个网络模型就能解决问题,我们需要能够在这样的平台上构建完整的网络,这是构建这个平台的原因。商汤内部大量的研发工作都在这个平台上完成,未来我们也会向合作伙伴输出这样的能力。

算力方面,今年商汤会拥有超过14000块GPU,体现了旺盛的需求,商汤在超过18个行业有各种各样的落地场景,在这些行业里必然有各种各样不同的基于计算机视觉的需求,所以造成对算力巨大的渴望。我们一方面把我们算力的总量提升,另一方面把算力的效率提高。

第三是数据,我们有海量可以用来训练的数据,涵盖超过18个行业,人脸只是当中的一小部分。

产品和行业解决方案

接下来讲一下应用。

这是基于商汤AR引擎的应用,把王者荣耀里的虚拟化人物放到真实的场景中,它不是简单的叠加,必须要对物理环境有3D感知,这样才能真正把虚拟人物非常自然的放在里边。手机双摄头可以获取场景的3D信息,借此我们重构出一个3D的场景,用六自由度实时跟踪技术,确定很多场景的关键点,根据这些关键点之间的关系以及变化,对虚拟物体做3D的构建,进而产生这种自然的效果。

商汤的SenseAR技术在两年前,就已广泛应用于各类短视频、直播等用户原创内容(UGC)视频平台中。我们利用人脸关键点技术,用计算机理解人脸。左边第一张图在方框里绿色的点标出了五官的位置,这样就很容易做出好玩的AR效果,这就是关键点技术实现的。

自动驾驶中的视觉感知,左边是行驶区域的检测和车道线检测,右边是在这个基础上对信号灯的检测和路边物体的检测,这些都是用智能视觉技术对环境做感知。除了感知道路也能感知车辆,更重要的是能够感知运动方向并做出相应的预测。

我们当时发了一篇关于在复杂情况下车道线检测算法的Paper,除了用程序视觉技术对环境做理解之外,我们还把视觉技术和结构化技术做结合,使我们对遮挡或视觉不清情况下的车道线恢复能起到很好的效果,中间用传统CNN做,很多车道线不是特别清晰,右边做了一个解析,效果好了很多。这个创新告诉我们当做AI技术或深度学习技术时一定不要限制在窄的范围内。

这是DMS中的视觉感知,是用于智慧车舱的技术,可以对大货车、出租车司机进行检测和监控,看他是不是注意力集中,有没有危险动作,有没有疲劳等等,这是多种视觉技术的结合。第一张图是注意力,注意力是如何检测的呢?我们看他视线的方向,在DMS中做视觉跟踪,我们做眼球检测,计算出注意力的方向进而做一个预估,可以达到非常高的精度。

下面讲一下智能视觉赋能城市大脑,举一个用于寻人的真实案例:今年初南方某地公安局使用我们的技术在三小时之内就找到了一位走失三天、患阿尔茨海默症的老人。

我们不光看人脸,还看很多其他信息,比如一个交通路口,信息和道路状况结合之后可以做自动交通管控。很多时候大家会说这个就是去识别和做一些检索,但是当数据量级很大的时候就很难做了,为此我们构建了SenseFoundry方舟城市级视觉开放平台,同时做实时检测、实时跟踪和实时分析,这在北上广深等大城市中已经应用了。

它一方面要有系统的提升,另一方面要有算法的提升。如果想从十个人里识别一个人,和一千万人里识别一个人,对算法的要求是完全不一样的。我们人脸识别的技术在不断提升,包括采用增量学习的技术,对不同环境高容忍度、高普适性的技术。在此之上我们做了人脸和人体的联合搜索,大量的环境下很难捕捉到一个完整的人脸,这个时候人脸、人体再加上其他信息去做联合搜索能大大提高搜索的准确度。

去年苹果第一次在手机上推出了3D人脸解锁,但对人脸解锁的研究商汤早就进行了。和iPhone不一样,我们要想在安卓系统上为多家厂商提供人脸解锁的能力,我们需要有一定的算法优化。人脸解锁不单单是简单的脸和脸的比对,很重要的是活体检测和注意力检测,不能拿一张照片就给手机解锁,别人不能在你睡觉的时候拿着你的脸给手机解锁。人脸解锁虽然已经实现了一个功能但是它在不断迭代,单纯用人脸解锁手机时,准确率可能需要达到10的负4次方量级,相当于4位密码,但当你要做支付、认证等和金融相关的应用时就需要有10的负6次方,甚至负8次方量级才能达到要求,我们现在已经超过了10的负8次方。

活体检测方面,进攻方会想出各种各样的办法用人脸攻击识别系统,识别系统不断发现潜在漏洞,避免系统性的活体检测失误。商汤有一个专门的团队每天的任务就是想着怎么把活体检测的系统突破掉,这里有几个简单的攻击手段,包括纸质照片、面具、三维面具和视频等,我们一方面不断寻找新的方式做攻击,同时做防守。

这是人脸3D重建,拿着一个手机的前摄从五个角度拍到人脸,当拍到五张照片之后用五个方向的人脸做一个3D的重建。

下面看一些其他产品。想必大家已经在一些小区、大楼看到刷脸进门,从以前刷卡按指纹变成了刷脸。当人在运动当中走过一个闸门时,我们希望以最快的速度检测到人脸,并用最快的速度判定应该开门还是关门。大家可以想象随着人步入通道脸的大小不断变化,怎样能获取更高精度的检测?最简单的是把图片按照不同的大小进行分割,但这样算法效率非常低,99%的计算都是无用的计算,我们是在模型里做一些优化,能大大提高效率,训练的时候精度提升会变得更快。

这是一些数据,右上角的表用不同的技术把它叠加在一起,包括精度和速度提升,我们可以通过不同的硬件做选型。

此外,刷脸技术还用于很多不同的场景,包括身份验证、门禁、闸机等等。商汤是通过刷脸进办公室的,今年北京航空航天大学9月份新生入学时,也用了商汤SenseHello刷脸系统做注册。

刚才说的技术产品都是由内向外的,行业解决方案是因为大量客户很多时候并不在乎用什么技术,更在乎能帮助他解决什么问题,我们要提供解决方案,这样才能把他的精力从痛点移开,进而去关注他的业务。

今年九月,在上海召开的世界人工智能大会上,我们在人工智能大会现场的黄浦江西岸做了智慧公共空间管理系统,融合了多种感知技术,用视觉技术和IOT技术做观察、理解、预判和行动形成一个管理闭环。只有提供这样的完整解决方案客户才能够实实在在感受到它的价值。

AI必须要跟行业结合才能产生价值

介绍了这么多产品和技术落地的事情,我想谈的是人工智能特别是计算机视觉技术不是一个单点上的突破,如果我们要真正的把它做好,它是整个技术平台性的提升,也是商汤在过去多年不断积累,在各个行业寻求问题,构建研究能力和技术上的突破。

AI技术本身是不能产生价值的,必须要跟行业结合,跟实际场景结合。当AI技术跟越来越多场景结合之后,一方面能够提供价值,另一方面能够获得新的需求,这些需求点会成为技术提升的输入和数据,从实践中来到实践中去,AI产业不断发扬光大,真正拓展我们的脑力和感知能力,使社会生产力进步。我觉得每一位都可以加入到AI系统里面来,拥抱AI,从中获取能更好地解决现在问题的方案,把社会带到一个新的高度,谢谢大家。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 计算机视觉
    +关注

    关注

    9

    文章

    1714

    浏览量

    47450
  • ai技术
    +关注

    关注

    1

    文章

    1313

    浏览量

    25598
  • 商汤科技
    +关注

    关注

    8

    文章

    591

    浏览量

    37322

原文标题:商谈丨商汤工程院院长沈徽:AI技术本身不产生价值 必须要跟行业结合

文章出处:【微信号:SenseTime2017,微信公众号:商汤科技SenseTime】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    天合储能在系统安全设计与防爆防控方面的实践经验

    最新一期 BESS Basics 系列访谈中,天合储能北美产品负责人 Mike Watson 深入探讨了基于《NFPA 69 标准》的储能系统爆炸风险综合防控策略,分享了天合储能在系统安全设计与防爆防控方面的实践经验与技术思考
    的头像 发表于 10-29 09:27 327次阅读

    了解SOLIDWORKS202仿真方面的改进

    和效率,从而帮助设计师更好地应对复杂的设计挑战。本文将深入探讨SOLIDWORKS 2025仿真方面的改进,揭示这些改进如何助力设计师实现更有效、更准确的仿真分析。
    的头像 发表于 09-04 10:36 493次阅读
    了解SOLIDWORKS202仿真<b class='flag-5'>方面的</b>改进

    中兴通讯ESG方面的实践成果

    主讲嘉宾,以《科技向善 弥合鸿沟 共创未来》为主题,分享了中兴通讯环境(Environmental)、社会(Social)和治理(Governance)三大维度的创新思考与实践,并与多位企业嘉宾展开互动交流。
    的头像 发表于 08-07 17:21 1045次阅读

    商汤科技荣登福布斯中国可持续创新发展企业榜单

    近日,2024-2025福布斯中国可持续发展工业企业系列评选结果正式发布。商汤凭借环境保护、社会价值、企业管治等方面的卓越实践成功入选2024-2025福布斯中国可持续创新发展企业榜
    的头像 发表于 07-03 18:20 840次阅读

    云知声与商汤科技达成战略合作

    终端等核心领域展开深度合作,探索大模型垂直行业的落地实践。通过模型能力的深度融合,双方将在语音与视觉等多模态交互方面协同创新,为行业客户提
    的头像 发表于 06-20 14:52 793次阅读

    通过什么方法能获得关于Ethercat方面的设计方案和设计资料

    您好通过什么方法能获得关于Ethercat方面的设计方案和设计资料,我们主要关于主站,从站IO和运动控制方面的资料,谢谢!!
    发表于 05-28 10:07

    解析SMA接口电磁兼容性方面的卓越表现

    德索精密工业通过材料选用、工艺处理以及结构和内导体设计等多方面的不懈努力,使得其生产的SMA接口电磁兼容性方面表现卓越,众多对电磁环境
    的头像 发表于 05-20 08:48 481次阅读
    解析SMA接口<b class='flag-5'>在</b>电磁兼容性<b class='flag-5'>方面的</b>卓越表现

    解析 SMA 接口电磁兼容性方面的卓越表现

    德索精密工业通过材料选用、工艺处理以及结构和内导体设计等多方面的不懈努力,使得其生产的SMA接口电磁兼容性方面表现卓越,众多对电磁环境
    的头像 发表于 05-14 09:12 482次阅读
    解析 SMA 接口<b class='flag-5'>在</b>电磁兼容性<b class='flag-5'>方面的</b>卓越表现

    SOLIDWORKS教育版——全方面的学习资源与教程

    功能,更以其全方面的学习资源与教程,为学生构建了一个从理论到实践、从基础到进阶的完整学习体系。本文将深入探讨SOLIDWORKS教育版如何凭借其丰富的学习资源与教程,为工程教育注入新的活力,助力学生成长为未来的工程精英。
    的头像 发表于 04-23 11:03 665次阅读
    SOLIDWORKS教育版——全<b class='flag-5'>方面的</b>学习资源与教程

    有单片机方面的大佬吗?有几个单片机方面的问题需要请教一下

    如题,有单片机方面的内容需要请教一下 (先叠个甲)纯小白 我需要一个单片机控制模块,我现在的想法是:一个单片机上,我要让他控制一个传感器和一个步进电机(运动系统,运动距离为13.5cm),同时
    发表于 03-29 18:35

    石墨膜和铜VC散热性能和应用方面的区别

    石墨散热膜与铜VC(均热板)散热性能和应用方面的区别如下:一、散热性能对比1.导热机制◎石墨散热膜:依赖石墨材料平面方向的高导热性(1500-2000W/mK),快速横向扩散热量。◎铜VC:利用
    的头像 发表于 03-13 17:13 2079次阅读
    石墨膜和铜VC散热性能和应用<b class='flag-5'>方面的</b>区别

    新唐科技微控制器触控应用方面的优势

    应用带来创新解决方案。本次新闻稿将涵盖更多产品系列和技术细节,更全面地展示 NuMicro 微控制器触控应用方面的优势。
    的头像 发表于 02-27 15:52 1042次阅读

    电源盒不同领域方面的应用

    安全性和便利性‌1。 ‌ 在数据中心与电能质量领域 ‌,电源产品被广泛应用于数据中心,确保数据中心的稳定运行和电能质量。这些电源产品包括各种电源盒,它们为数据中心提供可靠的电力供应‌2。 ‌ 智能家居与日常生活领域 ‌
    的头像 发表于 02-25 10:56 654次阅读

    单轴智能测径仪可以提高哪些方面的便利?

    、远程控制与数据通信、智能控制与反馈以及高精度测量与适应性等方面的提升,显著提高了其自动化水平。这使得智能测径仪工业生产中能够更加高效、准确地完成测量任务,为产品质量和生产效率的提升
    发表于 01-02 14:27

    龙智出席2024零跑智能汽车技术论坛,分享功能安全、需求管理、版本管理、代码扫描等DevSecOps落地实践

    快讯!日前,龙智出席零跑汽车技术论坛,分享龙智DevSecOps解决方案功能安全、精细化需求管理、流程自动化、版本控制和代码质量分析等方面的落地实践
    的头像 发表于 12-27 16:06 1734次阅读
    龙智出席2024零跑<b class='flag-5'>智能</b>汽车技术论坛,分享功能安全、需求管理、版本管理、代码扫描等DevSecOps<b class='flag-5'>落地</b><b class='flag-5'>实践</b>