0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

CV大牛沈春华新算法获GitHub 1400多颗Star

hl5C_deeptechch 来源:DeepTech深科技 作者:DeepTech深科技 2020-11-04 15:20 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

凭一己之力将澳大利亚机器学习研究院拉至全球排名第四;GitHub 1400 多颗 Star、并用于 Top 级手机厂商的视觉处理;这就是程序员口中的“CV 大牛” 沈春华团队的“战绩”。

目前,沈春华在澳大利亚阿德莱德大学担任计算机科学教授。这位本科毕业于南京大学、后在阿德莱德大学获得博士学位的中国科学家,其主要研究机器学习和计算机视觉,而计算机视觉的终极目标是建立一个具有人类表现的视觉系统。

2012 年,沈春华获得澳大利亚研究委员会的未来学者称号。除教职之外,他还是澳大利亚研究委员会机器人视觉卓越中心的科研负责人。从阿德莱德大学网站获悉,沈春华上月被列为澳大利亚科研终身成就奖,是工程与计算机类奖项的 5 名获选人之一(https://specialreports.theaustralian.com.au/1540291/9/)。

计算机排名网站 CSRanking 显示,沈春华是过去 10 年间在计算机视觉方向 3 大顶级会议发表论文最多的在澳学者。他的科研成果和产出是阿德莱德大学下属的澳大利亚机器学习研究院 (Australian Institute for Machine Learning,AIML) 能在 CSRanking 上排名世界第 4 的主要原因之一。

鉴于澳大利亚机器学习研究院的国际声誉,澳大利亚联邦政府最近宣布拨款 2000 万澳元(合近 1 亿人民币)资助该研究院的科研,同时他还兼任研究院机器学习理论课题的主任。据 Google Scholar 显示,他的论文已积累 22000 多引用,个人 H-index 为 71。

从教至今,他教出过多位优秀中国留学生,他的学生中目前有 3 位获得 Google 博士奖学金(Google PhD Fellowship)。自 Google 首次颁发该奖项至今 12 年间,澳大利亚所有高校一共只有 7 人次在 “机器感知、语音技术和计算机视觉” 这个方向上获得该奖项,而其中 3 人出自沈春华团队。

除此之外,还有多位毕业生入职名企、或在知名大学担任教职, 如悉尼大学、墨尔本莫纳什大学、新加坡理工大学等等。

图 | 沈春华指导的部分博士毕业生

虽然他不在国内,但却时不时有中国程序员,在网上撰文逐句逐段分析他的论文,甚至主动翻译他的论文。同时,他的论文研究已有不少投入应用。

其团队开发的开源工具箱 AdelaiDet,曾和全球数一数二的手机厂商合作,部分算法曾经用于该公司的旗舰手机上。该算法可帮助手机优化拍照功能,拍出来的照片更鲜艳,还可帮助相机更好地实现特效功能和背景虚幻等功能。

截止目前,AdelaiDet 主要包含以下算法:FCOS、BlendMask、ABCNet、CondInst、SOLO,本文主要介绍前四个算法。

FCOS:基于 FCN 的逐像素目标检测算法

FCOS(Fully Convolutional One-Stage Object Detection)的中文翻译是目标检测器,是沈春华团队于 2019 年推出的计算机视觉目标检测算法,并以《FCOS:完全卷积一阶段目标检测》(FCOS: Fully Convolutional One-Stage Object Detection)为题发表在国际计算机视觉大会 2019 上。

在国内某问答社区上,一位目前在字节跳动担任高管、博士毕业于清华大学电气工程系的认证用户表示,这篇论文是“入门检测最合适的文章”。

具体来说,FCOS 是一种基于全卷积神经网络的逐像素目标检测算法,最大亮点是提出了一个不需要锚框(Anchor Free)的全新的目标检测算法。FCOS 在性能上接近甚至超过目前很多基于锚框的主流目标检测算法。

目前大多数目标检测模型如 Faster R-CNN、YOLOv3 等都依赖于预先定义的锚框。相比之下,FCOS 不依赖预先定义的锚框或提议区域。通过去除预先定义的锚框,FCOS 可完全避免锚框的复杂运算,并能节省训练过程中的内存占用。

更重要的是,FCOS 可避免和锚框有关、且对最终检测结果敏感的所有超参数。因此 FCOS 比以往基于锚框的一阶段或者二阶段目标检测器要大大简化。

图 | FCOS 网络结构

从论文中的对比测试来看,FCOS 的精度已超过老牌经典算法 Faster R-CNN。

图 | FCOS 的精度对比

如下图案例所示,FCOS 在对目标物体框中、所有的点进行目标框回归时,会用各个边的距离长度来计算损失,这样可以为后续使用 Center-ness 准备。

图 | FCOS 用各个边的距离长度来计算损失

目前,在开发者群体中,FCOS 的论文已经成为他们眼中的 “沈春华团队的代表作”。而 BlendMask、CondInst、SOLO 的相关论文则被媒体称为 “沈春华团队的又一力作”。

BlendMask:可提取更准确的实例分割特征

BlendMask 的中文意思为实例分割算法,它来自沈春华团队的另一篇发表于 CVPR2020 的论文《BlendMask:自上而下与自下而上相结合的实例分割》(BlendMask: Top-Down Meets Bottom-Up for Instance Segmentation)。

BlendMask 提出了一种结合自上向下和自下向上两种设计策略的实例分割算法,在精度上超越了另一目标检测项目 Mask RCNN,速度上快 20%。

经测试发现,在 COCO 数据集上使用 ResNet-50,BlendMask 性能可达 37.0%的 mAP(平均精度均值,mean average precision),使用 ResNet-101 其性能可达到 38.4%的 mAP。

BlendMask 可通过更合理的 Blender 模块,来融合 top-level 和 low-level 的语义信息,从而提取更准确的实例分割特征。据悉,BlendMask 是少有的在 mAP 和推理效率方面均能胜过 Mask R-CNN 的算法之一。

ABCNet:比其他方法最高快 10 倍以上

ABCNet 的全称为 Adaptive Bezier-Curve Network,中文意思为自适应贝塞尔曲线网络。近年来,场景文本的检测与识别越来越受重视。

现有方法大致分为两类:基于字符的方法和基于分段的方法。这些方法的标注代价高昂、框架十分复杂,因此并不适用于实时应用程序。

为此,沈春华团队提出 ABCNet 来解决上述问题。其贡献主要有三方面:

1、首次提出通过参数化的贝塞尔曲线(应用于二维图形应用程序的数学曲线),并自适应地拟合任意形状的文本。

2、设计了一种新颖的贝塞尔曲线层,可用于提取任意形状的文本实例的精确卷积特征,精度上远超此前方法。

3、与边界框目标检测方法相比,贝塞尔曲线检测引入的计算开销可以忽略不计,兼具高效率和高准确度两大优势。在基准数据集 Total-Text 和 CTW1500 上进行的实验表明,ABCNet 能达到较高的精度,速度也有显著提升。其中在 Total-text 上,ABCNet 的实时版本比其他方法最高快 10 倍以上。

CondInst:可显著加快推理速度

CondInst 是一个用于实例分割的条件卷积,相关论文《基于条件卷积的实例分割》“Conditional Convolutions for Instance Segmentation” 发表在 ECCV 2020 上。

CondInst 可以完全不依赖 ROI(感兴趣的区域,region of interest)操作。而是采用以实例为条件的动态卷积达到分割实例的效果。

具体来说,它有两个优点:1、通过全卷积网络解决了实例分割,无需进行 ROI 裁剪和特征对齐等操作。2、由于动态生成的条件卷积的性能大大提高,因此可以显著加快推理速度。

以上几个算法,是沈春华团队 AdelaiDet 开源工具箱中的主要组成部分。该工具箱受到了学术界和工业界的相当的关注。亚马逊 AWS 已有意向在其产品中使用工具箱中的目标检测、实力分割、文字检测识别等能力。

利好小公司开发者,不懂算法也能用

一言以蔽之,沈春华团队的研究工作的主要目的之一,是为了提高开发者工作质量和效率,反映到终端用户则能用到更好的产品。

以背景自动虚化为例,现在几乎所有手机都有该功能,背后正是人工智能算法在运行。以前文提到的手机厂商来说,手机算法对功耗、速度都有极高要求,因此需要给厂商做个性化方案。如果说开源算法是一个基础款汉堡,个性化方案就是在此基础上,加了很多其他菜。

但是该算法并非十全十美,它仍可以追求更高效、更少的计算量和更高的精度。据了解,沈春华团队在深度学习模型定点化方面也做了不少工作,这些算法可让深度学习对嵌入式低功耗设备更友好。

举例来说,标准浮点运算一般是 16 位或 32 位,它的计算量比较大,产业界希望未来能做到一到两比特,一个比特只有 0 和 1,两个比特可以有四种组合,那么这种计算就能大大减少运算量和功耗,从而适配移动端低功耗设备。

该团队做的相当一部分工作,是希望能解决业界难题。一些小微公司的开发者也许并不懂人工智能,那么开发人工智能算法就会比较困难。使用类似沈春华团队开发的工具箱, 则可大大降低使用门槛。

如今依赖该团队的工具箱,已经有越来越多的程序员受惠其中。在该团队的 GitHub 开源网址 https://git.io/AdelaiDet 上,已经有 1400 颗 Star。

他虽然身在海外,但通过没有国界的互联网,正在以技术范的方法,帮助不断增长的中国程序员群体更好地敲代码。

责任编辑:xj

原文标题:机器视觉领军学者沈春华,获澳大利亚科研终身成就奖!新算法获GitHub 1400多颗Star|专访

文章出处:【微信公众号:DeepTech深科技】欢迎添加关注!文章转载请注明出处。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 算法
    +关注

    关注

    23

    文章

    4760

    浏览量

    97140
  • 机器视觉
    +关注

    关注

    163

    文章

    4728

    浏览量

    125002
  • GitHub
    +关注

    关注

    3

    文章

    484

    浏览量

    18424

原文标题:机器视觉领军学者沈春华,获澳大利亚科研终身成就奖!新算法获GitHub 1400多颗Star|专访

文章出处:【微信号:deeptechchina,微信公众号:deeptechchina】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    佛吉亚与舜华新能源签署战略合作协议

    11月10日,佛吉亚(上海)氢能投资有限公司(以下简称“佛吉亚”)与上海舜华新能源系统有限公司(以下简称“舜华新能源”)在上海正式签署战略合作协议。佛吉亚氢能中国区总经理潘锋、舜华新能源执行总裁刘绍军一同出席并见证了这一关键时刻
    的头像 发表于 11-13 14:56 408次阅读

    AI+MCU新选择,安谋科技“星辰”STAR-MC3问世

    日前,安谋科技Arm China发布“星辰”STAR-MC3 CPU IP解析长图,清晰展现了该产品的五大亮点、核心应用领域与“星辰”CPU IP系列产品图谱。 “星辰”STAR-MC3是安谋
    的头像 发表于 10-23 16:01 201次阅读
    AI+MCU新选择,安谋科技“星辰”<b class='flag-5'>STAR</b>-MC3问世

    迅为Hi3516CV610开发板强劲内核-海思Hi3516CV610核心板

    迅为Hi3516CV610开发板强劲内核-海思Hi3516CV610核心板
    的头像 发表于 09-30 15:19 1696次阅读
    迅为Hi3516<b class='flag-5'>CV</b>610开发板强劲内核-海思Hi3516<b class='flag-5'>CV</b>610核心板

    安谋科技发布“星辰”STAR-MC3,提升MCU AI处理能力

    电子发烧友网综合报道 2025年9月25日,安谋科技正式推出自主研发的第三代高能效嵌入式芯片IP——“星辰”STAR-MC3。该产品基于Arm®v8.1-M架构,向前兼容传统MCU架构,集成Arm
    的头像 发表于 09-29 08:53 1w次阅读
    安谋科技发布“星辰”<b class='flag-5'>STAR</b>-MC3,提升MCU AI处理能力

    AMC1400EVM评估模块技术解析:高精度隔离放大器的设计与应用

    Texas Instruments AMC1400EVM评估模块用于演示AMC1400精密隔离放大器。AMC1400是一款精密隔离放大器,输入范围为±250mV,输出与输入电路由抗磁干扰能力极强
    的头像 发表于 09-09 11:39 590次阅读
    AMC<b class='flag-5'>1400</b>EVM评估模块技术解析:高精度隔离放大器的设计与应用

    【Banana Pi BPI-RV2开发板试用体验】移植音频处理算法回声消除降噪性能等效果评估

    一. 前言 虽然香蕉派 BPI-RV2 RISC-V 开发板主打路由器开发,但是其强劲的性能,所以进行实时音频处理等应用也是小菜一碟。 本文分享移植音频处理算法,评估算法运行效率,评估回声消除降噪等
    发表于 07-09 23:19

    澜起科技M88STAR5芯片喜获国密二级安全认证

    权威认证的取得,标志着该芯片在密码算法性能、硬件安全防护及可靠性等方面均达到行业领先水平。 M88STAR5 此次证的M88STAR5芯片采用澜起科技创新的Mont-TSSE可信安全
    的头像 发表于 06-23 09:31 6573次阅读

    半导体器件CV测量技术解析

    前言:研究器件特性和器件建模都离不开精确的电容电压(CV)测量。精确的CV模型在仿真器件的开关特性,延迟特性等方面尤为重要。目前,在宽禁带器件(GaN/SiC)、纳米器件、有机器件、MEMS等下
    的头像 发表于 06-01 10:02 1176次阅读
    半导体器件<b class='flag-5'>CV</b>测量技术解析

    并联还是串联?MDD稳压二极管多颗配置的使用技巧与注意事项

    在电子系统中,当单颗MDD稳压二极管(ZenerDiode)无法满足电压、电流或功率要求时,多颗二极管并联或串联使用便成为一种常见解决方案。然而,多颗配置虽然看似简单,实则隐藏着诸多设计陷阱。如果
    的头像 发表于 05-13 09:48 587次阅读
    并联还是串联?MDD稳压二极管<b class='flag-5'>多颗</b>配置的使用技巧与注意事项

    山东振华新材料有限公司选购我司炭黑含量测试仪

    山东振华新材料有限公司是一家集色母料研发、生产、销售、产品售后服务为一体的塑染企业,在化工领域不断开拓进取,致力于走高端高质量发展道路。公司拥有多项自主知识产权成果,其生产的顺丁橡胶广泛应用于轮胎
    的头像 发表于 04-10 14:06 607次阅读
    山东振<b class='flag-5'>华新</b>材料有限公司选购我司炭黑含量测试仪

    Arm推出GitHub Copilot新扩展程序

    Arm 控股有限公司(纳斯达克股票代码:ARM,以下简称“Arm”)宣布其已正式推出专为 GitHub Copilot 设计的新扩展程序。GitHub Copilot 是全球部署最广泛的人
    的头像 发表于 02-24 10:14 888次阅读

    DeepSeek GitHub星数超OpenAI

    近日,在全球最大的代码托管平台GitHub上,DeepSeek项目取得了一项显著成就——其Star数量成功超越了OpenAI。这一变化标志着开源人工智能领域的竞争格局正在发生微妙的变化。
    的头像 发表于 02-10 18:28 1064次阅读

    TSW1400单独与ADC 4229连接时,ADC所需的时钟频率低频可以吗?

    问题1:TSW1400 单独与ADC 4229 连接时,ADC所需的时钟频率低频可以吗?(我用低频的10MHZ时钟,1MHZ的模拟输入,但1400的led3指示灯却是灭的,也就是1400没有接收
    发表于 02-10 07:29

    gitee 与 GitHub 的比较

    在软件开发领域,代码托管平台扮演着至关重要的角色。它们不仅提供了代码存储和版本控制的功能,还促进了团队协作和开源项目的共享。Gitee(码云)和GitHub是两个最著名的代码托管服务提供商,它们在
    的头像 发表于 01-06 09:47 2250次阅读

    RISC-V 使用J-Link调试RV-STAR

    使用J-Link调试RV-STAR 前提: 此文档是面向已经有一定使用基础的用户,在此省略了Nuclei Studio IDE下载安装、编译和调试运行等流程的详细介绍,主要指导用户如何连接
    发表于 12-14 17:47