0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

科大讯飞又拿下一个世界第一,而且是在计算机视觉领域

DPVg_AI_era 来源:未知 作者:李倩 2018-10-24 09:11 次阅读

最近,科大讯飞在国际自动驾驶领域权威评测任务Cityscapes中,以明显优势刷新了像素级图像场景分割任务、实例级图像场景分割任务全部两项子任务的世界纪录,拿下了2018年获得的第七个世界第一。

科大讯飞又拿下一个世界第一,而且是在计算机视觉领域。

近日,科大讯飞在国际自动驾驶领域权威评测任务Cityscapes中,以明显优势刷新了像素级图像场景分割任务、实例级图像场景分割任务全部两项子任务的世界纪录。

2018年,在计算机视觉领域,讯飞已连续在IDRiD眼底图分析竞赛、ICPR MTWI图文识别挑战赛中斩获桂冠,这次拿下Cityscapes第一名,也再次佐证科大讯飞在计算机视觉领域也有技术实力。

Cityscapes评测数据集:多维度考量自动驾驶图像语义分割,近百家机构“群雄逐鹿”

Cityscapes评测任务是由奔驰主推,提供在驾驶领域进行效果和性能测试的图像分割数据集。该评测任务关注真实场景下的道路环境理解,用于评估参与测试的算法在城区场景语义理解方面的性能。

相比其他自动驾驶领域的测试数据集,Cityscapes任务难度更高,更加贴近自动驾驶等当下热门需求,近年来的热度也不断攀升。截至目前,评测已经吸引了包括谷歌、英伟达三星、腾讯和香港中文大学等近百家国内外优秀创新企业和顶尖学术机构的参与。

在Cityscapes任务所应用的数据集中,包含了5000张精细标注的图像和20000张粗略标注的图像,这些图像包含50个城市的不同场景、不同背景、不同街景,以及30类涵盖地面、建筑、交通标志、自然、天空、人和车辆等的物体标注。

Cityscapes评测集有两项任务:像素级(Pixel-level)图像场景分割(以下简称语义分割)与实例级(Instance-level)图像场景分割(以下简称实例分割)。去年10月,科大讯飞曾参与前者并刷新记录;此次科大讯飞同时参与全部两项任务的测评,不仅再次刷新了语义分割任务的世界纪录,同时以较大优势刷新了实例分割任务的世界纪录。

包揽两项第一背后的秘密:基于图像检测和分割基础算法创新

Cityscapes评测集中,语义分割任务(Pixel-Level Semantic Labeling Task)使用标准的PASCAL VOC IoU(intersection-over-union)得分来评估预测结果与真实场景之间的匹配准确度,要求参赛算法能够对图像中的每一个像素点进行准确的类别预测, 每个像素点的预测结果都会直接影响到最终得分。

像素级图像场景分割任务榜单

实例分割任务(Instance-Level Semantic Labeling Task)则是同时对每个目标进行定位和语义分割,每个目标即为实例,该任务最终以每个实例的分割准确度进行评估。

实例级图像场景分割任务榜单

这两个任务的主要区别在于,在对某些类别目标进行像素级的分类基础上,实例分割还需要进行不同实例间的区分,例如需要区分图像中的车辆和行人,还要将车辆中不同的汽车进行区分和标注。

(结果示意图:左-原图,中-语义分割结果图,右-实例分割结果图)

针对Cityscapes数据集“尺寸变化大、相互遮挡多、目标辨识难”的特点,讯飞团队基于图像检测和分割基础算法的多年研究积累,引入了多项创新性技术。在设计语义分割模型方案时,基于Encoder-Decoder框架,融合注意力机制、可变形卷积操作等思想,创新性地增加了一组尺度自适应矫正网络,使得模型能够充分地利用各层级特征和上下文信息来有效地应对场景中类别尺寸的变化,同时通过目标函数的设计对图像各像素点进行加权编码及梯度规整,提升难以辨识的“难例”像素点尤其是各类别边缘相交区域像素点的预测准确度,进一步提升整幅图像场景中每一个像素点的预测准确性。

在实例分割方案的设计上,讯飞团队将级联式检测方案迁移到实例分割任务的定位模块中,并针对驾驶场景下的一些特定的空间位置共生关系(比如:汽车出现在道路上,骑车者出现在自行车或摩托车上)引入一种空间注意力机制,逐步提升模型的定位性能,同时在分割模块的设计上还成功借鉴语义分割模型成熟方案,精细化每个实例对象的分割结果,最终达到更好的实例分割性能。

计算机视觉技术落地,产品打开车载市场

科大讯飞并没有把语音作为唯一的“宝”来押注,去年年会上,科大讯飞的车载产品飞鱼2.0版本问世,除了语音交互外,还增加了一双“眼镜”——讯飞正式把计算机视觉做落地。

语音+视觉,是飞鱼2.0打开车载市场的利器,这个产品结合了人脸、人体追踪、手势、红外等多种方式为一体的人机交互解决方案,讯飞也倾注了大量的技术力量。去年10月,科大讯飞在Cityscapes评测集图像场景分割任务中获得了第一名,展示出了在视觉上的实力。

连续两年刷新Cityscapes评测集记录后,科大讯飞在自动驾驶和车联网技术重要赛道不断加速。目前,讯飞为不同工作模式和不同传感器配置的智能化车辆提供了“看得清、认得准”的核心能力:

1、可行驶区域的判断更加精准

意味着车辆在做出驾驶路线决策时有精度更高的依据,可以更好地将图像和激光雷达等感知设备返回的结果进行综合校验判断,从而避免因单一传感器缺陷而产生交通事故的可能性。

2、物体类别和形状判断更加精准

意味着车辆对于当前驾驶环境中其他交通参与者的属性和具体形状有更精确的判断,在面对有些激光雷达难以识别的物体属性和难以区分的物体实例时,车辆可以通过视觉感知这一更加直观且完整的方案来大幅度地降低事故出现的概率。

对科大讯飞而言,在从单纯的智能语音能力提供商积极转型为整车智能化方案提供商的进程中,Cityscapes评测恰好成为了考验科大讯飞在计算机视觉领域算法水平的“试金石”。而通过了检验的领先核心算法技术不仅可以更好地为讯飞保驾护航,还能进一步加速机器视觉能力的产品落地应用。

除了智能汽车领域,与之紧密相关的智慧城市领域中则涉及到道路交通流量统计、安防等多个实际业务场景。此次参与Cityscapes评测任务所带来的核心算法能力的提升和拓展,将持续助力未来产品效能提升,推动音视频智慧交通产品领域迈向一体化。

讯飞今年拿下的七个世界第一

这是讯飞2018年获得的第七个世界第一,之前的有:

2018年1月,机器阅读理解SQuAD阅读理解大赛再次刷新世界纪录,EM得分超过人类平均水平(参赛者包括微软、谷歌、Facebook、IBM、Salesforce、斯坦福大学、卡耐基梅隆大学、清华、北大等国内外企业和科研机构);

2018年2月,在由国际计算语言学协会(ACL)下属组织主办的第十二届国际语义评测比赛(SemEval2018)中,斩获基于常识的机器阅读理解全球第一;

2018年3月,在由医学影像领域的国际顶级会议The IEEE InternationalSymposium on Biomedical Imaging (ISBI)举办的IDRiD糖网病挑战赛上,取得微动脉瘤分割任务第一名、其余三项任务前三名的佳绩;

2018年6月,在由模式识别领域国际学术顶会ICPR举办的MTWI(Multi-Type Web Images,多样式网络图像)国际识别挑战赛中,荣膺“文字识别”、“文字检测”和“端到端识别”全部三项冠军;

2018年7月,在国际权威英文语音合成比赛中连续13年蝉联世界第一,仍然是语音合成自然度指标全球唯一超过真人说话水平的公司(获得10个测评项目中的9项第一,在最关键的自然度和相似度评测指标上均大幅领先第二名);

2018年9月,国际权威英文语音识别大赛“CHiME-5”中,科大讯飞包揽全部四个项目的第一名。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 计算机视觉
    +关注

    关注

    8

    文章

    1600

    浏览量

    45616
  • 科大讯飞
    +关注

    关注

    19

    文章

    743

    浏览量

    60387
  • 自动驾驶
    +关注

    关注

    773

    文章

    13032

    浏览量

    163216

原文标题:科大讯飞再刷新计算机视觉评测两项任务世界纪录,连夺七项世界第一!

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    【量子计算机重构未来 | 阅读体验】 跟我起漫步量子计算

    的未来。首先,量子计算机药物研发领域具有颠覆性的潜力。通过模拟分子的复杂相互作用,量子计算机可以加速新药的研发过程,这不仅可以更快地找到治疗各种疾病的药物,
    发表于 03-13 19:28

    【量子计算机重构未来 | 阅读体验】+ 初识量子计算机

    欣喜收到《量子计算机——重构未来》书,感谢电子发烧友论坛提供了让我了解量子计算机的机会! 自己对电子
    发表于 03-05 17:37

    科大发布星火语音大模型

    科大行业资讯
    北京中科同志科技股份有限公司
    发布于 :2024年01月31日 09:17:28

    机器视觉、工业视觉计算机视觉这三者的关系

    机器视觉、工业视觉计算机视觉这三者的关系
    的头像 发表于 01-24 10:51 570次阅读
    机器<b class='flag-5'>视觉</b>、工业<b class='flag-5'>视觉</b>和<b class='flag-5'>计算机</b><b class='flag-5'>视觉</b>这三者的关系

    最适合 AI 应用的计算机视觉类型是什么?

    计算机视觉是指为计算机赋予人类视觉这一技术目标,从而赋能装配线检查到驾驶辅助和机器人等应用。计算机缺乏像人类一样凭直觉产生
    的头像 发表于 12-18 13:09 6854次阅读
    最适合 AI 应用的<b class='flag-5'>计算机</b><b class='flag-5'>视觉</b>类型是什么?

    什么是计算机视觉计算机视觉的三种方法

    计算机视觉是指通过为计算机赋予人类视觉这一技术目标,从而赋能装配线检查到驾驶辅助和机器人等应用。计算机缺乏像人类一样凭直觉产生
    的头像 发表于 11-16 16:38 3127次阅读
    什么是<b class='flag-5'>计算机</b><b class='flag-5'>视觉</b>?<b class='flag-5'>计算机</b><b class='flag-5'>视觉</b>的三种方法

    最适合AI应用的计算机视觉类型是什么?

    计算机视觉是指为计算机赋予人类视觉这一技术目标,从而赋能装配线检查到驾驶辅助和机器人等应用。计算机缺乏像人类一样凭直觉产生
    的头像 发表于 11-15 16:38 236次阅读
    最适合AI应用的<b class='flag-5'>计算机</b><b class='flag-5'>视觉</b>类型是什么?

    【RISC-V + OpenCV 计算机视觉】用 VisionFive 2 昉·星光 2 进行物体识别

    广泛应用于视频监控、自动驾驶等领域。 基于Debain操作系统和OpenCV框架,赛昉科技VisionFive 2(昉·星光 2)RISC-V单板计算机上实现了采用GPU加速的目标检测应用程序。作为
    发表于 09-08 11:42

    人工智能计算机视觉方向是什么

    “看”并作出决策。 计算机视觉是人工智能领域的一大分支,是以计算机和数字图像处理技术为手段,通过对视觉信息的处理和分析来实现人工智能的各类应
    的头像 发表于 08-15 16:06 1193次阅读

    机器视觉计算机视觉的区别

    机器视觉计算机视觉的区别 机器视觉计算机视觉是两个相关但不同的概念。虽然许多人使用这两个术语
    的头像 发表于 08-09 16:51 1136次阅读

    计算机视觉的概念和主要任务

    作为人工智能的关键领域之一的计算机视觉近期再次成为了热点,那么你真的了解什么是计算机视觉吗?
    的头像 发表于 07-17 11:20 888次阅读

    计算机是如何理解世界

    电子发烧友网站提供《计算机是如何理解世界的.zip》资料免费下载
    发表于 06-13 15:48 0次下载
    <b class='flag-5'>计算机</b>是如何理解<b class='flag-5'>世界</b>的

    浅谈深度学习在计算机视觉领域的三大瓶颈

    深度学习能够实现的前提是大量经过标注的数据,这使得计算机视觉领域的研究人员倾向于在数据资源丰富的领域搞研究,而不是去重要的领域搞研究。
    发表于 06-11 10:22 267次阅读
    浅谈深度学习在<b class='flag-5'>计算机</b><b class='flag-5'>视觉</b><b class='flag-5'>领域</b>的三大瓶颈

    什么是机器视觉?机器视觉计算机有什么关系?

    机器视觉计算机视觉有什么区别
    的头像 发表于 06-05 09:28 863次阅读
    什么是机器<b class='flag-5'>视觉</b>?机器<b class='flag-5'>视觉</b>与<b class='flag-5'>计算机</b>有什么关系?

    计算机视觉相关概念总结

    为了帮助同事和客户了解更多有关计算机视觉和AI的更多信息,我们言简意赅介绍一些计算机视觉和AI术语,希望能帮助到大家。
    的头像 发表于 05-31 10:11 518次阅读