科大讯飞夺冠2019年度计算机视觉顶级会议CVPR和ICDAR多项评测-电子发烧友网

科大讯飞A.I.研究院联合中科大语音及语言信息处理国家工程实验室（NELSLIP）（以下统称为讯飞-中科大联合团队）在近期举办的计算机视觉顶级会议CVPR 2019和文档分析与识别顶级会议ICDAR 2019上的多项评测任务中获得冠军：

1.在计算机视觉与模式识别国际会议（CVPR 2019）举办的物体检测挑战赛DIW 2019（Detection in the Wild challenge Workshop 2019）上取得Objects365 Tiny Track第一，Objects365 Full Track第三的佳绩；

2.在文档分析与识别国际会议（ICDAR 2019）举办的多项赛事中，包揽手写数学公式识别挑战赛CROHME（Competition on Recognition of Handwritten Mathematical Expressions）全部两项任务以及场景文本视觉问答挑战赛ST-VQA（Scene Text Visual Question Answering）挑战赛上全部三项任务冠军，此外还取得了街景招牌中文文本识别挑战赛ReCTS（Reading Chinese Text on Signboard）单字识别任务冠军。

这一系列的佳绩标志着科大讯飞在计算机视觉领域的积累日益深厚，始终保持着先进的水平和探索的步伐。

DIW2019挑战赛

DIW 2019挑战赛由旷视科技与北京智源人工智能研究院共同举办，该项赛事吸引了包括腾讯、百度、字节跳动等300多支队伍参赛，其所采用的Objects365数据集包含63万张图像，高达1000万人工标注框，覆盖365个日常物体类别，堪称最大通用物体检测数据集。

相比于大家熟知的ImageNet和COCO数据集，Objects365数据集更贴近自然场景，覆盖更多的类别并且提供了更密集的标注，由于数据分布极度不均衡，因此极大增加了比赛的难度，对算法提出了更高的要求。

作为计算机视觉的两项基础任务，物体检测和分割一直以来是业界主流的研究方向。科大讯飞团队在2018年10月刷新了国际自动驾驶权威评测Cityscapes全部两项子任务（驾驶场景语义分割和实例分割）的世界纪录。

在本次DIW2019比赛中，讯飞-中科大联合团队在以往视觉技术积累的基础上，针对该项任务中物体尺度多样性和样本数量分布不均衡的特点，对物体检测的经典框架Faster-RCNN进行针对性改进：混合样本数据增强策略提升网络的泛化能力；多级可变形卷积使得网络的感受野能够更加适应相应尺度下的候选框；级联检测方案逐步提升了候选框的质量。此外针对更具挑战性的Tiny Track任务（样本数量小），迁移Objects365 Full Track模型提升Objects365 Tiny Track的性能，并融合两个赛道模型进一步提升了Full Track的检测效果。

物体检测和分割在工业界同样具有广泛的应用前景，科大讯飞在这两项基础任务上的技术积累不仅确保团队在各项赛事中持续保持竞争力，也为应用落地提供了扎实的技术保障，无论是讯飞翻译机中的图文识别，医疗影像领域中的辅助诊断，以及视频结构化技术中的视频理解等，都蕴含着科大讯飞对核心技术的不懈追求和对应用落地的坚定决心。

CROHME 挑战赛

在2018年的ICPR MTWI图文识别挑战赛中科大讯飞A.I.研究院包揽了全部三项任务的冠军，充分说明了科大讯飞在自然场景文字识别技术上的领先性。本次讯飞-中科大联合团队选择挑战难度更高的手写数学公式识别任务CROHME。该项赛事由美国罗切斯特理工学院（Rochester Institute of Technology）负责承办，吸引了MyScript、三星、 WIRIS（MathType）、中科院自动化所、中山大学等多家在手写数学公式识别领域著名的国内外研究机构参与。

讯飞-中科大联合团队参加了在线手写数学公式识别（Online Handwritten Mathematical Expressions Recognition）和离线手写数学公式识别（Offline Handwritten Mathematical Expressions Recognition）的两项主要任务，这两项任务的不同之处在于，前者的输入为手写数学公式的笔划轨迹，它记录了笔划书写的先后顺序，常应用于实时的在线手写识别应用场景，在线手写识别系统需要采集用户在手机、平板等在线化输入设备上书写的字符轨迹作为系统输入；后者的输入则为手写数学公式的图像，常应用于拍照、扫描等离线手写识别应用场景，该场景下用户只需要将手写字符的照片送入离线手写识别系统中即可完成分析与识别。

在线数学公式（手写轨迹）

离线数学公式（静态图像）

CROHME 2019使用的数据集是由美国罗切斯特理工学院收集和标注的手写数学公式，其中训练集共9993个，验证集共986个，测试集共1199个，此次比赛不仅要求参赛系统识别出公式中的每个字符，还要求参赛系统给出被识别的字符之间的位置关系，因此，相比于常规OCR任务，该任务的难点在于：

1)位置关系

位置关系不再只是常规OCR任务中单一的左右或者上下的关系，还存在垂直、包含、上下标等多种结构关系以及这些结构关系之间的组合嵌套；

2)字符尺寸

数学公式中的字符尺寸差异较常规OCR任务更大；

3)书写风格

书写者的书写风格会使得某些不同字符之间容易产生混淆，且同样的字符由不同书写者书写，不仅字符形态差异可能会很大，对于在线任务来说，其笔划轨迹的顺序也有可能会不一致；

科大讯飞在手写文字识别领域已深耕多年。与将字符识别和位置关系识别分别建模的传统数学公式识别思路不同，科大讯飞使用的参赛系统正是借鉴了手写文字识别技术中基于空间注意力机制的Encoder-Decoder思想，实现了数学公式的字符和位置关系的端到端识别，同时提出了多尺度空间注意力机制以解决由字符尺寸差异较大带来的识别字符丢失问题。此外，针对不同书写者书写风格迥异的问题，提出了空间注意力引导机制和时间注意力机制，从空间和时间两个维度上提升注意力的准确度，最后融合了多种不同模态的信息提升了系统最终决策的效果。

基于雄厚的人工智能核心技术，科大讯飞在应用领域正积极落地。特别在教育领域，以行业领先的高精准手写识别技术、智能评测技术为典型应用代表的智能评卷系统，目前已经在CET、多地中高考中实现了人机结合的智能辅助评分新方式，最大限度的保证了评卷质量。同时，在日常教学环节中，基于对每一个学生个体作业练习测试的精准识别和深度数据挖掘，科大讯飞形成了以数据驱动方式实现的个性化精准教学。通过图文识别、智能评测分析每个学生的知识掌握薄弱环节，针对性地实现个性化学习推荐，让每个孩子回家后有针对自己能力水平的不同家庭作业，让每个老师有更多的时间推动因材施教。

ST-VQA挑战赛

ST-VQA（Scene Text Visual Question Answering）是由CVC（Computer Vision Center）举办的一项视觉问答挑战赛，要求算法能够像人类一样解析图像中实体之间的关系，并正确地回答出问题。这一方面对算法的图像检测和分割等前端技术提出了要求；另一方面还需要算法具备多模态数据融合、理解和推理的能力，是未来人工智能的发展方向之一。

如在下图的场景中为了找出蓝色公交车的目的地，首先需要正确地识别出蓝色公交车的位置，并推理出公交车的目的地显示在公交车前方的电子显示屏上，最后需要算法识别出电子显示屏上的内容。

ST-VQA比赛总共分为三个任务，分别为Task1-Strongly Contextualized、Task2-Weakly Contextualized和Task3-Open Dictionary，这三项任务的不同之处在于Task1会对每张图像给定一个候选词表，Task2会对整个数据集给定一个候选词表，而Task3则没有额外的词表用于辅助答案的预测。这三个任务的难度逐渐增加，讯飞-中科大联合团队参加了全部三项比赛，并包揽冠军。

针对于此次参加的ST-VQA任务，讯飞-中科大联合团队将模型分为视觉理解前端模型和视觉推理后端模型。文本检测和物体检测模型作为前端模型从图像中提取出有效实体，此外针对数据集中的语料少的问题，借鉴了科大讯飞在SQuAD2.0评测任务上采用无监督预训练模型的思想并加以改进，成功融入到了前端模块中。

在后端网络的设计上，团队设计了相应的Encoder-Decoder模型用于融合上述从图像中提取得到的实体信息和问题数据并预测出答案，此外在Encoder-Decoder模型的设计过程中融合了多任务的设计思想，使其能够兼容三项任务，从而使得这三项任务能够同时训练，相互提升。参加ST-VQA比赛，是讯飞在视觉理解以及多模态数据融合方面的前瞻性探索，比赛中使用的技术为公司未来在多模态交互方面的发展打下了基础。

作为亚太地区知名的智能语音与人工智能上市公司，围绕着讯飞超脑，科大讯飞一直秉承技术顶天、产品落地的战略理念，在核心技术上不断创新。基于此，科大讯飞在智能语音、自然语言处理等领域硕果累累，也在视觉场景理解领域获得长足进步，并且积极推动相关赛道技术落地，在教育、医疗、政法等业务上已经取得了很好的成效。未来，讯飞将全面持续推进核心技术的优化迭代与落地应用，努力践行用人工智能建设美好世界的公司使命。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

AI

AI

+关注

关注
87

文章
26425

浏览量
264034
计算机视觉

计算机视觉

+关注

关注
8

文章
1599

浏览量
45613
科大讯飞

科大讯飞

+关注

关注
19

文章
743

浏览量
60386

原文标题：科大讯飞夺冠2019年度计算机视觉顶级会议CVPR和ICDAR多项评测

文章出处：【微信号：iFLYTEK1999，微信公众号：科大讯飞】欢迎添加关注！文章转载请注明出处。

【量子计算机重构未来 | 阅读体验】+ 初识量子计算机

欣喜收到《量子计算机——重构未来》一书，感谢电子发烧友论坛提供了一个让我了解量子计算机的机会！自己对电子计算机有点了解，但对量子计算机真是一无所知，只是听说过量子纠缠、超快的运算速

发表于 03-05 17:37

名单公布！【书籍评测活动NO.28】量子计算机重构未来

、 jf_02192444、 oxlm_1、周黎请以上几位大佬联系工作人员（微信：elecfans123）领取书籍进行评测，如在5个工作日内未联系，视为放弃本次试用评测资格三体世界的量子计算机向我们走来，你

发表于 01-26 14:00

机器视觉、工业视觉和计算机视觉这三者的关系

机器视觉、工业视觉和计算机视觉这三者的关系

发表于 01-24 10:51 •566次阅读

机器<b class='flag-5'>视觉</b>、工业<b class='flag-5'>视觉</b>和<b class='flag-5'>计算机</b><b class='flag-5'>视觉</b>这三者的关系

什么是计算机视觉？计算机视觉的三种方法

计算机视觉是指通过为计算机赋予人类视觉这一技术目标，从而赋能装配线检查到驾驶辅助和机器人等应用。计算机缺乏像人类一样凭直觉产生

发表于 11-16 16:38 •3123次阅读

什么是<b class='flag-5'>计算机</b><b class='flag-5'>视觉</b>？<b class='flag-5'>计算机</b><b class='flag-5'>视觉</b>的三种方法

最适合AI应用的计算机视觉类型是什么？

计算机视觉是指为计算机赋予人类视觉这一技术目标，从而赋能装配线检查到驾驶辅助和机器人等应用。计算机缺乏像人类一样凭直觉产生

发表于 11-15 16:38 •235次阅读

最适合AI应用的<b class='flag-5'>计算机</b><b class='flag-5'>视觉</b>类型是什么？

计算机视觉前景光明

电子发烧友网站提供《计算机视觉前景光明.pdf》资料免费下载

发表于 09-18 10:16 •0次下载

<b class='flag-5'>计算机</b><b class='flag-5'>视觉</b>前景光明

人工智能计算机视觉方向是什么

人工智能计算机视觉方向是什么人工智能计算机视觉方向是指利用人工智能技术对图像和视频进行各种分析、解释和操作的过程。计算机

发表于 08-15 16:06 •1189次阅读

机器视觉和计算机视觉的区别

机器视觉和计算机视觉的区别机器视觉和计算机视觉是两个相关但不同的概念。虽然许多人使用这两个术语

发表于 08-09 16:51 •1126次阅读

计算机视觉是什么计算机视觉历史及发展趋势

正像其它学科一样，一个大量人员研究了多年的学科，却很难给出一个严格的定义，模式识别如此，目前火热的人工智能如此，计算机视觉亦如此。与计算机视觉密切相关的概念有

发表于 07-20 15:41 •0次下载

计算机视觉的概念和主要任务

作为人工智能的关键领域之一的计算机视觉近期再次成为了热点，那么你真的了解什么是计算机视觉吗？

发表于 07-17 11:20 •884次阅读

高通在2023年国际计算机视觉与模式识别会议上，展示先进研究成果并将生成式AI引入边缘侧

6月18日至22日，IEEE/CVF国际计算机视觉与模式识别会议（CVPR）在温哥华举行，该会议不仅是计

发表于 06-27 19:15 •325次阅读

深兰团队已连续5年在CVPR挑战赛中斩获冠军

近日，被誉为全球计算机视觉三大顶级会议之一的CVPR 2023 在加拿大温哥华隆重举行。本次大会公布了多个研究项目的科研成果及相关参赛队伍的成绩，深兰团队在参赛的六个项目中取得了“一

发表于 06-26 11:11 •344次阅读

什么是机器视觉？机器视觉与计算机有什么关系？

机器视觉与计算机视觉有什么区别

发表于 06-05 09:28 •861次阅读

计算机视觉相关概念总结

为了帮助同事和客户了解更多有关计算机视觉和AI的更多信息，我们言简意赅介绍一些计算机视觉和AI术语，希望能帮助到大家。

发表于 05-31 10:11 •516次阅读

打造“软通天璇”AI Copilot引擎重新定义行业智能化

卢志武教授是机器学习和计算机视觉领域的专家，曾设计首个公开的中文通用图文预训练模型文澜 BriVL，在国际顶级期刊和会议上发表了多篇高质量的学术论文。担任 CCF 生物信息学专委会委员

发表于 04-28 15:41 •920次阅读

搜索历史

科大讯飞夺冠2019年度计算机视觉顶级会议CVPR和ICDAR多项评测

评论