0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

计算机视觉和自然语言处理这两个领域AI进展的真实情况

DPVg_AI_era 来源:lq 2018-12-12 09:24 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

2018年还剩20天,人工智能的热度一点没减。除了下围棋、认人脸,人工智能究竟发展到了什么地步?汇总各领域学术论文最先进成果,今天,让我们来看计算机视觉和自然语言处理这两个领域AI进展的真实情况。

2018年,人工智能热度不减,成果不断。

虽然少了去年动辄“超越人类”的锐气,但“辅助人类”的人工智能,如今究竟发展到什么程度?就让我们在2018即将结束的时候,来一个简单的回顾。

抛开剂量谈毒性是耍流氓,抛开数据集和特定任务谈人工智能进展也一样。“state of the art.ai”是MIT和UNAM的学生做的一个网站,收进了目前最优的算法,涵盖了计算机视觉、游戏、自然语言处理、网络图和知识库、程序归纳和程序合成、音频处理、时间序列处理七个领域。

下面,我们就根据已经发表的科研论文,先来看看计算机视觉和自然语言处理这两大AI领域的情况。

计算机视觉

3D/3D Reconstruction

“3D”可以说是眼下CV领域最火的一个词。今年各家智能手机宣传里都提到了“3D结构光”。那么,3D视觉发展到了什么程度?

2017年的CVPR,MIT、马萨诸塞大学阿默斯特分校和谷歌DeepMind的研究人员展示了一项成果,使用自动编码器(VAE),构建了一个名叫SingleVPNet的框架,能从多个视角的深度图或其相应的轮廓(silhouette)学习生成模型,并使用渲染函数从这些图像生成细节精致的3D形状。

不仅如此,他们提出的框架还能通过综合不同视角的2D深度图(甚至在有遮挡的情况下),生成新的3D形状。

SingleVPNet在3D形状数据集SharpNetCore上取得了平均误差0.35的结果。换句话说,生成逼真的3D形状还有一段距离。

补充,SharpNetCore是ShapeNet的一个子集,目前包括55个常见对象类别(覆盖了计算机视觉领域常用的3D基准数据集PASCAL 3D+的12个对象类别),约有51300个独特的3D模型,每个模型都有手动验证的类别和对齐注释,由普林斯顿、斯坦福和丰田技术研究所(TTIC)的研究人员共同创建。

动作识别

动作识别指从视频中识别不同的动作,这个动作可能贯穿整个视频,也可能不会。动作识别是图像识别的扩展,涉及从多帧视频中进行图像识别,然后从每一个帧中聚集预测结果。

2017年的NeurIPS,CMU机器人学院的研究人员Rohit Girdhar 和 Deva Ramanan 利用注意力机制(Attentional Pooling),在保持网络复杂度和计算量基本不变的情况下,在三个静态图像和视频标准动作识别数据集上提升了动作识别的基准。其中,在MPII人体姿态数据集上取得了12.5%的相对改进。

不过,看绝对值,平均精度还停留在52.2个百分点上面。

人脸识别

根据美国国家标准与技术研究院(NIST)今年11月16日公布的结果,在被誉为工业界“黄金标准”的全球人脸识别算法测试(FRVT)中,依图科技以千万分之一误报下的识别准确率超过99%,继续保持全球人脸识别竞赛冠军。

千万分位误报下的识别准确率超过99%,意味着更多核心关键的安防场景被解锁。相比于去年同期,全球人脸识别性能提升了80%。

值得一提,在这份官方公布的报告中,中国人工智能公司实力展现,依图科技(yitu)、商汤科技(sensetime)、旷视科技(megvii)囊括了前十中的五席,加上排名第五的中国科学院深圳先进技术研究院(siat),中国团队已经超过半数,并稳稳“霸屏”前五,领跑全球人脸识别算法。

人体姿态估计

今年2月,上海交通大学卢策吾团队MVIG实验室AlphaPose 系统上线,是首个在 COCO 数据集上可达到 70+ mAP 的开源姿态估计系统。

今年9月,AlphaPose系统升级,采用 PyTorch 框架,在姿态估计标准测试集COCO validation set上,达到 71mAP的精度(比 OpenPose 相对提升17%,Mask-RCNN相对提升8%),同时,速度达到了20FPS(比 OpenPose 相对提高66%,Mask-RCNN相对提高300%)。

AlphaPose系统,是基于上海交大MVIG组提出的 RMPE 二步法框架(ICCV 2017论文)构建的,相比其他开源系统在准确率有很大提高,比OpenPose相对提高17%,Mask-RCNN相对提高8.2%。

升级后,各个开源框架在COCO-Validation上性能,时间在单卡1080ti GPU测出指标如下:

图像分类

计算机在图像分类任务上的精度早已超越了人类,因此当前图像分类精度的最好成绩,往往是其他研究的副产物。ICLR 2017,谷歌大脑 Barret Zoph 和 Quoc V. Le 发表了“Neural Architecture Search with Reinforcement Learning”,他们用强化学习自动搜索神经网络结构,最终AI自己设计出的模型,在 CIFAR-10数据集上做图像分类取得了96.35%的精度。

或许令人意外,图像分类目前最好结果是Facebook AI Research的Benjamin Graham在他2015年Arxiv论文“Fractional Max-Pooling”中得到的,经过100次测试后在CIFAR-10上误差仅为3.47%。这篇论文提出了一种新的fractional max-pooling方法,降低了各种数据集上的过拟合。

图像生成

说到图像生成,那自然就是生成对抗网络(GAN)。

GAN在今年不断发展,今年ICLR DeepMind 提出的 BigGAN,可谓当前最强图像生成模型,在128x128分辨率的ImageNet上训练,BigGAN的Inception 分数(IS)可以达到 166.3 ,Frechet Inception 距离(FID)9.6。

关于BigGAN更详细的介绍看这里。

未来GAN还能提升到什么程度,值得期待!

图像分割

是的,图像分割王者是何恺明等人2017年提出的Mask-RCNN,mAP值26.2。

2018年8月,密歇根大学和谷歌大脑的研究人员合作,提出了一种图像语义分层处理框架,可以实现像素级别的图像语义理解和操纵,在图像中任意添加、改变、移动对象,并与原图浑然一体,实现真正的“毫无PS痕迹”。

虽然相关论文还未经过同行评议,但是根据上述研究人员在Arxiv论文汇报的结果,他们在图像分割上更胜一筹。

自然语言处理

分类/语义相似度/语法/电影评论/语义等价/问答/实体识别

BERT这个名字近来在NLP领域可谓是红红火火。

10月13日,谷歌AI团队新发布的BERT模型,在机器阅读理解顶级水平测试SQuAD1.1中表现出惊人的成绩:全部两个衡量指标上全面超越人类!并且还在11种不同NLP测试中创出最佳成绩,包括将GLUE基准推至80.4%(绝对改进7.6%),MultiNLI准确度达到86.7% (绝对改进率5.6%)等。

谷歌团队的Thang Luong直接定义:BERT模型开启了NLP的新时代!

BERT的新语言表示模型,它代表Transformer的双向编码器表示。与最近的其他语言表示模型不同,BERT旨在通过联合调节所有层中的上下文来预先训练深度双向表示。因此,预训练的BERT表示可以通过一个额外的输出层进行微调,适用于广泛任务的最先进模型的构建。

如前文所述,BERT在11项NLP任务中刷新了性能表现记录!在此举出其中一项结果。

GLUE测试结果,由GLUE评估服务器给出。每个任务下方的数字表示训练样例的数量。“平均”一栏中的数据与GLUE官方评分稍有不同,因为我们排除了有问题的WNLI集。BERT 和OpenAI GPT的结果是单模型、单任务下的数据。所有结果来自https://gluebenchmark.com/leaderboard和https://blog.openai.com/language-unsupervised/

SQuAD 结果。BERT 集成是使用不同预训练检查点和微调种子(fine-tuning seed)的 7x 系统。

CoNLL-2003 命名实体识别结果。超参数由开发集选择,得出的开发和测试分数是使用这些超参数进行五次随机重启的平均值。

总体而言,BERT模型在NLP领域中的多项任务取得目前最佳效果,包括

分类、语义相似度、语法、电影评论、语义等价、问答、实体识别等等。

常识推理

在常识推理方面(Commensense Inference),目前取得最先进水平的是Antonio Lieto等人于2017年发布的文章:Dual PECCS: a cognitive system for conceptual representation and categorization。

当然,该篇文章的结果在概念分类准确率(Concept Categorization Accuracy)上目前最佳,为89;但在Dev和Test准确率方面,目前依旧BERT模型结果最佳,分别为86.6和86.3。

机器翻译

在机器翻译任务中(Machine Translation),目前取得最佳结果来自于Zhen Yang等人于今年4月在Arxiv上发布的文章:

该文章的算法主要结合了Transformer+BR-CSGAN,在BLEU上取得的评分结果为43.01,为目前最佳结果。

自然语言推断

在自然语言推断(Natural Language Inference)任务中,目前最佳结果来自于Yichen Gong等人于今年5月在Arxiv上发布的文章:

该论文采用的算法是DIIN,在准确率方面目前为89.84,目前处于最佳水平。

以上是计算机视觉和自然语言处理两个领域的最新发展情况。想要了解AI其它领域中各任务目前取得的最佳结果可以参考如下链接:

https://www.stateoftheart.ai/

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1819

    文章

    50290

    浏览量

    266826
  • 计算机视觉
    +关注

    关注

    9

    文章

    1715

    浏览量

    47707
  • 自然语言处理

    关注

    1

    文章

    630

    浏览量

    14712

原文标题:2018,一文看尽AI发展真相(上)

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    计算机专业408考研科目

    408 跨考零基础:三月入门到精通路线 站在2026年的节点回望,计算机考研408(计算机学科专业基础综合)早已超越了单纯的知识点考核,它更像是一场对逻辑思维与系统观的深度洗礼。对于跨考且零基
    发表于 04-11 16:44

    传音相关研究成果入选计算机视觉顶会CVPR 2026

    (Mohamed bin Zayed University of Artificial Intelligence,简称MBZUAI)联合开展的“拍照解题”项目研究取得重要进展,相关成果论文已被计算机视觉
    的头像 发表于 04-03 17:45 2888次阅读
    传音相关研究成果入选<b class='flag-5'>计算机</b><b class='flag-5'>视觉</b>顶会CVPR 2026

    融合多场耦合效应:生成式人工智能技术演进及其在航空发动机复杂工程系统中的赋能机制研究

    人工智能技术正经历着从感知智能向生成智能、再向代理智能与物理智能演进的深刻变革。在这一进程中,生成式AI技术的突破性发展尤为引人瞩目,其不仅能够在自然语言处理计算机
    的头像 发表于 02-26 10:07 624次阅读
    融合多场耦合效应:生成式人工智能技术演进及其在航空发动机复杂工程系统中的赋能机制研究

    自然语言处理NLP的概念和工作原理

    自然语言处理 (NLP) 是人工智能 (AI) 的一分支,它会教计算机如何理解口头和书面形式的人类语言
    的头像 发表于 01-29 14:01 564次阅读
    <b class='flag-5'>自然语言</b><b class='flag-5'>处理</b>NLP的概念和工作原理

    AI机器人控制进阶教程(入门版)》阅读指引

    的预编程,只能在结构化环境中工作。AI的引入(如计算机视觉自然语言处理),赋予机器人感知、理解和决策的能力,使其能适应开放、动态的
    的头像 发表于 01-07 10:56 2404次阅读
    《<b class='flag-5'>AI</b>机器人控制进阶教程(入门版)》阅读指引

    上海计算机视觉企业行学术沙龙走进西井科技

    12月5日,由中国图象图形学学会青年工作委员会(下简称“青工委”)、上海市计算机学会计算机视觉专委会(下简称“专委会”)联合主办,上海西井科技股份有限公司、江苏路街道商会承办的“上海计算机
    的头像 发表于 12-16 15:39 715次阅读

    使用代理式AI激活传统计算机视觉系统的三种方法

    当前的计算机视觉系统擅长于识别物理空间与流程中的事件,却难以诠释场景细节及其意义,也无法推理后续可能发生的情况
    的头像 发表于 12-01 09:44 759次阅读

    云知声论文入选自然语言处理顶会EMNLP 2025

    近日,自然语言处理(NLP)领域国际权威会议 ——2025 年计算语言学与自然语言
    的头像 发表于 11-10 17:30 895次阅读
    云知声论文入选<b class='flag-5'>自然语言</b><b class='flag-5'>处理</b>顶会EMNLP 2025

    NVIDIA DGX Spark桌面AI计算机开启预订

    DGX Spark 现已开启预订!丽台科技作为 NVIDIA 授权分销商,提供从产品到服务的一站式解决方案,助力轻松部署桌面 AI 计算机
    的头像 发表于 09-23 17:20 1505次阅读
    NVIDIA DGX Spark桌面<b class='flag-5'>AI</b><b class='flag-5'>计算机</b>开启预订

    【「AI芯片:科技探索与AGI愿景」阅读体验】+可期之变:从AI硬件到AI湿件

    的基本逻辑门 所谓生物计算是一新兴的交叉学科领域,其研究灵感来源于自然界生命系统的神奇功能。它将生物学和计算机科学的原理及方法相结合,旨在
    发表于 09-06 19:12

    【HZ-T536开发板免费体验】5- 无需死记 Linux 命令!用 CangjieMagic 在 HZ-T536 开发板上搭建 MCP 服务器,自然语言轻松控板

    引言:为什么需要 “自然语言控板”? 痛点引入 :嵌入式开发中,开发者常需通过 SSH 等工具登录开发板,手动输入复杂的 Linux 命令(如ls -l、gpio readall、ifconfig等
    发表于 08-23 13:10

    AI芯片:加速人工智能计算的专用硬件引擎

    人工智能(AI)的快速发展离不开高性能计算硬件的支持,而传统CPU由于架构限制,难以高效处理AI任务中的大规模并行计算需求。因此,专为
    的头像 发表于 07-09 15:59 1931次阅读

    任正非说 AI已经确定是第四次工业革命 那么如何从容地加入进来呢?

    多个学科知识。例如,在计算机视觉领域,了解物理学中的光学知识有助于理解图像的形成和采集过程;在自然语言处理中,
    发表于 07-08 17:44

    milvus向量数据库的主要特性和应用场景

    Milvus 是一开源的向量数据库,专门为处理和分析大规模向量数据而设计。它适用于需要高效存储、检索和管理向量数据的应用场景,如机器学习、人工智能、计算机视觉
    的头像 发表于 07-04 11:36 1222次阅读
    milvus向量数据库的主要特性和应用场景

    思必驰与上海交大联合实验室篇论文入选ICML 2025

    会议。会议涵盖了机器学习的各个前沿方向,包括但不限于深度学习、强化学习、自然语言处理计算机视觉、贝叶斯方法及优化算法等。
    的头像 发表于 06-16 09:23 1591次阅读
    思必驰与上海交大联合实验室<b class='flag-5'>两</b>篇论文入选ICML 2025