0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

视觉对话能力让AI迈上新台阶

OaXG_jingzhengl 来源:YXQ 2019-07-02 16:39 次阅读

正如《2001太空漫游》《流浪地球》等科幻大片中无障碍的人机对话系统所描绘的那样,拥有智能视觉对话能力的AI随着技术的不断突破,正在向我们走来。

每个人都有这样的回忆,小时候语文老师教我们看图说话,许多小朋友脑洞大开,说出来的答案让人啼笑皆非。实际上,看图说话的能力在年幼时期需要训练,而对于大一点孩子来说就不成问题了。如今,机器人也能做到看图说话了。

近日,来自中国AI在这项能力上已经打破了世界纪录。在第二届全球AI视觉对话竞赛(Visual Dialogue Challenge)中,阿里AI击败了微软、首尔大学等十支参赛队伍,一举获得冠军。

阿里AI在视觉对话竞赛中得冠

会“看图说话”的AI有多聪明?

这场视觉对话竞赛由美国佐治亚理工大学、Facebook人工智能实验室(FAIR)等机构联合全球视觉技术领域顶级学术会议CVPR发起,是目前视觉对话领域最权威的竞赛之一。

该竞赛要求参赛的AI在看完近万张图片后,回答出人类对于任一图片任一内容的提问。这要求AI不仅能够描述出图片中内容的概况,还要经得起人类对图片各种细节的追问。比如,在一张撑着雨伞的人物图片中,说出伞是什么颜色的,有多少人在图中,附近有什么物品和建筑物等等信息

视觉对话中AI可以从容应对人类提问(左为AI、右为人类)

竞赛结果显示,阿里AI以74.57%的准确率获得冠军,将上一届比赛的纪录提高了16.82%,并且超过微软AI的64.78%的准确率。而在相同的数据集中,人类的准确率仅为64.27%,AI甚至胜过了人类。

传统的视觉AI主要针对目标的检测和识别,但对复杂场景中目标之间的逻辑关系理解、推理能力较弱,无法回答表达图片对象直接关系的复杂问题,也难以将图片信息转化为人类理解的语言输出。

这意味着,要实现视觉对话能力,传统的视觉AI在学会“看图”之后,还要有一种语言模型来支撑它“说话”。阿里AI的突破就在于提出了“递归探索对话模型”。

视觉对话AI与用户交流图像内容

这一模型通过标注信息学习出模仿人类认知复杂场景的思维方式,能识别图片里的实体以及它们之间的关系,推理出图片所描述的事件内容,并通过对上下文进行有效建模,综合集成了图像识别、关系推理与自然语言理解三大能力,能理解人类提出的问题及真实意图,给出自然准确的回复。

视觉对话能力让AI迈上新台阶

AI能“看图说话”,这样的应用其实距离我们并不遥远,微软之前推出了一款年龄测试工具How-old.net ,曾经刷爆微博和朋友圈,所应用的就是这一技术的应用。

目前微软还开放了能“看图说话”的AI系统,用户进入官网上传图片,稍等一会,就能看到系统对于图片的描述。其准确率虽然不低但依旧有待提升,以一张曾经广为流传的黑人问号表情图片为例,AI很快给出了客观的回答:“我觉得这是篮球队员尼克·杨露出牙齿微笑。”

AI视觉对话识别图片信息

以“看图说话”为代表的视觉对话是近年来快速崛起的AI研究方向,目的在于教会机器用自然语言与人类讨论视觉内容,这能够使机器拥有了对真实视觉世界的理解与推断能力,也意味着AI的认知能力将迈上新的台阶。

可以预见,这项技术未来将被应用在人机交互诸多场景:

在火灾、地震后在废墟中寻找幸存者的救援机器人,能够代替人类之眼,深入危险的现场,及时、高效地综合指挥指令和场景信息作出行动。

视觉对话技术有望人类提高地震救援效率

视障人士可以通过提问AI,理解图像中的内容,了解自身所处的周围环境,为其生活起居带来更多的便利。

无人驾驶车辆也可以在行驶中通过视觉对话,更加准确理解人类意图征询人类的意见,让乘客的乘坐体验更好。

正如《2001太空漫游》《流浪地球》等科幻大片中无障碍的人机对话系统所描绘的那样,拥有智能视觉对话能力的AI随着技术的不断突破,正在向我们走来。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器视觉
    +关注

    关注

    160

    文章

    4032

    浏览量

    118252
  • AI
    AI
    +关注

    关注

    87

    文章

    26364

    浏览量

    263957

原文标题:机器人看图说话能力比肩人类!中国AI超越微软,打破世界纪录

文章出处:【微信号:jingzhenglizixun,微信公众号:机器人博览】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    百度地图AI向导用户破亿,日均提供超千万次对话

    百度地图AI向导用户破亿,日均提供超千万次对话
    的头像 发表于 03-21 09:44 163次阅读
    百度地图<b class='flag-5'>AI</b>向导用户破亿,日均提供超千万次<b class='flag-5'>对话</b>

    薄膜淀积工艺的保角性=台阶覆盖性吗?如何做到好的保角性呢?

    薄膜的保角性,又称保形性,指的是薄膜淀积台阶覆盖能力和空隙填充能力,以及保留原始形状的能力
    的头像 发表于 01-02 10:55 474次阅读
    薄膜淀积工艺的保角性=<b class='flag-5'>台阶</b>覆盖性吗?如何做到好的保角性呢?

    新紫光集团全面赋能,紫光同创迈上发展新台阶

    ,经营业绩、市场开拓及客户服务也都迈上新台阶! 近年来,得益于新一代信息通信、工业互联网、新能源产业的发展热潮,拥有“万能芯片”之称的FPGA芯片,因设计灵活、兼容性强、适用性广与并行运算等优势,在多个领域展现出蓬勃
    的头像 发表于 12-25 18:48 193次阅读

    AI视觉识别有哪些工业应用

    AI视觉识别涵盖多种应用,如人脸识别、目标检测和识别、图像分割、行为识别、视频分析等。本篇就简单介绍一下AI视觉识别的应用场景。
    的头像 发表于 11-27 18:05 482次阅读
    <b class='flag-5'>AI</b><b class='flag-5'>视觉</b>识别有哪些工业应用

    数字化、智能化技术助力行业制造迈向新台阶

    锂电工厂的价值正愈发受到重视,智能物流、智能检测、节能降耗、工业互联等方面正以数字化、智能化技术助力行业制造迈向新台阶
    的头像 发表于 11-27 11:42 580次阅读

    台阶仪和轮廓仪区别

    台阶仪和轮廓仪在工业制造领域的区别和应用领域解析测量和检测是工业制造领域的重要环节,而台阶仪和轮廓仪则是各有其特点和应用范围的两种仪器。台阶仪和轮廓仪区别在哪?一、台阶仪1、产品概述
    发表于 10-26 10:54 0次下载

    【KV260视觉入门套件试用体验】Vitis AI 构建开发环境,并使用inspector检查模型

    推断开发平台,它可以帮助开发者在赛灵思的 FPGA 和自适应 SoC 实现高效的 AI 应用部署。它是一个强大而灵活的 AI 开发平台,它可以您充分利用赛灵思硬件平台的优势,实现
    发表于 10-14 15:34

    AI视觉检测代替传统视觉检测有哪些优势?

    AI视觉检测设备具备更高的效率和更精准的检测产品外观尺寸能力,实现了生产环节的自动化,从而有效提升生产效率、降低生产成本,并且极大地提升了产品质量。
    的头像 发表于 08-16 13:16 506次阅读

    NVIDIA AI助力Saildrone:全球海洋勘测再上新台阶

    无人航行器公司Saildrone,借助NVIDIA的AI技术成果,正推动全自动海洋监测领域取得重大突破。
    的头像 发表于 07-25 18:07 963次阅读
    NVIDIA <b class='flag-5'>AI</b>助力Saildrone:全球海洋勘测再上<b class='flag-5'>新台阶</b>

    图灵慧眼AI视觉检测 酸奶盒子黑点检测# 视觉检测# #AI

    AI
    jf_06850557
    发布于 :2023年06月15日 16:40:17

    AI视觉检测在工业领域的应用

    随着制造业的智能化、自动化程度越来越高,AI视觉检测系统已经成为一种重要的智能制造设备,它能够大幅提高生产线上的检测能力和效率。 一、AI视觉
    发表于 06-15 16:21

    AI Conversation Speaker aka Friend Bot:第1部分对话

    电子发烧友网站提供《AI Conversation Speaker aka Friend Bot:第1部分对话.zip》资料免费下载
    发表于 06-13 14:33 0次下载
    <b class='flag-5'>AI</b> Conversation Speaker aka Friend Bot:第1部分<b class='flag-5'>对话</b>

    工业视觉AI机器人—机器视觉质检

    工业视觉AI机器人,AI+3D视觉解决柔性自动化难题,为制造业带来颠覆性技术变革。
    的头像 发表于 05-31 10:42 968次阅读

    NVIDIA NeMo 如何支持对话AI 任务的训练与推理?

    编辑推荐 大模型驱动的对话AI 正在引发新一轮的商业增量。对话式机器人正在不同领域发挥着越来越大的作用,帮助企业用户解决客户服务等难题,提高客户的体验。然而,尽管技术已经趋近成熟,门槛大大降低
    的头像 发表于 05-11 20:16 615次阅读
    NVIDIA NeMo 如何支持<b class='flag-5'>对话</b>式 <b class='flag-5'>AI</b> 任务的训练与推理?

    ai视觉分析技术在明厨亮灶中的应用

    1.ai视觉分析在明厨亮灶中的应用,校园食堂明厨亮灶AI视频分析识别技术,基于深度学习边缘视觉分析技术,明厨亮灶AI视频分析识别,利用厨房已
    的头像 发表于 05-08 14:27 343次阅读