0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

视觉对话能力让AI迈上新台阶

OaXG_jingzhengl 来源:YXQ 2019-07-02 16:39 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

正如《2001太空漫游》《流浪地球》等科幻大片中无障碍的人机对话系统所描绘的那样,拥有智能视觉对话能力的AI随着技术的不断突破,正在向我们走来。

每个人都有这样的回忆,小时候语文老师教我们看图说话,许多小朋友脑洞大开,说出来的答案让人啼笑皆非。实际上,看图说话的能力在年幼时期需要训练,而对于大一点孩子来说就不成问题了。如今,机器人也能做到看图说话了。

近日,来自中国AI在这项能力上已经打破了世界纪录。在第二届全球AI视觉对话竞赛(Visual Dialogue Challenge)中,阿里AI击败了微软、首尔大学等十支参赛队伍,一举获得冠军。

阿里AI在视觉对话竞赛中得冠

会“看图说话”的AI有多聪明?

这场视觉对话竞赛由美国佐治亚理工大学、Facebook人工智能实验室(FAIR)等机构联合全球视觉技术领域顶级学术会议CVPR发起,是目前视觉对话领域最权威的竞赛之一。

该竞赛要求参赛的AI在看完近万张图片后,回答出人类对于任一图片任一内容的提问。这要求AI不仅能够描述出图片中内容的概况,还要经得起人类对图片各种细节的追问。比如,在一张撑着雨伞的人物图片中,说出伞是什么颜色的,有多少人在图中,附近有什么物品和建筑物等等信息。

视觉对话中AI可以从容应对人类提问(左为AI、右为人类)

竞赛结果显示,阿里AI以74.57%的准确率获得冠军,将上一届比赛的纪录提高了16.82%,并且超过微软AI的64.78%的准确率。而在相同的数据集中,人类的准确率仅为64.27%,AI甚至胜过了人类。

传统的视觉AI主要针对目标的检测和识别,但对复杂场景中目标之间的逻辑关系理解、推理能力较弱,无法回答表达图片对象直接关系的复杂问题,也难以将图片信息转化为人类理解的语言输出。

这意味着,要实现视觉对话能力,传统的视觉AI在学会“看图”之后,还要有一种语言模型来支撑它“说话”。阿里AI的突破就在于提出了“递归探索对话模型”。

视觉对话AI与用户交流图像内容

这一模型通过标注信息学习出模仿人类认知复杂场景的思维方式,能识别图片里的实体以及它们之间的关系,推理出图片所描述的事件内容,并通过对上下文进行有效建模,综合集成了图像识别、关系推理与自然语言理解三大能力,能理解人类提出的问题及真实意图,给出自然准确的回复。

视觉对话能力让AI迈上新台阶

AI能“看图说话”,这样的应用其实距离我们并不遥远,微软之前推出了一款年龄测试工具How-old.net ,曾经刷爆微博和朋友圈,所应用的就是这一技术的应用。

目前微软还开放了能“看图说话”的AI系统,用户进入官网上传图片,稍等一会,就能看到系统对于图片的描述。其准确率虽然不低但依旧有待提升,以一张曾经广为流传的黑人问号表情图片为例,AI很快给出了客观的回答:“我觉得这是篮球队员尼克·杨露出牙齿微笑。”

AI视觉对话识别图片信息

以“看图说话”为代表的视觉对话是近年来快速崛起的AI研究方向,目的在于教会机器用自然语言与人类讨论视觉内容,这能够使机器拥有了对真实视觉世界的理解与推断能力,也意味着AI的认知能力将迈上新的台阶。

可以预见,这项技术未来将被应用在人机交互诸多场景:

在火灾、地震后在废墟中寻找幸存者的救援机器人,能够代替人类之眼,深入危险的现场,及时、高效地综合指挥指令和场景信息作出行动。

视觉对话技术有望人类提高地震救援效率

视障人士可以通过提问AI,理解图像中的内容,了解自身所处的周围环境,为其生活起居带来更多的便利。

无人驾驶车辆也可以在行驶中通过视觉对话,更加准确理解人类意图征询人类的意见,让乘客的乘坐体验更好。

正如《2001太空漫游》《流浪地球》等科幻大片中无障碍的人机对话系统所描绘的那样,拥有智能视觉对话能力的AI随着技术的不断突破,正在向我们走来。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器视觉
    +关注

    关注

    166

    文章

    4827

    浏览量

    126477
  • AI
    AI
    +关注

    关注

    91

    文章

    40982

    浏览量

    302533

原文标题:机器人看图说话能力比肩人类!中国AI超越微软,打破世界纪录

文章出处:【微信号:jingzhenglizixun,微信公众号:机器人博览】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    DEKRA德凯与追觅吸尘器深化战略合作

    4月17日,DEKRA德凯与全球高端科技品牌追觅吸尘器,在苏州成功举行了战略合作授牌仪式。本次合作标志着双方在智能家电领域的合作新台阶,未来将携手为全球消费者提供更安全、更高效、更智能的高品质产品。
    的头像 发表于 04-21 11:47 259次阅读

    2026浪潮数据浙江合作伙伴大会成功召开

    2026年4月10日,以“乘云而 聚势共赢”为主题的2026浪潮数据浙江合作伙伴大会成功召开。来自浙江区域的核心合作伙伴齐聚杭州,围绕市场机遇挖掘、全栈产品赋能、合作政策升级、生态协同创新等核心议题深度对话,共同推动浙江政企数字化转型
    的头像 发表于 04-16 10:30 170次阅读

    广电计量在电离辐射领域服务能力再上新台阶

    近期,广电计量顺利通过中国合格评定国家认可委员会(CNAS)扩项评审,于3月25日正式取得相关资质,新增X、γ辐射周围剂量当量(率)仪、个人辐射防护报警仪、诊断水平剂量计、中子防护仪等校准能力,标志着广电计量在电离辐射领域服务能力再上
    的头像 发表于 04-09 17:34 1014次阅读
    广电计量在电离辐射领域服务<b class='flag-5'>能力</b>再上<b class='flag-5'>新台阶</b>

    富时GEO服务:技术驱动AI搜索时代的企业增长新引擎

    导语: 随着DeepSeek、豆包、文心一言等生成式AI搜索引擎的快速普及,用户获取信息的方式正从传统"链接点击"转向"AI直接对话"。在这场深刻的信息检索范式变革中,企业如何品牌内
    的头像 发表于 01-17 21:20 447次阅读

    上海贝岭通过企业知识产权合规管理体系认证

    近日,上海贝岭股份有限公司顺利通过《企业知识产权合规管理体系》(GB/T 29490-2023)认证,标志着公司在知识产权管理体系建设方面新台阶
    的头像 发表于 01-15 12:46 657次阅读

    喜报|我司斩获EcoVadis银牌认证(TOP 15%),可持续发展新台阶

    斩获EcoVadis银牌可持续发展新台阶捷捷微电斩获EcoVadis银牌近日,全球权威企业可持续发展评估平台EcoVadis公布最新评审结果,我司凭借在环境、劳工与人权、商业道德及可持续采购四大
    的头像 发表于 12-30 16:31 936次阅读
    喜报|我司斩获EcoVadis银牌认证(TOP 15%),可持续发展<b class='flag-5'>迈</b><b class='flag-5'>上</b><b class='flag-5'>新台阶</b>

    瑞芯微SOC智能视觉AI处理器

    RK1126B的基础,增加了H.264/H.265视频编码能力的“全能型”视觉AI处理器,实现编解码+AI分析一体化基础: 完全继承了RK
    发表于 12-19 13:44

    AI教父Hinton对话云天励飞陈宁

    ,围绕算力效率、AI 向善与普惠未来展开了一场高密度对话对话由硅谷著名计算机科学家、硅谷高创会大会主席吴军博士主持。
    的头像 发表于 12-03 14:04 829次阅读

    米尔RK3576部署端侧多模态多轮对话,6TOPS算力驱动30亿参数LLM

    ”?—— 摆脱网络依赖、保护本地隐私、控制硬件成本,设备真正具备 “看见并对话” 的离线智能,成为边缘 AI 突破的核心卡点。 2024 年,随着边缘 SoC 算力正式迈入 6 TOPS 门槛,瑞芯微
    发表于 09-05 17:25

    中国中车ETS3动车组在马来西亚启用

    近日,由中国中车集团旗下中车株机公司研制的ETS3动车组从吉隆坡车站启程,驶往柔佛居銮,正式在马来西亚启用,标志着中马两国在轨道交通领域的合作新台阶,成为中马友谊持续深化的重要见证。
    的头像 发表于 08-27 13:44 921次阅读

    海微科技助力蔚来乐道L90下线交付

    近日,蔚来公司第80万台量产车——乐道L90正式下线,这不仅标志着蔚来公司制造规模新台阶,展现其在新能源汽车领域的深厚底蕴与强劲实力,同时也是蔚来与海微达成合作成果的又一重要里程碑时刻。
    的头像 发表于 07-26 14:13 1154次阅读

    软通动力助力软件智能化领域标准化建设新台阶

    近日,由人工智能关键技术和应用评测重点实验室牵头编写的《软件智能化成熟度模型 通用能力要求》(AIIA/T 0223-2025 )正式发布。作为核心参编单位,软通动力深度参与标准制定,助力软件智能化领域标准化建设
    的头像 发表于 07-21 11:49 1163次阅读

    明阳 IPv6 深化部署解决方案--助力数字政府建设新台阶

    、提升政务服务能力与治理水平的关键一步。IPv6作为互联网的下一代核心协议,具有地址资源丰富、安全性高、移动性好等显著优势,能够为数字政府建设提供更为坚实的网络基
    的头像 发表于 07-15 09:49 1796次阅读
    明阳 IPv6 深化部署解决方案--助力数字政府建设<b class='flag-5'>迈</b><b class='flag-5'>上</b><b class='flag-5'>新台阶</b>

    最新人工智能硬件培训AI基础入门学习课程参考2025版(离线AI语音视觉识别篇)

    端侧离线 AI 智能硬件作为 AI 技术的重要载体之一,凭借其无需依赖网络即可实现智能功能的特性,在一些网络条件受限或对数据隐私有较高要求的场景中,发挥着不可或缺的作用。本章基于CSK6大模型语音视觉
    发表于 07-04 11:14

    神眸引领AI智能视觉新范式,科技更有温度

    AI能力矩阵,更是通过情感化交互与场景化服务,用户真正感受到科技带来的温暖陪伴。神眸以“云、网、边、端、芯”全链路自研架构为基石,从芯片级性能突破到云端智能服
    的头像 发表于 05-23 13:24 1247次阅读
    神眸引领<b class='flag-5'>AI</b>智能<b class='flag-5'>视觉</b>新范式,<b class='flag-5'>让</b>科技更有温度