0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

阿里AI打破视觉对话识别纪录,AI的认知能力迈上新台阶!

PCB行业工程师技术交流 来源:YXQ 2019-07-02 16:01 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

近日, 在第二届视觉对话竞赛Visual Dialogue Challenge中,阿里AI击败了微软、首尔大学等十支参赛队伍,获得冠军。

(阿里AI在视觉对话竞赛中得冠)

据了解,视觉对话竞赛由美国佐治亚理工大学、Facebook人工智能实验室(FAIR)等机构联合全球视觉技术领域顶级学术会议CVPR发起,是目前视觉对话领域最权威的竞赛之一。

该竞赛要求参赛的AI在看完近万张图片后,回答出人类对于任一图片任一内容的提问。竞赛结果显示,阿里AI以74.57%的准确率获得冠军,将上一届比赛的纪录提高了16.82%。在相同的数据集中,人类的准确率仅为64.27%。

传统的视觉AI主要针对目标的检测和识别,例如识别出图片是否是一只猫,但对复杂场景中目标之间的逻辑关系理解、推理能力较弱,无法回答“这只猫旁边的男生穿了什么颜色的衣服”等复杂问题,也难以将图片信息转化为人类理解的语言输出。

阿里AI的突破在于提出了“递归探索对话模型”,综合集成了图像识别、关系推理与自然语言理解三大能力,它通过高效利用标注信息学习出模仿人类认知复杂场景的思维方式,能够有效识别图片里的实体以及它们之间的关系,推理出图片所描述的事件内容,并通过对上下文进行有效建模,理解人类提出的问题及真实意图,给出自然准确的回复。

视觉对话是近年来快速崛起的AI研究方向,目的在于教会机器用自然语言与人类讨论视觉内容。如果说视觉识别技术,让机器具备了视觉能力;那么视觉对话技术,则使得机器拥有了对真实视觉世界的理解与推断能力,意味着AI的认知能力将迈上新的台阶。

据了解,这项技术未来将被应用在人机交互诸多场景:地震后在废墟中寻找幸存者的救援机器人,能够更加及时、高效地综合指挥指令和场景信息作出行动;视障人士可以通过提问阿里AI,理解网络照片中的内容,了解自身所处的周围环境;无人驾驶车辆对影响因子的意图理解会更为准确,乘客的乘坐体验更好。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    89

    文章

    38133

    浏览量

    296728
  • 阿里巴巴
    +关注

    关注

    7

    文章

    1645

    浏览量

    48940

原文标题:不忘初心 奋勇当先——光华科技连续9年成为中国电子电路专用化学品民族企业No.1

文章出处:【微信号:ruziniubbs,微信公众号:PCB行业工程师技术交流】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    瑞声科技为豆包AI手机提供核心感知能力支撑

    12月1日,字节跳动旗下AI助手豆包与中兴通讯宣布:搭载豆包手机助手技术预览版的工程样机nubia(努比亚)M153发售。作为这款创新AI手机的重要参与者,AAC以自研的高性能X轴线性马达及双扬声器系统,为其提供核心感知能力支撑
    的头像 发表于 12-09 10:18 68次阅读

    【「AI芯片:科技探索与AGI愿景」阅读体验】+具身智能芯片

    控制器等。 具身智能常见的感知模块往往被称为智能传感器,就是在原有的传感器加入一定的AI功能,从而可以模拟人类的5种基本感觉:视觉、听觉、触觉、嗅觉和味觉。 1、输入端的数据压缩 输入端常用的数据压缩
    发表于 09-18 11:45

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI的科学应用

    和灵感与诺贝尔奖和重大科学发现 科学发现中,直觉是重要的起点。是基于经验情感及知识的模式识别和类比能力,而不是基于逻辑和推理。 灵感通常是新的、有创意的想法或者突破性的思维,是突然来的、意外的提示。 直觉
    发表于 09-17 11:45

    软通动力助力软件智能化领域标准化建设新台阶

    近日,由人工智能关键技术和应用评测重点实验室牵头编写的《软件智能化成熟度模型 通用能力要求》(AIIA/T 0223-2025 )正式发布。作为核心参编单位,软通动力深度参与标准制定,助力软件智能化领域标准化建设
    的头像 发表于 07-21 11:49 856次阅读

    大家都在用什么AI软件?有没有好用的免费的AI软件推荐一下?

    大家都在用什么AI软件?有没有好用的免费的AI软件推荐一下?直接发个安装包,谢谢。比如deepseek、Chatgpt、豆包、阿里AI、百度AI
    发表于 07-09 18:30

    无人机AI视觉行为识别系统

    的需求。同时,人工监控存在效率低下、易疲劳、反应滞后等问题,无法应对日益复杂的安全管理挑战。 在这一背景下,陕西广合通结合无人机机动性与人工智能分析能力视觉行为识别系统为基础研发了无人机AI
    的头像 发表于 07-04 16:53 736次阅读

    最新人工智能硬件培训AI基础入门学习课程参考2025版(离线AI语音视觉识别篇)

    端侧离线 AI 智能硬件作为 AI 技术的重要载体之一,凭借其无需依赖网络即可实现智能功能的特性,在一些网络条件受限或对数据隐私有较高要求的场景中,发挥着不可或缺的作用。本章基于CSK6大模型语音视觉
    发表于 07-04 11:14

    小智AI移植到ESP32P4-Fucntion-EV-Board实机演示

    最近参加论坛的五一活动,获得一套小智AI的套件。当时正好在尝试移植小智AI到ESP32P4-Fucntion-EV-Board。最近完成了大部分功能的移植,以及可以对话了,话说屏幕大
    发表于 05-10 12:40

    正点原子 AI BOX0 智能伴侣,1.54寸高清屏+长效续航,语音畅聊,情景对话,知识科普,多色可选,随身携带!

    品非它莫属! 为什么选择小智AI? 真人级交互体验 ① AI情感对话:不止问答,更能陪你聊心事、讲笑话,像朋友一样懂你! ② 10+音色百变:温柔御姐、萌趣童声、磁性男神… 每天换一种声音陪伴
    发表于 04-24 16:11

    AI Agent 应用与项目实战》----- 学习如何开发视频应用

    学习、自然语言处理(NLP)、计算机视觉(CV)等先进技术提供的强大的数据处理和分析能力。 在视频应用开发中,AI Agent可以用于视频内容分析、推荐、编辑等。 下面跟随作者的指导,使用语聚
    发表于 03-05 19:52

    行业集结:共同定制 RK3566 集成 AI 眼镜的前沿 AR 方案

    在技术革新浪潮席卷全球的当下,一款智能视觉终端设备 —— 以 AI 眼镜为典型代表,正以革命性姿态打破物理与数字世界的藩篱,在虚实交融的界面中搭建起多维度的认知通道。 而深圳市新创云智
    发表于 02-20 18:44

    杰和科技GAM-AI视觉识别管理系统,让AI走进零售营销

    在数字化浪潮席卷全球零售业的今天,如何精准触达顾客需求、优化运营效率、提升门店业绩,成为实体商业破局的关键。GAM-AI视觉识别管理系统杰和科技智能零售管理系统:GAM-AI
    的头像 发表于 02-20 11:32 877次阅读
    杰和科技GAM-<b class='flag-5'>AI</b><b class='flag-5'>视觉</b><b class='flag-5'>识别</b>管理系统,让<b class='flag-5'>AI</b>走进零售营销

    AI Agent 应用与项目实战》第1-2章阅读心得——理解Agent框架与Coze平台的应用

    交互模式,实现视觉、语音、文本的深度整合。这种整合不是简单叠加,而是模仿人类认知系统的多维感知能力。 群智协作:单Agent向多Agent协同演进,通过专业分工和角色互补,处理更复杂的任务场景。这种协作
    发表于 02-19 16:35

    巨人网络与阿里云深化AI合作

    基础,巨人网络与阿里云此次深化合作,旨在探索AI在游戏领域的更多可能性。巨人网络表示,公司正在积极研究AI的通用泛化能力、多模态内容理解与生成,以及
    的头像 发表于 02-14 14:06 911次阅读

    HarmonyOS NEXT 应用开发练习:AI智能对话

    显示发送的时间戳,以便用户了解消息的发送时间。 这个DEMO展示了如何使用ArkTS和扩展后的ChatUI框架(或类似功能的库)在HarmonyOS NEXT创建一个功能丰富的AI智能对话框。我们可以根据需要进一步定制和扩展这
    发表于 01-03 11:29