0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

人工智能可以像人一样描述图像?

姚小熊27 来源:人工智能实验室 作者:人工智能实验室 2020-10-16 10:58 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

准确地描述图像,而不仅仅是像一个毫无头绪的机器人,长期以来一直是人工智能的目标。2016年,谷歌表示,其人工智能可以为图像添加几乎与人类一样的字幕,准确率为94%。现在微软说它已经更进一步:研究人员已经建立了一个比人类更精确的人工智能系统,以至于它现在位于nocaps图像捕获基准的排行榜首位。微软声称,它比自2015年以来一直使用的图像字幕模型好两倍。

虽然这本身就是一个值得注意的里程碑,但微软并不只是将这项技术独家。它现在提供新的字幕模型作为Azure认知服务的一部分,这样任何开发者都可以把它带到他们的应用程序中。今天,它也可以在Seeing AI中使用,这是微软为盲人和视障用户开发的应用程序,可以帮助他们了解周围的世界。今年晚些时候,字幕模式还将改进您在PowerPoint中用于Web、Windows和Mac的演示文稿,它还会在桌面平台上的Word和Outlook中弹出。

Azure AI首席副总裁埃里克博伊德说:“[图像字幕]是人工智能中最棘手的问题之一。它不仅代表着理解场景中的物体,还代表了它们是如何交互的,以及如何描述它们。”优化字幕技术可以帮助每一个用户:它让你更容易在搜索引擎中找到你正在寻找的图像。对于视障用户来说,它可以让网络和软件导航变得非常好。

看到公司吹嘘他们的人工智能研究创新并不少见,但这些发现迅速部署到运输产品中的情况要罕见得多。Azure AI认知服务CTO黄学冬,考虑到对用户的潜在好处,力推将其快速整合到Azure中。他的团队用标有特定关键字的图像训练了这个模型,这帮助它提供了一种大多数人工智能框架所没有的视觉语言。通常,这些类型的模型使用图像和完整的字幕进行训练,这使得模型更难了解特定对象是如何交互的。

黄学冬在一篇博客文章中说:“这种视觉词汇的预训练本质上是训练系统所需的教育;我们正在努力教育这种运动记忆。”这就是为什么这个新模型在nocaps基准中占据了一席之地,该基准专注于确定人工智能对他们以前从未见过的图像的字幕能力有多好。

但是,虽然打破基准意义重大,但对微软新模式的真正考验将是它在现实世界中的运作方式。根据Boyd的说法,看到人工智能开发人员Saqib Shaik,他自己也是一个盲人,也在微软推动更好的可访问性,他将其描述为比他们之前提供的产品有了戏剧性的改进。现在微软已经建立了一个新的里程碑,看看谷歌和其他研究人员的竞争模型如何竞争将是一件有趣的事情。
责任编辑:YYX

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 微软
    +关注

    关注

    4

    文章

    6750

    浏览量

    108076
  • 人工智能
    +关注

    关注

    1819

    文章

    50298

    浏览量

    266844
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    未来五年,人工智能给你的生活带来哪些改变

    未来五年,人工智能电力一样,无声无息地融入你生活的每个角落。它不是科幻电影里的机器,而是系列能看、能听、能分析、能预测的
    的头像 发表于 04-17 16:17 102次阅读

    浅谈人工智能(2)

    。 强人工智能(Strong AI),又称通用人工智能(Artificial General Intelligence)或完全人工智能,指的是可以胜任人类所有工作的
    的头像 发表于 02-22 08:24 330次阅读
    浅谈<b class='flag-5'>人工智能</b>(2)

    云知声荣膺量子位2025人工智能年度榜单四项大奖

    近日,以“共生无界,智启未来”为主题的MEET2026智能未来大会在北京举行。会上正式揭晓了「2025人工智能年度榜单」,云知声举摘得2025人工智能年度焦点人物、2025
    的头像 发表于 01-06 16:43 738次阅读

    龙芯中科推出龙架构人工智能教育基地“万行动”计划

    为积极响应国家“人工智能+”行动部署,贯彻落实教育领域人工智能深度融合的号召,龙芯中科正式推出“智赋百业·万启航——龙架构人工智能教育基地‘万
    的头像 发表于 12-08 14:55 1172次阅读

    连载|开发工具,易安卓让系统功能调用写应用逻辑一样简单

    通过自研系统封装库,易安卓将复杂的系统控制能力以接口形式开放给开发者,让系统功能调用写应用逻辑一样简单。
    的头像 发表于 11-27 11:40 87次阅读
    连载|开发工具,易安卓让系统功能调用<b class='flag-5'>像</b>写应用逻辑<b class='flag-5'>一样</b>简单

    怎么kell一样设置rom下载起始地址?

    如题,怎么kell一样设置rom下载起始地址?
    发表于 10-10 07:21

    现场解决EMC电磁辐射干扰:“望闻问切”,中医一样

    南柯电子|现场解决EMC电磁辐射干扰:“望闻问切”,中医一样
    的头像 发表于 09-04 09:47 1029次阅读

    迅为iTOP-RK3568人工智能开发板mobilenet图像分类模型推理测试

    想快速验证MobileNet图像分类模型的实际运行效果?迅为iTOP-RK3568人工智能开发板,让模型推理测试高效又省心。
    的头像 发表于 08-28 15:53 1545次阅读
    迅为iTOP-RK3568<b class='flag-5'>人工智能</b>开发板mobilenet<b class='flag-5'>图像</b>分类模型推理测试

    人工智能+”,走老路难赚到新钱

    昨天的“人工智能+”刷屏了,这算是官方第次对“人工智能+”这个名称定性吧?今年年初到现在,涌现出了大批基于人工智能的创业者,这已经算是A
    的头像 发表于 08-27 13:21 865次阅读
    “<b class='flag-5'>人工智能</b>+”,走老路难赚到新钱

    挖到宝了!人工智能综合实验箱,高校新工科的宝藏神器

    家人们,最近在研究人工智能相关设备,挖到了款超厉害的宝藏——比邻星人工智能综合实验箱,必须来给大伙分享分享!可☎(壹捌伍 柒零零玖 壹壹捌陆) 、开箱即学,便捷拉满 这个实验箱真的
    发表于 08-07 14:30

    挖到宝了!比邻星人工智能综合实验箱,高校新工科的宝藏神器!

    家人们,最近在研究人工智能相关设备,挖到了款超厉害的宝藏——比邻星人工智能综合实验箱,必须来给大伙分享分享!可☎(壹捌伍 柒零零玖 壹壹捌陆) 、开箱即学,便捷拉满 这个实验箱真的
    发表于 08-07 14:23

    2025人工智能十大趋势

    在2025世界人工智能大会·腾讯论坛上,腾讯研究院联合腾讯优图实验室、腾讯云智能、腾讯科技联合发布了《共生伙伴:2025人工智能十大趋势》报告。基于腾讯研究院多位研究员对全球技术、产业趋势的长期观察
    的头像 发表于 08-05 11:42 6059次阅读
    2025<b class='flag-5'>人工智能</b>十大趋势

    最新人工智能硬件培训AI 基础入门学习课程参考2025版(大模型篇)

    人工智能大模型重塑教育与社会发展的当下,无论是探索未来职业方向,还是更新技术储备,掌握大模型知识都已成为新时代的必修课。从职场上辅助工作的智能助手,到课堂用于学术研究的智能工具,大模型正在工作生活
    发表于 07-04 11:10

    天吃透条产业链:具身智能(AI+机器

    01 产业链全景图 02 具身智能简介 简单来说,具身智能就是给人工智能赋予个实体,让它能够人类一样
    的头像 发表于 06-19 09:21 2681次阅读
    <b class='flag-5'>一</b>天吃透<b class='flag-5'>一</b>条产业链:具身<b class='flag-5'>智能</b>(AI+机器<b class='flag-5'>人</b>)

    如何构建边缘人工智能基础设施

    随着人工智能的不断发展,其争议性也越来越大;而在企业和消费者的眼中,人工智能价值显著。如同许多新兴科技一样,目前人工智能的应用主要聚焦于大规模、基础设施密集且高功耗的领域。然而,随着
    的头像 发表于 06-09 09:48 1191次阅读