0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

图像捕获是AI中最难的问题之一

倩倩 来源:新经网 作者:新经网 2020-10-15 14:03 次阅读

长期以来,AI的目标就是准确地描述图像,而不仅仅是像笨拙的机器人。谷歌在2016年表示,其人工智能可以为人类提供几乎与人类一样的字幕图像,准确度达到94%。现在,微软表示,它走得更远:它的研究人员建立了一个AI系统,甚至比人类更准确-以至于现在坐上了榜首的nocaps图像字幕标杆。微软声称其自2015年以来一直使用的图像字幕模型要好两倍。

尽管这本身就是一个显着的里程碑,但微软不仅仅是将这项技术保留在自己手中。现在,它作为Azure认知服务的一部分提供了新的字幕模型,因此任何开发人员都可以将其引入他们的应用程序中。今天,它也可以在Seeing AI中使用,Seeing AI是面向盲人和视障用户的Microsoft应用程序,可以描述周围的世界。今年下半年,字幕模型还将改善您在PowerPoint中针对Web,Windows和Mac的演示文稿。它还会在桌面平台的Word和Outlook中弹出。

Azure AI的CVP Eric Boyd在接受Engadget采访时说:“图像捕获是AI中最难的问题之一。它不仅代表理解场景中的对象,还包括它们之间的交互方式,以及如何描述它们。”精细的字幕技术可以为每个用户提供帮助:它使在搜索引擎中查找所需图像变得更加容易;对于视障用户,它可以使浏览网络和软件变得更加出色。

看到公司吹捧他们的AI研究创新并不少见,但是将这些发现迅速部署到运输产品中却很少见。Azure AI认知服务的CTO Huang Xuedong出于对用户的潜在好处,推动将其迅速集成到Azure中。他的团队使用标记有特定关键字的图像对模型进行了训练,这有助于使它成为大多数AI框架所没有的视觉语言。通常,这些类型的模型是使用图像和完整标题训练的,这使得模型更难于学习特定对象的交互方式。

“视觉词汇预训练本质上是训练系统所需的教育;我们正在尝试教育这种运动记忆,”黄在博客文章中说。这就是这种新模型在nocaps基准测试中的优势,该基准测试侧重于确定AI可以如何为字幕创建字幕,这些字幕从未见过。

但是,尽管要打破基准很重要,但微软新模型的真正考验将是它在现实世界中的功能。据博伊德说,Seeing AI开发人员Saqib Shaik也在自己的盲人手中推动了Microsoft的更大可访问性,他说这是对他们先前产品的巨大改进。既然微软已经设定了一个新的里程碑,那么有趣的是,看看来自Google和其他研究人员的竞争模型也将如何竞争。

责任编辑:lq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 微软
    +关注

    关注

    4

    文章

    6246

    浏览量

    103077
  • 机器人
    +关注

    关注

    206

    文章

    27033

    浏览量

    201401
  • AI
    AI
    +关注

    关注

    87

    文章

    26443

    浏览量

    264044
收藏 人收藏

    评论

    相关推荐

    AI女友比AI男友更受欢迎?前者是后者的700%+

    生成式 AI 催生了各种新的应用类别,但其中最大的影响之一是重新激活了 AI 约会和陪伴……
    的头像 发表于 03-18 09:07 149次阅读

    cycx3_uvc_ov5640如何添加Method 1支持的静态图像捕获功能?

    根据例程 cycx3_uvc_ov5640可以实现 Method 2拍照功能,我们的设备需要按键拍照功能,请问如何添加 Method 1 支持的静态图像捕获功能,如何实现此功能?
    发表于 03-06 06:10

    基于紫光同创FPGA的图像采集及AI加速(盘古50K开发板)

    基于紫光同创FPGA的图像采集及AI加速(盘古50K开发板)
    发表于 11-03 11:02

    思特威AI系列再添三款全性能升级图像传感器新品

    近日,技术先进的CMOS图像传感器供应商思特威(SmartSens),重磅推出三款全新升级AI系列图像传感器新品——SC235AI/SC435AI
    发表于 10-26 17:46 604次阅读
    思特威<b class='flag-5'>AI</b>系列再添三款全性能升级<b class='flag-5'>图像</b>传感器新品

    如何使用M480 GPIO捕获CMOS传感器图像数据

    应用:本代码使用 M480 GPIO 捕获 CMOS 传感器图像数据。 BSP 版本:M480系列BSP CMSIS V3.03.000 硬件: NuMaker-IoT-M487 v1.2 这
    发表于 08-29 06:32

    使用M480 GPIO捕获CMOS传感器图像数据

    应用:本代码使用 M480 GPIO 捕获 CMOS 传感器图像数据。 BSP 版本:M480系列BSP CMSIS V3.03.000 硬件: NuMaker-IoT-M487 v1.2 这
    发表于 08-22 06:31

    最难ai取代的职业

    最难ai取代的职业 “最难AI取代的职业”究竟是哪些?这是个众所周知的话题,因为随着人工智能技术的不断发展,它似乎已经到了任何职业都有可能被AI
    的头像 发表于 08-15 16:22 372次阅读

    从NodeMCU捕获数据并将其发送到Thingsio.ai

    电子发烧友网站提供《从NodeMCU捕获数据并将其发送到Thingsio.ai云.zip》资料免费下载
    发表于 07-12 10:50 0次下载
    从NodeMCU<b class='flag-5'>捕获</b>数据并将其发送到Thingsio.<b class='flag-5'>ai</b>云

    AI图像放大技术的演变

    AI图像放大技术是将低分辨率图像转换为高分辨率图像的过程,其通过将低分辨率图像输入深度学习模型来预测生成高分辨率
    的头像 发表于 07-04 15:20 631次阅读

    虹软图像深度恢复技术与生成式AI的创新 生成式AI助力

    当前,生成式人工智能(AI)技术的快速发展令人瞩目。它能够理解人类的描述,并在短时间内生成逼真的图像和视频。在生成式AI的应用中,图像深度信息具有重要的价值,准确的深度
    发表于 06-21 09:06 309次阅读

    请问芯片设计上最难的是ADC和DAC吗?

    昨天听别人说芯片设计中最难的是ADC和DAC
    发表于 06-19 08:00

    AI视觉检测在工业领域的应用

    随着制造业的智能化、自动化程度越来越高,AI视觉检测系统已经成为种重要的智能制造设备,它能够大幅提高生产线上的检测能力和效率。 AI视觉检测系统的作用 工业
    发表于 06-15 16:21

    树莓派与QT上位机的实时图像传输实例

    其中QT上位机作为服务器端,通过socket监听特定端口,当有设备连入时,会产生相应的信号,我们捕获此信号并且自定义槽函数来进行数据接收,当接收到完整的一帧图像信息后,将图像数据流复原成图像
    发表于 05-26 16:58 3次下载
    树莓派与QT上位机的实时<b class='flag-5'>图像</b>传输实例

    基于稀疏分解的高光谱图像压缩方法

    高光谱图像压缩技术已经成为图像处理应用领域中最热点的领域之一,在许多领域都具备实际应用价值与发展前景。但
    的头像 发表于 05-20 17:03 828次阅读
    基于稀疏分解的高光谱<b class='flag-5'>图像</b>压缩方法

    MIMXRT1170捕获图像并将图像保存在SD卡中,无法继续进行的原因?

    我在 MIMXRT1170 中编码,我正在尝试捕获图像并将图像保存在 SD卡中。 我发现最后的数据将在 s_lcdBuffer[] & s_cameraBuffer[] 中可用。 但我无法继续进行。
    发表于 05-06 06:55