0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

微软开发了一种新的AI图像字幕算法

姚小熊27 来源:cnBeta.COM 作者:cnBeta.COM 2020-10-15 14:09 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

微软开发了一种新的图像字幕算法,在某些有限的测试中,其准确率超过了人类。该人工智能系统已被用于更新该公司为视障人士提供的助理应用程序 “Seeing AI”,并将很快被纳入Word、Outlook和PowerPoint等其他微软产品中。在那里,它将被用于为图像创建alt文本等任务,这一功能对于提高无障碍性尤为重要。

这些应用包括微软自己的Seeing AI,该公司于2017年首次发布。Seeing AI利用计算机视觉为视障人士描述通过智能手机摄像头看到的世界。它可以识别家庭物品,阅读和扫描文本,描述场景,甚至识别朋友。它还可以用来描述其他应用中的图像,包括电子邮件客户端、社交媒体应用和WhatsApp等消息应用。

微软没有披露Seeing AI的用户数量,但Azure AI的企业副总裁Eric Boyd告诉The Verge,该软件是 “为盲人或低视力人士提供的领先应用之一”。Seeing AI已经连续三年被盲人和低视力iOS用户社区AppleVis评选为最佳应用或最佳辅助应用。

微软新的图像字幕算法将显著提高Seeing AI的性能,因为它不仅能识别物体,还能更精确地描述它们之间的关系。因此,该算法可以在看一张图片时,不仅能说出图片中包含哪些物品和物体(如 “一个人、一把椅子、一个手风琴”),还能说出它们之间的互动关系(如 “一个人坐在椅子上,正在拉手风琴”)。微软表示,该算法是其之前自2015年开始使用的图像字幕系统的两倍。

该算法在9月份发表的一篇预印论文中进行了描述,在一个被称为 “nocaps ”的图像字幕基准测试上取得了有史以来最高的分数。这是一个业界领先的图像字幕评分板,不过它有自己的限制条件。nocaps基准测试由超过166,000个人类生成的字幕组成,描述了从Open Images Dataset中提取的约15,100张图片。这些图片涵盖了一系列场景,从运动到假日抓拍,再到美食摄影等等。
责任编辑:YYX

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 微软
    +关注

    关注

    4

    文章

    6719

    浏览量

    107331
  • AI
    AI
    +关注

    关注

    89

    文章

    38086

    浏览量

    296406
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    使用Otsu阈值算法将灰度图像二值化

    Otsu 算法是由日本学者OTSU于1979年提出的一种图像进行二值化的高效算法,又称“最大类间方差法”。当我们对个图象进行二值化操作的
    发表于 10-28 06:49

    基于FPGA的CLAHE图像增强算法设计

    CLAHE图像增强算法又称为对比度有限的自适应直方图均衡算法,其算法原理是通过有限的调整图像局部对比度来增强有效信号和抑制噪声信号。
    的头像 发表于 10-15 10:14 388次阅读
    基于FPGA的CLAHE<b class='flag-5'>图像</b>增强<b class='flag-5'>算法</b>设计

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI芯片的需求和挑战

    的我我们讲解了这几种芯片的应用场景,设计流程、结构等。 CPU: 还为我们讲解了一种算法:哈希表算法 GPU: 介绍了英伟达H100GPU芯片。使用了下关键技术: ①张量
    发表于 09-12 16:07

    模板驱动 无需训练数据 SmartDP解决小样本AI算法模型开发难题

    算法作为软实力,其水平直接影响着目标检测识别的能力。两年前,慧视光电推出了零基础的基于yolo系列算法架构的AI算法开发平台SpeedDP,
    的头像 发表于 09-09 17:57 1157次阅读
    模板驱动  无需训练数据  SmartDP解决小样本<b class='flag-5'>AI</b><b class='flag-5'>算法</b>模型<b class='flag-5'>开发</b>难题

    【Sipeed MaixCAM Pro开发板试用体验】基于MaixCAM-Pro的AI生成图像鉴别系统

    能够有效捕捉AI生成图像与真实手绘扫描图像在纹理、笔触、光影、全局致性等方面的细微差异。 边缘端部署:将模型量化、编译,最终高效运行在算力有限的MaixCAM-Pro
    发表于 08-21 13:59

    Nordic收购 Neuton.AI 关于产品技术的分析

    Nordic Semiconductor 于 2025 年收购了 Neuton.AI,这是家专注于超小型机器学习(TinyML)解决方案的公司。 Neuton 开发了一种独特的神经网
    发表于 06-28 14:18

    在 KiCad 中添加AI 助手是一种什么体验?

    一种什么体验? 文章出处:【微信公众号:KiCad】欢迎添加关注!文章转载请注明出处。
    的头像 发表于 05-15 14:28 614次阅读

    【「零基础开发AI Agent」阅读体验】+读《零基础开发AI Agent》掌握扣子平台开发智能体方法

    收到发烧友网站寄来的《零基础开发AI Agent》这本书已经有好些天了,这段时间有幸拜读了下全书,掌握了开发智能体的方法。 该书充分从
    发表于 05-14 19:51

    基于RV1126开发板的AI算法开发流程

    AI算法开发流程由需求分析到准备数据,然后到选取模型,训练模型,接着模型转换后进行模型部署
    的头像 发表于 04-18 14:03 2029次阅读
    基于RV1126<b class='flag-5'>开发</b>板的<b class='flag-5'>AI</b><b class='flag-5'>算法</b><b class='flag-5'>开发</b>流程

    基于RV1126开发板的AI算法开发流程

    AI算法开发流程由需求分析到准备数据,然后到选取模型,训练模型,接着模型转换后进行模型部署
    的头像 发表于 04-18 10:47 839次阅读
    基于RV1126<b class='flag-5'>开发</b>板的<b class='flag-5'>AI</b><b class='flag-5'>算法</b><b class='flag-5'>开发</b>流程

    AI算法托管平台是什么

    AI算法托管平台是一种提供AI模型运行、管理和优化等服务的云端或边缘计算平台。下面,AI部落小编带您详细了解
    的头像 发表于 03-06 10:22 836次阅读

    AI Agent 应用与项目实战》----- 学习如何开发视频应用

    再次感谢发烧友提供的阅读体验活动。本期跟随《AI Agent 应用与项目实战》这本书学习如何构建开发个视频应用。AI Agent是一种智能
    发表于 03-05 19:52

    微软AI开发者挑战赛即将开启

    人工智能,正在重塑世界。2 月 5 日至 4 月 23 日,加入我们,共赴场聚焦 AI 技术的开发者挑战赛!在这里,创意、技术和无限可能将碰撞出耀眼火花。无论你是开发新秀还是经验丰富
    的头像 发表于 02-12 16:18 667次阅读

    微软或将Windows11开发重心偏向AI

    据报道,科技媒体 Windows Latest 于 1 月 21 日 报道认为 微软已将 Windows 11 系统的开发重心放在 AI 应用方面。相关表现和举措如下: 功能更新方面:在 2024
    的头像 发表于 01-22 11:09 963次阅读

    微软起诉绕过云AI安全工具开发

    微软公司近期针对某组织提起了宗法律诉讼,指控该组织故意开发并使用非法工具,以绕过微软AI产品的安全防护措施。这
    的头像 发表于 01-13 14:46 725次阅读