0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

微软开发了一种新的AI图像字幕算法

姚小熊27 来源:cnBeta.COM 作者:cnBeta.COM 2020-10-15 14:09 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

微软开发了一种新的图像字幕算法,在某些有限的测试中,其准确率超过了人类。该人工智能系统已被用于更新该公司为视障人士提供的助理应用程序 “Seeing AI”,并将很快被纳入Word、Outlook和PowerPoint等其他微软产品中。在那里,它将被用于为图像创建alt文本等任务,这一功能对于提高无障碍性尤为重要。

这些应用包括微软自己的Seeing AI,该公司于2017年首次发布。Seeing AI利用计算机视觉为视障人士描述通过智能手机摄像头看到的世界。它可以识别家庭物品,阅读和扫描文本,描述场景,甚至识别朋友。它还可以用来描述其他应用中的图像,包括电子邮件客户端、社交媒体应用和WhatsApp等消息应用。

微软没有披露Seeing AI的用户数量,但Azure AI的企业副总裁Eric Boyd告诉The Verge,该软件是 “为盲人或低视力人士提供的领先应用之一”。Seeing AI已经连续三年被盲人和低视力iOS用户社区AppleVis评选为最佳应用或最佳辅助应用。

微软新的图像字幕算法将显著提高Seeing AI的性能,因为它不仅能识别物体,还能更精确地描述它们之间的关系。因此,该算法可以在看一张图片时,不仅能说出图片中包含哪些物品和物体(如 “一个人、一把椅子、一个手风琴”),还能说出它们之间的互动关系(如 “一个人坐在椅子上,正在拉手风琴”)。微软表示,该算法是其之前自2015年开始使用的图像字幕系统的两倍。

该算法在9月份发表的一篇预印论文中进行了描述,在一个被称为 “nocaps ”的图像字幕基准测试上取得了有史以来最高的分数。这是一个业界领先的图像字幕评分板,不过它有自己的限制条件。nocaps基准测试由超过166,000个人类生成的字幕组成,描述了从Open Images Dataset中提取的约15,100张图片。这些图片涵盖了一系列场景,从运动到假日抓拍,再到美食摄影等等。
责任编辑:YYX

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 微软
    +关注

    关注

    4

    文章

    6752

    浏览量

    108076
  • AI
    AI
    +关注

    关注

    91

    文章

    41073

    浏览量

    302573
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    Vibe Coding AI全栈开发实战

    Vibe Coding AI全栈:效率翻倍的开发新方式 在科技飞速发展的当下,软件开发领域正经历着场深刻的变革。传统的编程模式逐渐被一种
    发表于 04-15 16:02

    使用Firebase AI Logic生成图像模型的两新功能

    为您的应用添加自定义图像,能够显著改善和个性化用户体验,有效提高用户参与度。本文将探讨使用 Firebase AI Logic 生成图像的两新功能: 其
    的头像 发表于 11-30 09:28 550次阅读

    【飞凌OK-MX9596-C开发板试用】③云端AI拍照识别

    【飞凌OK-MX9596-C开发板试用】②体验WIFI、蓝牙、音频、视频,为AI应用打下基础 - 飞凌嵌入式 - 电子技术论坛 - 广受欢迎的专业电子论坛! 在上帖子中,我们测试了摄像头拍照
    发表于 11-01 22:12

    使用Otsu阈值算法将灰度图像二值化

    Otsu 算法是由日本学者OTSU于1979年提出的一种图像进行二值化的高效算法,又称“最大类间方差法”。当我们对个图象进行二值化操作的
    发表于 10-28 06:49

    基于FPGA的CLAHE图像增强算法设计

    CLAHE图像增强算法又称为对比度有限的自适应直方图均衡算法,其算法原理是通过有限的调整图像局部对比度来增强有效信号和抑制噪声信号。
    的头像 发表于 10-15 10:14 794次阅读
    基于FPGA的CLAHE<b class='flag-5'>图像</b>增强<b class='flag-5'>算法</b>设计

    微软Visual Studio 2026 发布!AI 深度融合、性能提升

    与高效开发体验。  ”    微软刚刚放出了个重磅炸弹: Visual Studio 2026 Insiders 预览版  已经正式发布! 这是次雄心勃勃的进化,
    的头像 发表于 09-16 11:17 2338次阅读
    <b class='flag-5'>微软</b>Visual Studio 2026 发布!<b class='flag-5'>AI</b> 深度融合、性能提升

    【「AI芯片:科技探索与AGI愿景」阅读体验】+化学或生物方法实现AI

    的忆阻器、MAC计算单元及存储器 可以利用液体的流体力学特征做个纳米级微流体系统,用水柱来实现逻辑门。 ①用有机聚合物溶液实现互连、忆阻器和神经网络 有机聚合物计算通常被归类为化学计算。 有一种有机
    发表于 09-15 17:29

    【「AI芯片:科技探索与AGI愿景」阅读体验】+第二章 实现深度学习AI芯片的创新方法与架构

    的时间缩短、效率提升的硬件架构非常重要。因此存内加速方案,X-Former应运而生。它是一种混合存内计算架构,结合了NVM和基于互补金属氧化物半导体(CMOS)的处理元件。 架构如下: 2.2 闪存AI
    发表于 09-12 17:30

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI芯片的需求和挑战

    的我我们讲解了这几种芯片的应用场景,设计流程、结构等。 CPU: 还为我们讲解了一种算法:哈希表算法 GPU: 介绍了英伟达H100GPU芯片。使用了下关键技术: ①张量
    发表于 09-12 16:07

    模板驱动 无需训练数据 SmartDP解决小样本AI算法模型开发难题

    算法作为软实力,其水平直接影响着目标检测识别的能力。两年前,慧视光电推出了零基础的基于yolo系列算法架构的AI算法开发平台SpeedDP,
    的头像 发表于 09-09 17:57 1551次阅读
    模板驱动  无需训练数据  SmartDP解决小样本<b class='flag-5'>AI</b><b class='flag-5'>算法</b>模型<b class='flag-5'>开发</b>难题

    【Sipeed MaixCAM Pro开发板试用体验】基于MaixCAM-Pro的AI生成图像鉴别系统

    能够有效捕捉AI生成图像与真实手绘扫描图像在纹理、笔触、光影、全局致性等方面的细微差异。 边缘端部署:将模型量化、编译,最终高效运行在算力有限的MaixCAM-Pro
    发表于 08-21 13:59

    Nordic收购 Neuton.AI 关于产品技术的分析

    Nordic Semiconductor 于 2025 年收购了 Neuton.AI,这是家专注于超小型机器学习(TinyML)解决方案的公司。 Neuton 开发了一种独特的神经网
    发表于 06-28 14:18

    新思科技携手微软借助AI技术加速芯片设计

    近日,微软Build大会在西雅图盛大开幕,聚焦AI在加速各行业(包括芯片设计行业)科学突破方面的变革潜力。作为Microsoft Discovery平台发布的启动合作伙伴,新思科技亮相本次大会,并携手微软
    的头像 发表于 06-27 10:23 1273次阅读

    在 KiCad 中添加AI 助手是一种什么体验?

    一种什么体验? 文章出处:【微信公众号:KiCad】欢迎添加关注!文章转载请注明出处。
    的头像 发表于 05-15 14:28 1137次阅读

    【「零基础开发AI Agent」阅读体验】+读《零基础开发AI Agent》掌握扣子平台开发智能体方法

    收到发烧友网站寄来的《零基础开发AI Agent》这本书已经有好些天了,这段时间有幸拜读了下全书,掌握了开发智能体的方法。 该书充分从
    发表于 05-14 19:51