0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

微软新AI项目为文档和电子邮件的图像添加字幕

姚小熊27 来源:人工智能实验室 作者:人工智能实验室 2020-11-18 10:54 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

微软的一项新AI项目旨在自动为文档和电子邮件中的图像添加字幕,以便视觉障碍软件读取图像。

微软的研究人员在有关预印本存储库arXiv的论文中解释了他们的机器学习模型的原理。

该模型使用可视语音词汇预训练(VIVO),它利用大量成对的图像标签数据来学习视觉词汇。然后,使用带有适当字幕的图像的第二个数据以帮助教AI如何最好地描述图片。

“理想情况下,每个人都应在文档,网络,社交媒体中为所有图像添加替代文本,因为这可以使盲人访问内容并参与对话。但是,可惜,人们却没有。”微软AI平台小组的软件工程经理Saqib Shaikh说。

总体而言,研究人员希望AI能够提供Microsoft现有字幕系统两倍的性能。

为了对新AI的性能进行基准测试,研究人员将其纳入了“无上限”挑战。在撰写本文时,Microsoft的AI现在在其排行榜上排名第一。

“无上限的挑战实际上是如何描述您在训练数据中没有看到的那些新颖的物体?”微软研究实验室的首席研究经理王丽娟评论道。

希望使用Microsoft自动字幕AI来构建应用程序的开发人员已经可以这样做,因为Azure Cognitive Services的Computer Vision软件包中提供了该功能。

微软令人印象深刻的SeeingAI应用程序将使用新的AI进行更新,该应用程序使用计算机视觉描述视力障碍者的周围环境。

“图像字幕是可以实现广泛服务的核心计算机视觉功能之一,”Azure AI认知服务的CTO黄表示。

黄继续说:“我们AI的这一突破以Azure为平台,以服务于更多客户。” “这不仅是研究上的突破;在Azure上将突破转化为生产所需的时间也是突破。”

改进的自动字幕功能也有望在今年晚些时候在Outlook,Word和PowerPoint中使用。
责任编辑:YYX

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 微软
    +关注

    关注

    4

    文章

    6754

    浏览量

    108098
  • AI
    AI
    +关注

    关注

    91

    文章

    41315

    浏览量

    302691
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    AI辅助编程设计之道:从Spec到Code工程实践

    设计还不够细,需要继续补充细节。这是一种探索式、反馈式的设计过程。 三、设计文档中需要明确的几个要素 从多个项目的实践经验来看,设计文档要有效支撑AI代码生成,通常需要包含以下几个层面
    发表于 03-16 13:33

    【瑞萨AI挑战赛】家庭AI相框

    推理,提取更贴近用户理解的语义结果。 交互表达层 :将 AI 结果转化为直观的视觉反馈,而不是停留在串口日志。 本项目当前以三类内容原型验证集:DOG、CAR、FOUNTAIN。它们并不是终局类别,而是
    发表于 03-13 21:44

    使用NORDIC AI的好处

    提升能效,适合音频、图像和高采样率传感器等更重的 AI 负载。[Axon NPU 技术页] 模型更小、更快、更省电 Neuton 模型相较 TensorFlow Lite:* 内存占用可小 10
    发表于 01-31 23:16

    20个常用服务端口及对应服务信息

    和执行命令。 (3) 端口号:23 服务名称:Telnet 服务描述:用于远程登录到远程主机并执行命令。 (4) 端口号:25 服务名称:SMTP 服务描述:简单邮件传输协议,用于发送电子邮件
    发表于 12-03 06:07

    使用Firebase AI Logic生成图像模型的两种新功能

    您的应用添加自定义图像,能够显著改善和个性化用户体验,有效提高用户参与度。本文将探讨使用 Firebase AI Logic 生成图像的两
    的头像 发表于 11-30 09:28 572次阅读

    微软Visual Studio 2026 发布!AI 深度融合、性能提升

    “  微软发布 Visual Studio 2026 预览版,新版本以深度融合的 AI Copilot 核心,结合全新的 Fluent Design 界面与显著的性能提升,旨在打造前所未有的智能
    的头像 发表于 09-16 11:17 2377次阅读
    <b class='flag-5'>微软</b>Visual Studio 2026 发布!<b class='flag-5'>AI</b> 深度融合、性能提升

    NVIDIA硅光技术助力迈向百万GPU AI工厂

    在全球范围内,AI 工厂正在崛起 —— 大量的这些新型数据中心并非提供网页或电子邮件服务而建,而是用于训练和部署智能本身。互联网巨头们已经其客户在
    的头像 发表于 08-27 12:34 1409次阅读

    【Sipeed MaixCAM Pro开发板试用体验】基于MaixCAM-Pro的AI生成图像鉴别系统

    图像的快速鉴别,满足实时或准实时的应用需求。 3. 数据采集 AI图片数据集,本项目使用gemini生成图片,使用的是gem来实现的。 提示词如下 你是一个能够生成美术绘本风格插画的智能Agent
    发表于 08-21 13:59

    AI 芯片浪潮下,职场晋升新契机?

    芯片设计例,从最初的架构选型,到算法适配、性能优化,每个环节都考验着工程师的专业素养。在设计一款面向智能安防领域的 AI 芯片时,需要深入研究安防场景下图像识别算法的特点,针对性地优化芯片架构,提升
    发表于 08-19 08:58

    任正非说 AI已经确定是第四次工业革命 那么如何从容地加入进来呢?

    实践。 开源项目贡献代码或者文档。比如,帮助完善一个机器学习数据集的加载模块的代码,或者撰写某个AI算法的使用说明文档。这不仅可以提升自己
    发表于 07-08 17:44

    新思科技携手微软借助AI技术加速芯片设计

    近日,微软Build大会在西雅图盛大开幕,聚焦AI在加速各行业(包括芯片设计行业)科学突破方面的变革潜力。作为Microsoft Discovery平台发布的启动合作伙伴,新思科技亮相本次大会,并携手微软
    的头像 发表于 06-27 10:23 1288次阅读

    Arm 与微软合作,基于 Arm 架构的 PC 和移动设备应用提供超强 AI 体验

    ArmKleidiAI与ONNXRuntime的集成,Windows和安卓操作系统带来了显著的AI性能优化,实现高达2.6倍的AI推理速度提升,从而加速应用体验。联合作者:Arm终端事业部产品
    的头像 发表于 06-03 16:47 1013次阅读
    Arm 与<b class='flag-5'>微软</b>合作,<b class='flag-5'>为</b>基于 Arm 架构的 PC 和移动设备应用提供超强 <b class='flag-5'>AI</b> 体验

    微软推出多项革新性AI工具

    模型;多智能体协同编排功能重新定义协作模式,支持跨部门智能体团队协同处理复杂任务。微软正将AI技术从工具升级组织核心生产力,重新定义人机协作的未来。
    的头像 发表于 05-26 09:47 1328次阅读

    在 KiCad 中添加一个 AI 助手是一种什么体验?

    原文标题:在 KiCad 中添加一个 AI 助手
    的头像 发表于 05-15 14:28 1162次阅读

    【「零基础开发AI Agent」阅读体验】+读《零基础开发AI Agent》掌握扣子平台开发智能体方法

    储备。然后介绍AI Agen的主流平台,接着说明了扣子平台开发AI Agent的流程和策略,然后对其插件、工作流、图像流、知识库等功能模块进行了详细概述。并就5大场景,11个开发案例分别从功能,使用场
    发表于 05-14 19:51