0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

微软新AI项目为文档和电子邮件的图像添加字幕

姚小熊27 来源:人工智能实验室 作者:人工智能实验室 2020-11-18 10:54 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

微软的一项新AI项目旨在自动为文档和电子邮件中的图像添加字幕,以便视觉障碍软件读取图像。

微软的研究人员在有关预印本存储库arXiv的论文中解释了他们的机器学习模型的原理。

该模型使用可视语音词汇预训练(VIVO),它利用大量成对的图像标签数据来学习视觉词汇。然后,使用带有适当字幕的图像的第二个数据以帮助教AI如何最好地描述图片。

“理想情况下,每个人都应在文档,网络,社交媒体中为所有图像添加替代文本,因为这可以使盲人访问内容并参与对话。但是,可惜,人们却没有。”微软AI平台小组的软件工程经理Saqib Shaikh说。

总体而言,研究人员希望AI能够提供Microsoft现有字幕系统两倍的性能。

为了对新AI的性能进行基准测试,研究人员将其纳入了“无上限”挑战。在撰写本文时,Microsoft的AI现在在其排行榜上排名第一。

“无上限的挑战实际上是如何描述您在训练数据中没有看到的那些新颖的物体?”微软研究实验室的首席研究经理王丽娟评论道。

希望使用Microsoft自动字幕AI来构建应用程序的开发人员已经可以这样做,因为Azure Cognitive Services的Computer Vision软件包中提供了该功能。

微软令人印象深刻的SeeingAI应用程序将使用新的AI进行更新,该应用程序使用计算机视觉描述视力障碍者的周围环境。

“图像字幕是可以实现广泛服务的核心计算机视觉功能之一,”Azure AI认知服务的CTO黄表示。

黄继续说:“我们AI的这一突破以Azure为平台,以服务于更多客户。” “这不仅是研究上的突破;在Azure上将突破转化为生产所需的时间也是突破。”

改进的自动字幕功能也有望在今年晚些时候在Outlook,Word和PowerPoint中使用。
责任编辑:YYX

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 微软
    +关注

    关注

    4

    文章

    6723

    浏览量

    107361
  • AI
    AI
    +关注

    关注

    90

    文章

    38188

    浏览量

    296982
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    20个常用服务端口及对应服务信息

    和执行命令。 (3) 端口号:23 服务名称:Telnet 服务描述:用于远程登录到远程主机并执行命令。 (4) 端口号:25 服务名称:SMTP 服务描述:简单邮件传输协议,用于发送电子邮件
    发表于 12-03 06:07

    使用Firebase AI Logic生成图像模型的两种新功能

    您的应用添加自定义图像,能够显著改善和个性化用户体验,有效提高用户参与度。本文将探讨使用 Firebase AI Logic 生成图像的两
    的头像 发表于 11-30 09:28 220次阅读

    【Sipeed MaixCAM Pro开发板试用体验】基于MaixCAM-Pro的AI生成图像鉴别系统

    图像的快速鉴别,满足实时或准实时的应用需求。 3. 数据采集 AI图片数据集,本项目使用gemini生成图片,使用的是gem来实现的。 提示词如下 你是一个能够生成美术绘本风格插画的智能Agent
    发表于 08-21 13:59

    任正非说 AI已经确定是第四次工业革命 那么如何从容地加入进来呢?

    实践。 开源项目贡献代码或者文档。比如,帮助完善一个机器学习数据集的加载模块的代码,或者撰写某个AI算法的使用说明文档。这不仅可以提升自己
    发表于 07-08 17:44

    Arm 与微软合作,基于 Arm 架构的 PC 和移动设备应用提供超强 AI 体验

    ArmKleidiAI与ONNXRuntime的集成,Windows和安卓操作系统带来了显著的AI性能优化,实现高达2.6倍的AI推理速度提升,从而加速应用体验。联合作者:Arm终端事业部产品
    的头像 发表于 06-03 16:47 731次阅读
    Arm 与<b class='flag-5'>微软</b>合作,<b class='flag-5'>为</b>基于 Arm 架构的 PC 和移动设备应用提供超强 <b class='flag-5'>AI</b> 体验

    微软推出多项革新性AI工具

    模型;多智能体协同编排功能重新定义协作模式,支持跨部门智能体团队协同处理复杂任务。微软正将AI技术从工具升级组织核心生产力,重新定义人机协作的未来。
    的头像 发表于 05-26 09:47 915次阅读

    AI Agent 应用与项目实战》----- 学习如何开发视频应用

    再次感谢发烧友提供的阅读体验活动。本期跟随《AI Agent 应用与项目实战》这本书学习如何构建开发一个视频应用。AI Agent是一种智能应用,能够根据用户需求和环境变化做出相应响应。通常基于深度
    发表于 03-05 19:52

    DLPDLCR3310EVM如何添加1920*1080的图像

    我使用GUI的firmware功能更新Splash images,我添加了四副1920*1080,8位的bmp图像,提示分辨率超过了显示分辨率。经尝试,最大只能添加766*1366的图像
    发表于 02-18 06:49

    The Bat! Voyager便携式电子邮件客户端软件介绍

        The Bat! Voyager是一款便携式电子邮件客户端软件,可以在任何运行 Microsoft Windows 的电脑上通过 USB 或便携式媒体启动。The Bat! Voyager
    的头像 发表于 02-13 11:01 833次阅读

    Spire.Cloud.Word云端Word文档处理SDK介绍

    Microsoft Office。 Spire.Cloud.Word 能执行多种 Word 文档处理任务,包括生成、读取、转换和打印 Word 文档,插入图片,添加页眉和页脚,创建表格,添加
    的头像 发表于 02-11 11:11 801次阅读
    Spire.Cloud.Word云端Word<b class='flag-5'>文档</b>处理SDK介绍

    微软或将Windows11开发重心偏向AI

    年 11 月 1 日开始,微软向 Windows 11 24H2 分批推送 5 大 AI 功能,包括可进行图像相关操作的 ClickToDo、照片超分辨率功能、画图中的生成擦除和填充功能、改进
    的头像 发表于 01-22 11:09 975次阅读

    微软Office引入AI助手Copilot并涨价

    OneNote等常用软件中,体验到由Copilot带来的智能化辅助。 据悉,Copilot作为一款功能强大的AI助手,旨在帮助用户更加高效地完成各种文档编辑、数据分析、演示文稿制作以及邮件处理等任务。其智能化的特性和对用户需求的
    的头像 发表于 01-18 11:29 1236次阅读

    微软与重要伙伴深化AI领域技术合作

    专场活动,展示微软最新的智能云与AI产品解决方案,及生态合作伙伴的创新应用。立足于消费电子行业企业加速拓展全球机遇的迫切需求,微软携手众多知名厂商带来前瞻趋势洞察与实践案例,探索如何应
    的头像 发表于 01-09 16:41 1222次阅读

    ONLYOFFICE工作区:Web捆绑包助力高效团队管理和协作

    式的媒体播放器 可填写的在线表单 用于端到端加密文档协作的私密房间 邮件 让您的邮箱井井有条。在您的域名上创建企业邮箱或使用默认的邮箱。连接多个电子邮件账户,管理和标记邮件。创建签名并
    的头像 发表于 01-06 17:08 1025次阅读
    ONLYOFFICE工作区:Web捆绑包助力高效团队管理和协作

    万里红电子邮件内容保密检查系统的优势

    电子邮件,作为一种更正式、专业的沟通渠道,是党政机关单位处理业务工作中必不可少的通信方式之一。电子邮件传输迅速、使用便捷、长期保存,很多机关单位建设了专有的电子邮件系统,进行公文传递、修改和审批
    的头像 发表于 12-13 10:11 1048次阅读