0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

图像捕获是AI中最难的问题之一

倩倩 来源:新经网 作者:新经网 2020-10-15 14:03 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

长期以来,AI的目标就是准确地描述图像,而不仅仅是像笨拙的机器人。谷歌在2016年表示,其人工智能可以为人类提供几乎与人类一样的字幕图像,准确度达到94%。现在,微软表示,它走得更远:它的研究人员建立了一个AI系统,甚至比人类更准确-以至于现在坐上了榜首的nocaps图像字幕标杆。微软声称其自2015年以来一直使用的图像字幕模型要好两倍。

尽管这本身就是一个显着的里程碑,但微软不仅仅是将这项技术保留在自己手中。现在,它作为Azure认知服务的一部分提供了新的字幕模型,因此任何开发人员都可以将其引入他们的应用程序中。今天,它也可以在Seeing AI中使用,Seeing AI是面向盲人和视障用户的Microsoft应用程序,可以描述周围的世界。今年下半年,字幕模型还将改善您在PowerPoint中针对Web,Windows和Mac的演示文稿。它还会在桌面平台的Word和Outlook中弹出。

Azure AI的CVP Eric Boyd在接受Engadget采访时说:“图像捕获是AI中最难的问题之一。它不仅代表理解场景中的对象,还包括它们之间的交互方式,以及如何描述它们。”精细的字幕技术可以为每个用户提供帮助:它使在搜索引擎中查找所需图像变得更加容易;对于视障用户,它可以使浏览网络和软件变得更加出色。

看到公司吹捧他们的AI研究创新并不少见,但是将这些发现迅速部署到运输产品中却很少见。Azure AI认知服务的CTO Huang Xuedong出于对用户的潜在好处,推动将其迅速集成到Azure中。他的团队使用标记有特定关键字的图像对模型进行了训练,这有助于使它成为大多数AI框架所没有的视觉语言。通常,这些类型的模型是使用图像和完整标题训练的,这使得模型更难于学习特定对象的交互方式。

“视觉词汇预训练本质上是训练系统所需的教育;我们正在尝试教育这种运动记忆,”黄在博客文章中说。这就是这种新模型在nocaps基准测试中的优势,该基准测试侧重于确定AI可以如何为字幕创建字幕,这些字幕从未见过。

但是,尽管要打破基准很重要,但微软新模型的真正考验将是它在现实世界中的功能。据博伊德说,Seeing AI开发人员Saqib Shaik也在自己的盲人手中推动了Microsoft的更大可访问性,他说这是对他们先前产品的巨大改进。既然微软已经设定了一个新的里程碑,那么有趣的是,看看来自Google和其他研究人员的竞争模型也将如何竞争。

责任编辑:lq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 微软
    +关注

    关注

    4

    文章

    6722

    浏览量

    107358
  • 机器人
    +关注

    关注

    213

    文章

    30600

    浏览量

    219655
  • AI
    AI
    +关注

    关注

    89

    文章

    38153

    浏览量

    296808
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    【飞凌OK-MX9596-C开发板试用】③云端AI拍照识别

    【飞凌OK-MX9596-C开发板试用】②体验WIFI、蓝牙、音频、视频,为AI应用打下基础 - 飞凌嵌入式 - 电子技术论坛 - 广受欢迎的专业电子论坛! 在上帖子中,我们测试了摄像头拍照
    发表于 11-01 22:12

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI芯片的需求和挑战

    AI的应用多种多样。比如:DALL-E2、Midjourney、Stable Diffusion等,不仅包括对话功能,还包括生成图像、视频、语音和程序代码等功能。 竟然连代码都可以生成,会取代程序员
    发表于 09-12 16:07

    【Sipeed MaixCAM Pro开发板试用体验】基于MaixCAM-Pro的AI生成图像鉴别系统

    能够有效捕捉AI生成图像与真实手绘扫描图像在纹理、笔触、光影、全局致性等方面的细微差异。 边缘端部署:将模型量化、编译,最终高效运行在算力有限的MaixCAM-Pro开发板上。 实时
    发表于 08-21 13:59

    AI 芯片浪潮下,职场晋升新契机?

    芯片设计为例,从最初的架构选型,到算法适配、性能优化,每个环节都考验着工程师的专业素养。在设计款面向智能安防领域的 AI 芯片时,需要深入研究安防场景下图像识别算法的特点,针对性地优化芯片架构,提升
    发表于 08-19 08:58

    NVIDIA RTX AI加速FLUX.1 Kontext系列图像模型

    Black Forest Labs,作为全球顶尖 AI 研究实验室之一,为图像生成领域带来颠覆性变革。
    的头像 发表于 08-05 16:27 1018次阅读
    NVIDIA RTX <b class='flag-5'>AI</b>加速FLUX.1 Kontext系列<b class='flag-5'>图像</b>模型

    示波器波形捕获率的定义和作用

    波形捕获率(Waveform Capture Rate)是数字示波器的关键指标之一,指单位时间内示波器能够捕获并显示波形的次数,通常以“次/秒”或“帧/秒”为单位。其本质是衡量示波器在单位时间内对信号变化的响应能力。
    的头像 发表于 08-04 15:20 1130次阅读

    大家都在用什么AI软件?有没有好用的免费的AI软件推荐下?

    大家都在用什么AI软件?有没有好用的免费的AI软件推荐下?直接发个安装包,谢谢。比如deepseek、Chatgpt、豆包、阿里AI、百度AI
    发表于 07-09 18:30

    最新人工智能硬件培训AI基础入门学习课程参考2025版(离线AI语音视觉识别篇)

    端侧离线 AI 智能硬件作为 AI 技术的重要载体之一,凭借其无需依赖网络即可实现智能功能的特性,在些网络条件受限或对数据隐私有较高要求的场景中,发挥着不可或缺的作用。本章基于CSK
    发表于 07-04 11:14

    CX3显示RAW12图像错误的原因?

    我想通过CX3065从FPGA捕获MIPI图像,我可以切换4种分辨率并通过开始捕获显示图像,但片刻之后,我的UVC_App显示的图像是错误的
    发表于 05-16 07:49

    【「零基础开发AI Agent」阅读体验】+读《零基础开发AI Agent》掌握扣子平台开发智能体方法

    收到发烧友网站寄来的《零基础开发AI Agent》这本书已经有好些天了,这段时间有幸拜读了下全书,掌握了个开发智能体的方法。 该书充分从零基础入手,先阐述了Agent是什么,它的基本概念和知识
    发表于 05-14 19:51

    使用STM32捕获PWM时同时捕获2个通道时会出现捕获的频率值不准,为什么?

    在使用STM32F103芯片的2个定时器捕获2路PWM波时,当2路信号同时输入时,会出现捕获的频率不准确,但是分开路的输入捕获时,
    发表于 04-22 10:43

    泰克MDO3052示波器波形捕获率评测

    能力,为用户提供选型参考。 、波形捕获率的核心价值与技术原理 波形捕获率是示波器在单位时间内捕获并处理波形的次数,直接影响异常信号的捕获
    的头像 发表于 04-02 11:49 740次阅读
    泰克MDO3052示波器波形<b class='flag-5'>捕获</b>率评测

    芯原推出新代集成AI的ISP9000图像信号处理器,赋能智能视觉应用

    芯原股份今日发布其ISP9000系列图像信号处理器(ISP)IP——面向日益增长的智能视觉应用需求而打造的新AI ISP解决方案。ISP9000采用灵活的AI优化架构,提供卓越的
    的头像 发表于 04-02 10:43 669次阅读

    中科亿海微SoM模组——AI图像推理解决方案

    随着AI技术的快速发展,AI图像推理作为种高效、智能的图像处理技术,已成为推动各行业数字化转型和智能化升级的关键。它凭借强大的
    的头像 发表于 03-27 13:48 650次阅读
    中科亿海微SoM模组——<b class='flag-5'>AI</b><b class='flag-5'>图像</b>推理解决方案

    图像采集卡:现代图像处理技术的关键组件

    直接影响到图像的质量和处理效率。本文将系统探讨图像采集卡的定义、工作原理、应用领域以及未来发展趋势。图像采集卡的定义图像采集卡,通常被称
    的头像 发表于 02-20 10:42 936次阅读
    <b class='flag-5'>图像</b>采集卡:现代<b class='flag-5'>图像</b>处理技术的关键组件