0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

使用代理式AI激活传统计算机视觉系统的三种方法

NVIDIA英伟达 来源:NVIDIA英伟达 2025-12-01 09:44 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

学习利用视觉语言模型,打造从 AI 驱动的智能搜索到全自动分析的视频解析应用。

当前的计算机视觉系统擅长于识别物理空间与流程中的事件,却难以诠释场景细节及其意义,也无法推理后续可能发生的情况。

由视觉语言模型(VLM) 驱动的代理式 AI,能够解决这一问题。它让团队能够快速、便捷地获取关键的洞见与分析,并将文本描述与时空信息、以及系统每日产生的海量视觉数据无缝衔接。

以下三种方法可助力企业使用代理式 AI 激活传统计算机视觉系统:

  • 运用密集标注技术,生成可搜索的视觉内容
  • 利用详细上下文增强系统警报
  • 借助AI 推理,总结复杂场景中的信息并解答疑问

利用密集标注,实现视觉内容可搜索

传统的卷积神经网络(CNN) 驱动的视频搜索工具受限于有限的训练数据、上下文及语义理解的不足,这导致信息提炼工作必须依赖人工,且既繁琐又耗时。CNN 通常被调优以执行如识别异常之类的视觉任务,但缺乏将其所见转换为文本的多模态能力。

企业可以将 VLM 直接嵌入其现有应用程序中,为图像和视频生成详尽的标注。这些标注能在不受限于文件名或基础标签的情况下,将非结构化内容转化为丰富的、可搜索的元数据,从而实现灵活度远胜以往的视觉搜索。

以自动化车辆检测系统Uveye为例,作为全球规模最大的车辆及零部件数据集之一,它每月处理超过 7 亿张高分辨率图像。通过应用 VLM,Uveye 将这些视觉数据转化为结构化的报告,且能够以高准确性与可靠性,检测出细微的缺陷、改装或异物,以供搜索与分析。

由 VLM 驱动的视觉理解提供了至关重要的上下文,保障了从合规、安全到质控各环节洞察的透明与一致。Uveye 能检测出 96% 的缺陷,比人工检测高出 24%,这使早期干预成为可能,从而减少停机时间并控制维护成本。

Relo Metrics是一家由 AI 驱动的体育营销评估服务商,致力于帮助品牌量化媒体投资价值并优化支出。通过将 VLM 与计算机视觉相结合,Relo Metrics 不仅仅可以做到基础的 Logo 检测,现能够精准捕捉如在比赛“绝杀球”时刻展示的场边广告牌等场景,并将其转化为实时的商业价值。

这种基于环境的洞察能力,通过突显 Logo 在关键高曝光时刻的出现时间和方式,帮助营销人员更清晰地了解投资回报率,并找到优化策略的途径。例如,Stanley Black & Decker 及其旗下的 Dewalt,此前仅依赖赛季末的报告来评估赞助资产的表现,这限制了决策的及时性。现在通过利用 Relo Metrics 获取实时洞察,Stanley Black & Decker 及时调整了广告牌位置,从而挽回了价值 130 万美元的潜在赞助媒体损失。

利用 VLM 推理能力增强计算机视觉系统警报

基于 CNN 的计算机视觉系统通常只生成类似“是或否”、“真或假”的二元的检测警报。缺乏 VLM 的推理能力,往往会导致误报或细节遗漏,从而在安全保障方面引发代价高昂的错误,并造成商业情报的缺失。VLM 无需完全取代现有的 CNN 视觉系统,而是可以作为一个智能附加组件,轻松地对现有系统进行增强。通过在 CNN 系统之上叠加 VLM 层,系统不仅能标记检测警报,还能结合场景语境对事件发生的地点、方式及原因进行复核。

在智慧城市交通管理领域,Linker Vision利用 VLM 验证关键的城市警报,包括:交通事故、洪涝灾害或暴风雨引发的树木及电线杆倒塌。这种方式不仅降低了误报率,还为每起事件补充了关键的背景信息,从而显著提升了市政部门的实时响应效率。

当前的计算机视觉系统擅长于识别物理空间与流程中的事件,却难以诠释场景细节及其意义,也无法推理后续可能发生的情况。

由视觉语言模型(VLM) 驱动的代理式 AI,能够解决这一问题。它让团队能够快速、便捷地获取关键的洞见与分析,并将文本描述与时空信息、以及系统每日产生的海量视觉数据无缝衔接。

以下三种方法可助力企业使用代理式 AI 激活传统计算机视觉系统:

运用密集标注技术,生成可搜索的视觉内容

利用详细上下文增强系统警报

借助AI 推理,总结复杂场景中的信息并解答疑问

利用密集标注,实现视觉内容可搜索

传统的卷积神经网络(CNN) 驱动的视频搜索工具受限于有限的训练数据、上下文及语义理解的不足,这导致信息提炼工作必须依赖人工,且既繁琐又耗时。CNN 通常被调优以执行如识别异常之类的视觉任务,但缺乏将其所见转换为文本的多模态能力。

企业可以将 VLM 直接嵌入其现有应用程序中,为图像和视频生成详尽的标注。这些标注能在不受限于文件名或基础标签的情况下,将非结构化内容转化为丰富的、可搜索的元数据,从而实现灵活度远胜以往的视觉搜索。

以自动化车辆检测系统Uveye为例,作为全球规模最大的车辆及零部件数据集之一,它每月处理超过 7 亿张高分辨率图像。通过应用 VLM,Uveye 将这些视觉数据转化为结构化的报告,且能够以高准确性与可靠性,检测出细微的缺陷、改装或异物,以供搜索与分析。

由 VLM 驱动的视觉理解提供了至关重要的上下文,保障了从合规、安全到质控各环节洞察的透明与一致。Uveye 能检测出 96% 的缺陷,比人工检测高出 24%,这使早期干预成为可能,从而减少停机时间并控制维护成本。

Relo Metrics是一家由 AI 驱动的体育营销评估服务商,致力于帮助品牌量化媒体投资价值并优化支出。通过将 VLM 与计算机视觉相结合,Relo Metrics 不仅仅可以做到基础的 Logo 检测,现能够精准捕捉如在比赛“绝杀球”时刻展示的场边广告牌等场景,并将其转化为实时的商业价值。

这种基于环境的洞察能力,通过突显 Logo 在关键高曝光时刻的出现时间和方式,帮助营销人员更清晰地了解投资回报率,并找到优化策略的途径。例如,Stanley Black & Decker 及其旗下的 Dewalt,此前仅依赖赛季末的报告来评估赞助资产的表现,这限制了决策的及时性。现在通过利用 Relo Metrics 获取实时洞察,Stanley Black & Decker 及时调整了广告牌位置,从而挽回了价值 130 万美元的潜在赞助媒体损失。

利用 VLM 推理能力增强计算机视觉系统警报

基于 CNN 的计算机视觉系统通常只生成类似“是或否”、“真或假”的二元的检测警报。缺乏 VLM 的推理能力,往往会导致误报或细节遗漏,从而在安全保障方面引发代价高昂的错误,并造成商业情报的缺失。VLM 无需完全取代现有的 CNN 视觉系统,而是可以作为一个智能附加组件,轻松地对现有系统进行增强。通过在 CNN 系统之上叠加 VLM 层,系统不仅能标记检测警报,还能结合场景语境对事件发生的地点、方式及原因进行复核。

在智慧城市交通管理领域,Linker Vision利用 VLM 验证关键的城市警报,包括:交通事故、洪涝灾害或暴风雨引发的树木及电线杆倒塌。这种方式不仅降低了误报率,还为每起事件补充了关键的背景信息,从而显著提升了市政部门的实时响应效率。

Linker Vision的代理式 AI 架构能自动分析超过 50,000 路多样化的智慧城市摄像头视频流,以实现跨部门的协同整治。当事件发生时,该系统可协调如交通管制、公共事业及急救响应等多团队展开联合行动。凭借同时查询所有摄像头流的能力,系统能迅速将观察到的现象转化为深刻洞察,给出下一步最佳行动的具体建议。

基于代理式 AI 的复杂场景自动解析

代理式 AI系统能够处理视频流、音频、文本、视频及传感器数据等多种模态的信息,并能对复杂查询进行推理与回答,从而实现对复杂场景的自动化分析。该功能的实现,需结合 VLM、推理模型、大语言模型 (LLM)、检索增强生成 (RAG)、计算机视觉和语音转录等多种技术。

将 VLM 直接集成到现有计算机视觉工作流中,虽能验证关键时刻的短视频片段,但其能力受限于单模型一次可处理的视觉token数量,故而无法理解更长时间周期与外部知识构成的上下文,最终只能提供表面层次的答案。

相比之下,基于代理式 AI 构建的完整架构,则能对冗长、多路的视频档案进行可扩展且精确的处理,实现超越表面理解的更深层、准确和可靠的洞察。此外,该系统还适用于根本原因分析,或处理冗长巡检视频以生成带时间戳洞察的报告。

Levatas利用移动机器人与自主系统,为关键基础设施开发视觉巡检解决方案,致力于提升电力变电站、燃料站、铁路调车场与物流中心等关键基础设施资产的安全性、可靠性与性能。基于 VLM,Levatas 构建了视频分析 AI 智能体,可自动审查巡检影像并起草详细报告,从而极大地优化了这一传统上依赖人工的耗时流程。 Levatas 通过将其 AI 与 Skydio X10 设备集成,为 American Electric Power (AEP) 简化电力基础设施巡检。该方案使 AEP 能够自主巡检电线杆、精准识别热缺陷并检测设备损坏。一旦发现问题,系统会立即向 AEP 团队发送警报,确保快速响应与问题解决,从而保障可靠、清洁且经济高效的能源供应。

Eklipse 是一款利用 VLM 驱动代理的 AI 游戏高光工具,它能通过为直播流添加字幕和索引元数据,实现快速查询、总结并生成精美高光片段,整个过程仅需数分钟,效率高达传统方案的 10 倍,彻底革新了内容消费体验。

基于 NVIDIA 技术构建视频智能体

开发人员可运用NVCLIP、NVIDIA Cosmos Reason与Nemotron Nano V2等多模态 VLM,构建富含元数据的索引,以此实现高级搜索与推理功能。

开发人员若要将 VLM 集成到计算机视觉应用中,可使用NVIDIA 用于视频搜索及总结的Blueprint (VSS)中的 event reviewer 功能。VSS Blueprint 是NVIDIA Metropolis 平台的一部分。

为实现智能运营、更丰富的视频分析及实时流程合规性,并能随需求扩展,VSS Blueprint提供了定制化方案:它支持开发人员构建直接访问 VLM 的 AI 智能体,或将 VLM 与 LLM、RAG 和计算机视觉模型结合使用,以应对更复杂的视频查询与总结任务。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5685

    浏览量

    110111
  • AI
    AI
    +关注

    关注

    91

    文章

    41060

    浏览量

    302571
  • 计算机视觉
    +关注

    关注

    9

    文章

    1715

    浏览量

    47713

原文标题:AI On:代理式 AI 在计算机视觉中的三大应用

文章出处:【微信号:NVIDIA_China,微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    计算机专业408考研科目

    408 跨考零基础:个月入门到精通路线 站在2026年的节点回望,计算机考研408(计算机学科专业基础综合)早已超越了单纯的知识点考核,它更像是一场对逻辑思维与系统观的深度洗礼。对于
    发表于 04-11 16:44

    传音相关研究成果入选计算机视觉顶会CVPR 2026

    (Mohamed bin Zayed University of Artificial Intelligence,简称MBZUAI)联合开展的“拍照解题”项目研究取得重要进展,相关成果论文已被计算机视觉领域的国际顶级学术会议CVPR 2026正式录用。
    的头像 发表于 04-03 17:45 2914次阅读
    传音相关研究成果入选<b class='flag-5'>计算机</b><b class='flag-5'>视觉</b>顶会CVPR 2026

    上海计算机视觉企业行学术沙龙走进西井科技

    12月5日,由中国图象图形学学会青年工作委员会(下简称“青工委”)、上海市计算机学会计算机视觉专委会(下简称“专委会”)联合主办,上海西井科技股份有限公司、江苏路街道商会承办的“上海计算机
    的头像 发表于 12-16 15:39 732次阅读

    NVIDIA DGX Spark桌面AI计算机开启预订

    DGX Spark 现已开启预订!丽台科技作为 NVIDIA 授权分销商,提供从产品到服务的一站式解决方案,助力轻松部署桌面 AI 计算机
    的头像 发表于 09-23 17:20 1527次阅读
    NVIDIA DGX Spark桌面<b class='flag-5'>AI</b><b class='flag-5'>计算机</b>开启预订

    【「AI芯片:科技探索与AGI愿景」阅读体验】+可期之变:从AI硬件到AI湿件

    的基本逻辑门 所谓生物计算是一个新兴的交叉学科领域,其研究灵感来源于自然界生命系统的神奇功能。它将生物学和计算机科学的原理及方法相结合,旨在利用生物分子、生物
    发表于 09-06 19:12

    代理式 AI 重构 EDA:从对话助手到虚拟工程师

    电子发烧友网报道(文 / 吴子鹏)代理式 AI(Agentic AI)作为 AI 领域的新兴方向,是一能够通过自主感知、推理、规划与执行,
    的头像 发表于 08-28 07:54 3390次阅读

    机器视觉系统工业相机的成像原理及如何选型

    机器视觉系统是一模拟人类视觉功能,通过光学装置和非接触式传感器获取图像数据,并进行分析和处理,以实现对目标物体的识别、测量、检测和定位等功能的智能化系统。其目的是让机器能够理解和解释
    的头像 发表于 08-07 14:14 1795次阅读
    机器<b class='flag-5'>视觉系统</b>工业相机的成像原理及如何选型

    NVIDIA助力AI超级计算机Isambard-AI投入使用

    英国布里斯托大学的超级计算机 Isambard-AI 采用 NVIDIA Grace Hopper 超级芯片,其 AI 算力达到了 21 ExaFLOPS,不仅是英国最快的系统,同时也
    的头像 发表于 07-28 15:07 1424次阅读

    代理式AIAI智能体在不同行业中的实际应用

    代理式 AI 的时代已经到来。如今,代理式 AI 已经驱动应用迈向深度场景融合与规模化落地。这波演进浪潮标志着 AI 能力向自主执行的跃迁。
    的头像 发表于 07-28 14:28 1390次阅读

    NVIDIA全栈加速代理式AI应用落地

    在近期举办的 AWS 中国峰会上,NVIDIA 聚焦于“NVIDIA 全栈加速代理式 AI 应用落地”,深入探讨了代理式 AI (Agentic A
    的头像 发表于 07-14 11:41 1457次阅读

    工业计算机与商用计算机的区别有哪些

    工业计算机是一专为工厂和工业环境设计的计算系统,具有高可靠性和稳定性,能够应对恶劣环境下的自动化、制造和机器人操作。其特点包括无风扇散热技术、无电缆连接和防尘防水设计,使其在各种工业
    的头像 发表于 07-10 16:36 908次阅读
    工业<b class='flag-5'>计算机</b>与商用<b class='flag-5'>计算机</b>的区别有哪些

    NVIDIA携手微软加速代理式AI发展

    代理式 AI 正在重新定义科学探索,推动各行各业的研究突破和创新发展。NVIDIA 和微软正通过深化合作提供先进的技术,从云到 PC 加速代理式 AI 应用的发展。
    的头像 发表于 05-27 14:03 1223次阅读

    基于代理式AI建立网络安全防御体系

    NVIDIA AI 安全栈为先进的代理式系统提供信任、控制和管理支持。
    的头像 发表于 05-07 14:29 1314次阅读

    精选好文!噪声系数测量的三种方法

    本文介绍了测量噪声系数的三种方法:增益法、Y系数法和噪声系数测试仪法。这三种方法的比较以表格的形式给出。 在无线通信系统中,噪声系数(NF)或者相对应的噪声因数(F)定义了噪声性能和对接
    发表于 05-07 10:18

    一文带你了解工业计算机尺寸

    工业计算机是现代自动化、人工智能(AI)和边缘计算的支柱。这些坚固耐用的系统旨在承受恶劣的环境,同时为关键应用提供可靠的性能。然而,由于有这么多可用的外形尺寸,为您的工业
    的头像 发表于 04-24 13:35 1197次阅读
    一文带你了解工业<b class='flag-5'>计算机</b>尺寸