0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

使用代理式AI激活传统计算机视觉系统的三种方法

NVIDIA英伟达 来源:NVIDIA英伟达 2025-12-01 09:44 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

学习利用视觉语言模型,打造从 AI 驱动的智能搜索到全自动分析的视频解析应用。

当前的计算机视觉系统擅长于识别物理空间与流程中的事件,却难以诠释场景细节及其意义,也无法推理后续可能发生的情况。

由视觉语言模型(VLM) 驱动的代理式 AI,能够解决这一问题。它让团队能够快速、便捷地获取关键的洞见与分析,并将文本描述与时空信息、以及系统每日产生的海量视觉数据无缝衔接。

以下三种方法可助力企业使用代理式 AI 激活传统计算机视觉系统:

  • 运用密集标注技术,生成可搜索的视觉内容
  • 利用详细上下文增强系统警报
  • 借助AI 推理,总结复杂场景中的信息并解答疑问

利用密集标注,实现视觉内容可搜索

传统的卷积神经网络(CNN) 驱动的视频搜索工具受限于有限的训练数据、上下文及语义理解的不足,这导致信息提炼工作必须依赖人工,且既繁琐又耗时。CNN 通常被调优以执行如识别异常之类的视觉任务,但缺乏将其所见转换为文本的多模态能力。

企业可以将 VLM 直接嵌入其现有应用程序中,为图像和视频生成详尽的标注。这些标注能在不受限于文件名或基础标签的情况下,将非结构化内容转化为丰富的、可搜索的元数据,从而实现灵活度远胜以往的视觉搜索。

以自动化车辆检测系统Uveye为例,作为全球规模最大的车辆及零部件数据集之一,它每月处理超过 7 亿张高分辨率图像。通过应用 VLM,Uveye 将这些视觉数据转化为结构化的报告,且能够以高准确性与可靠性,检测出细微的缺陷、改装或异物,以供搜索与分析。

由 VLM 驱动的视觉理解提供了至关重要的上下文,保障了从合规、安全到质控各环节洞察的透明与一致。Uveye 能检测出 96% 的缺陷,比人工检测高出 24%,这使早期干预成为可能,从而减少停机时间并控制维护成本。

Relo Metrics是一家由 AI 驱动的体育营销评估服务商,致力于帮助品牌量化媒体投资价值并优化支出。通过将 VLM 与计算机视觉相结合,Relo Metrics 不仅仅可以做到基础的 Logo 检测,现能够精准捕捉如在比赛“绝杀球”时刻展示的场边广告牌等场景,并将其转化为实时的商业价值。

这种基于环境的洞察能力,通过突显 Logo 在关键高曝光时刻的出现时间和方式,帮助营销人员更清晰地了解投资回报率,并找到优化策略的途径。例如,Stanley Black & Decker 及其旗下的 Dewalt,此前仅依赖赛季末的报告来评估赞助资产的表现,这限制了决策的及时性。现在通过利用 Relo Metrics 获取实时洞察,Stanley Black & Decker 及时调整了广告牌位置,从而挽回了价值 130 万美元的潜在赞助媒体损失。

利用 VLM 推理能力增强计算机视觉系统警报

基于 CNN 的计算机视觉系统通常只生成类似“是或否”、“真或假”的二元的检测警报。缺乏 VLM 的推理能力,往往会导致误报或细节遗漏,从而在安全保障方面引发代价高昂的错误,并造成商业情报的缺失。VLM 无需完全取代现有的 CNN 视觉系统,而是可以作为一个智能附加组件,轻松地对现有系统进行增强。通过在 CNN 系统之上叠加 VLM 层,系统不仅能标记检测警报,还能结合场景语境对事件发生的地点、方式及原因进行复核。

在智慧城市交通管理领域,Linker Vision利用 VLM 验证关键的城市警报,包括:交通事故、洪涝灾害或暴风雨引发的树木及电线杆倒塌。这种方式不仅降低了误报率,还为每起事件补充了关键的背景信息,从而显著提升了市政部门的实时响应效率。

当前的计算机视觉系统擅长于识别物理空间与流程中的事件,却难以诠释场景细节及其意义,也无法推理后续可能发生的情况。

由视觉语言模型(VLM) 驱动的代理式 AI,能够解决这一问题。它让团队能够快速、便捷地获取关键的洞见与分析,并将文本描述与时空信息、以及系统每日产生的海量视觉数据无缝衔接。

以下三种方法可助力企业使用代理式 AI 激活传统计算机视觉系统:

运用密集标注技术,生成可搜索的视觉内容

利用详细上下文增强系统警报

借助AI 推理,总结复杂场景中的信息并解答疑问

利用密集标注,实现视觉内容可搜索

传统的卷积神经网络(CNN) 驱动的视频搜索工具受限于有限的训练数据、上下文及语义理解的不足,这导致信息提炼工作必须依赖人工,且既繁琐又耗时。CNN 通常被调优以执行如识别异常之类的视觉任务,但缺乏将其所见转换为文本的多模态能力。

企业可以将 VLM 直接嵌入其现有应用程序中,为图像和视频生成详尽的标注。这些标注能在不受限于文件名或基础标签的情况下,将非结构化内容转化为丰富的、可搜索的元数据,从而实现灵活度远胜以往的视觉搜索。

以自动化车辆检测系统Uveye为例,作为全球规模最大的车辆及零部件数据集之一,它每月处理超过 7 亿张高分辨率图像。通过应用 VLM,Uveye 将这些视觉数据转化为结构化的报告,且能够以高准确性与可靠性,检测出细微的缺陷、改装或异物,以供搜索与分析。

由 VLM 驱动的视觉理解提供了至关重要的上下文,保障了从合规、安全到质控各环节洞察的透明与一致。Uveye 能检测出 96% 的缺陷,比人工检测高出 24%,这使早期干预成为可能,从而减少停机时间并控制维护成本。

Relo Metrics是一家由 AI 驱动的体育营销评估服务商,致力于帮助品牌量化媒体投资价值并优化支出。通过将 VLM 与计算机视觉相结合,Relo Metrics 不仅仅可以做到基础的 Logo 检测,现能够精准捕捉如在比赛“绝杀球”时刻展示的场边广告牌等场景,并将其转化为实时的商业价值。

这种基于环境的洞察能力,通过突显 Logo 在关键高曝光时刻的出现时间和方式,帮助营销人员更清晰地了解投资回报率,并找到优化策略的途径。例如,Stanley Black & Decker 及其旗下的 Dewalt,此前仅依赖赛季末的报告来评估赞助资产的表现,这限制了决策的及时性。现在通过利用 Relo Metrics 获取实时洞察,Stanley Black & Decker 及时调整了广告牌位置,从而挽回了价值 130 万美元的潜在赞助媒体损失。

利用 VLM 推理能力增强计算机视觉系统警报

基于 CNN 的计算机视觉系统通常只生成类似“是或否”、“真或假”的二元的检测警报。缺乏 VLM 的推理能力,往往会导致误报或细节遗漏,从而在安全保障方面引发代价高昂的错误,并造成商业情报的缺失。VLM 无需完全取代现有的 CNN 视觉系统,而是可以作为一个智能附加组件,轻松地对现有系统进行增强。通过在 CNN 系统之上叠加 VLM 层,系统不仅能标记检测警报,还能结合场景语境对事件发生的地点、方式及原因进行复核。

在智慧城市交通管理领域,Linker Vision利用 VLM 验证关键的城市警报,包括:交通事故、洪涝灾害或暴风雨引发的树木及电线杆倒塌。这种方式不仅降低了误报率,还为每起事件补充了关键的背景信息,从而显著提升了市政部门的实时响应效率。

Linker Vision的代理式 AI 架构能自动分析超过 50,000 路多样化的智慧城市摄像头视频流,以实现跨部门的协同整治。当事件发生时,该系统可协调如交通管制、公共事业及急救响应等多团队展开联合行动。凭借同时查询所有摄像头流的能力,系统能迅速将观察到的现象转化为深刻洞察,给出下一步最佳行动的具体建议。

基于代理式 AI 的复杂场景自动解析

代理式 AI系统能够处理视频流、音频、文本、视频及传感器数据等多种模态的信息,并能对复杂查询进行推理与回答,从而实现对复杂场景的自动化分析。该功能的实现,需结合 VLM、推理模型、大语言模型 (LLM)、检索增强生成 (RAG)、计算机视觉和语音转录等多种技术。

将 VLM 直接集成到现有计算机视觉工作流中,虽能验证关键时刻的短视频片段,但其能力受限于单模型一次可处理的视觉token数量,故而无法理解更长时间周期与外部知识构成的上下文,最终只能提供表面层次的答案。

相比之下,基于代理式 AI 构建的完整架构,则能对冗长、多路的视频档案进行可扩展且精确的处理,实现超越表面理解的更深层、准确和可靠的洞察。此外,该系统还适用于根本原因分析,或处理冗长巡检视频以生成带时间戳洞察的报告。

Levatas利用移动机器人与自主系统,为关键基础设施开发视觉巡检解决方案,致力于提升电力变电站、燃料站、铁路调车场与物流中心等关键基础设施资产的安全性、可靠性与性能。基于 VLM,Levatas 构建了视频分析 AI 智能体,可自动审查巡检影像并起草详细报告,从而极大地优化了这一传统上依赖人工的耗时流程。 Levatas 通过将其 AI 与 Skydio X10 设备集成,为 American Electric Power (AEP) 简化电力基础设施巡检。该方案使 AEP 能够自主巡检电线杆、精准识别热缺陷并检测设备损坏。一旦发现问题,系统会立即向 AEP 团队发送警报,确保快速响应与问题解决,从而保障可靠、清洁且经济高效的能源供应。

Eklipse 是一款利用 VLM 驱动代理的 AI 游戏高光工具,它能通过为直播流添加字幕和索引元数据,实现快速查询、总结并生成精美高光片段,整个过程仅需数分钟,效率高达传统方案的 10 倍,彻底革新了内容消费体验。

基于 NVIDIA 技术构建视频智能体

开发人员可运用NVCLIP、NVIDIA Cosmos Reason与Nemotron Nano V2等多模态 VLM,构建富含元数据的索引,以此实现高级搜索与推理功能。

开发人员若要将 VLM 集成到计算机视觉应用中,可使用NVIDIA 用于视频搜索及总结的Blueprint (VSS)中的 event reviewer 功能。VSS Blueprint 是NVIDIA Metropolis 平台的一部分。

为实现智能运营、更丰富的视频分析及实时流程合规性,并能随需求扩展,VSS Blueprint提供了定制化方案:它支持开发人员构建直接访问 VLM 的 AI 智能体,或将 VLM 与 LLM、RAG 和计算机视觉模型结合使用,以应对更复杂的视频查询与总结任务。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5496

    浏览量

    109044
  • AI
    AI
    +关注

    关注

    89

    文章

    38073

    浏览量

    296299
  • 计算机视觉
    +关注

    关注

    9

    文章

    1714

    浏览量

    47445

原文标题:AI On:代理式 AI 在计算机视觉中的三大应用

文章出处:【微信号:NVIDIA_China,微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    【「AI芯片:科技探索与AGI愿景」阅读体验】+可期之变:从AI硬件到AI湿件

    的基本逻辑门 所谓生物计算是一个新兴的交叉学科领域,其研究灵感来源于自然界生命系统的神奇功能。它将生物学和计算机科学的原理及方法相结合,旨在利用生物分子、生物
    发表于 09-06 19:12

    代理式 AI 重构 EDA:从对话助手到虚拟工程师

    电子发烧友网报道(文 / 吴子鹏)代理式 AI(Agentic AI)作为 AI 领域的新兴方向,是一能够通过自主感知、推理、规划与执行,
    的头像 发表于 08-28 07:54 2825次阅读

    代理式AIAI智能体在不同行业中的实际应用

    代理式 AI 的时代已经到来。如今,代理式 AI 已经驱动应用迈向深度场景融合与规模化落地。这波演进浪潮标志着 AI 能力向自主执行的跃迁。
    的头像 发表于 07-28 14:28 989次阅读

    NVIDIA全栈加速代理式AI应用落地

    在近期举办的 AWS 中国峰会上,NVIDIA 聚焦于“NVIDIA 全栈加速代理式 AI 应用落地”,深入探讨了代理式 AI (Agentic A
    的头像 发表于 07-14 11:41 1050次阅读

    NVIDIA携手微软加速代理式AI发展

    代理式 AI 正在重新定义科学探索,推动各行各业的研究突破和创新发展。NVIDIA 和微软正通过深化合作提供先进的技术,从云到 PC 加速代理式 AI 应用的发展。
    的头像 发表于 05-27 14:03 751次阅读

    基于代理式AI建立网络安全防御体系

    NVIDIA AI 安全栈为先进的代理式系统提供信任、控制和管理支持。
    的头像 发表于 05-07 14:29 820次阅读

    精选好文!噪声系数测量的三种方法

    本文介绍了测量噪声系数的三种方法:增益法、Y系数法和噪声系数测试仪法。这三种方法的比较以表格的形式给出。 在无线通信系统中,噪声系数(NF)或者相对应的噪声因数(F)定义了噪声性能和对接
    发表于 05-07 10:18

    英伟达GTC2025亮点:Oracle与NVIDIA合作助力企业加速代理式AI推理

    Oracle 数据库与 NVIDIA AI 相集成,使企业能够更轻松、快捷地采用代理式 AI Oracle 和 NVIDIA 宣布,NVIDIA 加速计算和推理软件与 Oracle 的
    的头像 发表于 03-21 12:01 1171次阅读
    英伟达GTC2025亮点:Oracle与NVIDIA合作助力企业加速<b class='flag-5'>代理式</b><b class='flag-5'>AI</b>推理

    Oracle 与 NVIDIA 合作助力企业加速代理式 AI 推理

    ——Oracle 和 NVIDIA 今日宣布,NVIDIA 加速计算和推理软件与 Oracle 的 AI 基础设施以及生成式 AI 服务首次实现集成,以帮助全球企业组织加速创建代理式
    发表于 03-19 15:24 467次阅读
    Oracle 与 NVIDIA 合作助力企业加速<b class='flag-5'>代理式</b> <b class='flag-5'>AI</b> 推理

    NVIDIA 宣布推出 DGX Spark 个人 AI 计算机

    台式超级计算机由 NVIDIA Grace Blackwell 驱动,为开发者、研究人员和数据科学家提供加速 AI 功能;系统由头部计算机制造商(包括华硕、Dell Technolog
    发表于 03-19 09:59 502次阅读
       NVIDIA 宣布推出 DGX Spark 个人 <b class='flag-5'>AI</b> <b class='flag-5'>计算机</b>

    英飞凌边缘AI平台通过Ultralytics YOLO模型增加对计算机视觉的支持

    计算机视觉的支持,扩大了当前对音频、雷达和其他时间序列信号数据的支持范围。在增加这项支持后,该平台将能够用于开发低功耗、低内存的边缘AI视觉模型。这将给诸多应用领域的机器学习开发人员
    的头像 发表于 03-11 15:11 651次阅读
    英飞凌边缘<b class='flag-5'>AI</b>平台通过Ultralytics YOLO模型增加对<b class='flag-5'>计算机</b><b class='flag-5'>视觉</b>的支持

    AI Agent 应用与项目实战》阅读心得2——客服机器人、AutoGen框架 、生成式代理

    及时处理。 第5章的斯坦福AI小镇项目对生成式代理技术做出了开创性的探索。该项目的核心是将LLM与计算交互代理相结合,构建了一个具有记忆、反思、规划能力的智能体
    发表于 02-25 21:59

    Arm KleidiCV与OpenCV集成助力移动端计算机视觉性能优化

    生成式及多模态人工智能 (AI) 工作负载的广泛增长,推动了对计算机视觉 (CV) 技术日益高涨的需求。此类技术能够解释并分析源自现实世界的视觉信息,并可应用于人脸识别、照片分类、滤镜
    的头像 发表于 02-24 10:15 873次阅读

    NVIDIA与合作伙伴推出代理式AI Blueprint

    开发者现在可以使用全新 NVIDIA AI Blueprint 构建和部署具备推理、规划和行动能力的定制化 AI 智能体。这些蓝图囊括了 NVIDIA NIM 微服务、NVIDIA NeMo、以及领先提供商的代理式
    的头像 发表于 01-09 11:08 1012次阅读

    云端超级计算机使用教程

    云端超级计算机是一基于云计算的高性能计算服务,它将大量计算资源和存储资源集中在一起,通过网络向用户提供按需的
    的头像 发表于 12-17 10:19 931次阅读