旷视借助大模型与智能体推动算法落地-电子发烧友网

当下，AI技术繁荣无比，但无数企业却陷入“叫好不叫座”的困境：算法模型很先进，但一到真实的行业场景中就“水土不服”。问题究竟出在哪?大模型和智能体的兴起，又为我们提供了怎样的新解题思路?本文将深入探讨算法落地的核心痛点，并阐述我们如何借力新技术，打造出真正解决问题的产品。

一、落地之困：价值兑现的“最后一公里”难题

尽管技术不断突破，但算法在深入行业应用时，依然面临几个核心挑战：

“专用”与“通用”的矛盾：

传统小模型要求算法定义明确，功能上稍作调整或者换一个细分场景都需要重新开发，研发成本高、周期长，难以规模化复制;

“感知”与“认知”的割裂：

由于小模型并不具备“类似于人的认知”，因此要求给出明确的算法定义，而对于部分需求而言，算法定义难以设计，因而这些功能无法被有效实现出来;

“交付”与“优化”的断层：

行业落地过程中，算法上线只是开始，持续不断的优化非常关键，仅仅提供算法本身是不够的。

二、破局之器：大模型与智能体的特性与优势

幸运的是，技术本身也在演进，大模型和智能体带来了新的可能性：

大模型的特点

“通用”但不“专精”

模型的能力来自于数据。得益于大量互联网数据的训练，目前的基础大模型具备了广泛的知识，但这些知识落到具体某个行业、场景上，就非常依赖于对应行业、场景的数据是否在互联网上出现过，以及出现过多少。所以，在我们看来，大模型在不同的场景下会有截然不同的表现，比如马路上的行人检测精度不错，但是油田场景中抽油机的驴头检测却效果不佳。基于大模型的这一特点，可以通过提示词快速赋能某个具体场景，但不少情况下也需要做行业化的迭代。

与人类形成模糊意义的“认知”对齐：

大模型除了能作为快速赋能的工具之外，还具备一些小模型不具备的能力，大模型与人类从模糊意义上来说认知是对齐的，这跟人与人之间的认知对齐形式非常像。举个例子，比如消防通道堵塞问题，对于人来说，即便是安全主管对安全员说“这条安全通道很重要，务必不能堵塞”，不同的安全员收到这个任务后的执行情况也会因人而异。如下图所示，这四种情况可以看作是不同意义上的“消防通道没有堵塞”。因此，人与人之间形成了模糊的认知对齐，而大模型也是如此，本身就能理解诸如消防通道堵塞、沿街晾晒等任务，而不需要像小模型一样在“什么东西堵算堵、堵多少算堵”等问题上纠结，这种模糊对齐的认知恰恰是互联网数据赋予的。

智能体的特点

智能体的两种内在模式：

从智能体底层的实现上来看，主要分为工作流模式和全自主模式。工作流模式指的是“智能体基于预设的方案工作，使用大模型和工具实现目标”，该模式适用于“有相对明确的流程，希望通过自动化来提升效率”的场景，其局限性在于面向新任务的拓展性受限。全自主模式指的是“智能体自主规划决策，以结果为导向”，该模式适用于“只有大致思路甚至没有思路，需要开放式、多路径的探索”的场景，该模式也存在一些问题，在算力消耗、鲁棒性、可信度方面都需要进一步的技术突破。

如何进行模式选择：

“Less structure, more intelligence”，从技术上来说确实如此，毕竟方案设计越少，对模型能力的要求也越高。但是从应用落地的角度上来说，效果好、成本低才是技术实现价值兑现的核心。因此，面向不同的行业、场景做出合理选择是必要的。比如在判断某次施工是否符合预设的流程规范时，工作流模式就是一种不错的选择。

三、解题之道：大小模型协同 & 端到端优化

面对前面提到的落地难点，旷视并未将大模型视为万能药，而是依托于十多年来积累的算法、系统、硬件的全栈技术实力，引入大模型和智能体，完成整体解决方案的升级。

大小模型协同

我们深刻理解大小模型各自的特点，因此采用大小协同架构，让大小模型在最适合的位置发挥价值。具体而言，我们利用大模型的通用属性，为行业场景提供快速接入的解决方案，也利用大模型的强认知属性，作为智能体的大脑中枢;同时，我们也在合适的场景下，用经过行业数据迭代的小模型实现应用降本。以视频巡检智能体为例，不仅集成了行业化的太乙大模型，还在模型库内接入了旷视沉淀的百余种视觉小模型，让视频巡检能够实现任务接入快、运行成本低、算法精度高。

端到端优化

一个AI系统的上线不是终点，而是优化的起点。基于此，旷视经过多年打磨，研发了一套高效的算法生产与应用平台(AIS)，基于这套平台，我们实现了从数据到模型、从软件到硬件、从研发到落地的有机结合，解决了算法模型“交付即落后”的行业痛点，实现了技术与场景的“双向赋能”和协同进化。举例来说，使用这套平台可以快速实现三步走式的行业算法生产范式。在新场景落地初期，核心诉求、算法边界尚不明了，此时可以通过零样本、少样本技术快速调试基础模型，实现“从无到有”;在小范围使用一段时间后，可以依托于实际场景的数据做场景化训练，实现“从有到优”;最后，对于部分任务而言，积累了一定量的数据、认知后，可以产出场景模型与算法，实现“使用降本”。

结语：迈向“双向赋能”的新阶段

算法的价值，最终必须在场景中兑现。大模型和智能体不是炫技，而是我们解决老问题的新答案。它们让我们能够搭建一座桥梁，连接技术的无限可能性与行业的真实需求，真正实现技术与场景的双向奔赴、协同进化。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉