思必驰出席2025世界顶尖科学家论坛之国际工程智能大会-电子发烧友网

当前，以人工智能为代表的前沿技术正推动一场新的范式革命，传统的学科壁垒不断被打破，跨学科融合与边界突破为复杂问题提供了新的解决方案。

近日，2025世界顶尖科学家论坛之国际工程智能大会成功召开，大会以“工程智能：面向未来工业体系的智能变革”为主题，全球顶尖学者与产业专家齐聚，共同勾勒由人工智能深度驱动的未来工业新图景。

上海交通大学特聘教授、思必驰联合创始人、首席科学家俞凯应邀出席，发表了《Towards Reliable Task-oriented LLM Agents》主题演讲，深刻剖析了当前大语言模型智能体的核心痛点——“幻觉”问题，创新性的提出了“不确定性感知的可靠性对齐”新范式，为构建真正可靠、可用的人工智能指明了方向。

从“输出错误”到“行为意外”：

智能体时代的幻觉新挑战

演讲伊始，俞凯首先厘清了“智能体”幻觉与传统大语言模型幻觉的本质区别。他指出，传统大语言模型的幻觉主要表现为“事实性错误”，而当大语言模型进化成能够主动执行、调用工具/与环境交互的“智能体”时，其幻觉则升维为“与人类合理预期不一致的行为”。

“例如，当你让智能体‘9点提醒我一下’，它可能并未理解你的意图是设定一个‘提醒’，而是机械地设定了晚上9点的闹钟，甚至回答‘我不能设定闹钟’你可以尝试......”。俞凯表示，这种行为上的偏差，在任务执行中可能带来比事实错误更严重的后果。

他进一步指出，幻觉的根源在于模型内外的“不确定性”。外部不确定性源于训练数据的噪声、缺失或过时信息；内部不确定性则源于神经网络模型的概率生成特性。为解决这些不确定性造成的幻觉问题，产业界形成了两种主流范式：一是通过引入搜索、数学/代码、数据库等工具增强的方式来扩展知识边界；二是通过评估模型输出的置信度，并设定阈值来拒绝低置信度的回答。

然而，这两种范式均面临严峻挑战：工具增强的方式虽扩展了知识，却引发了“工具幻觉”——包括工具的种类、调用时机、格式、内容等幻觉。即使增加训练数据能提升任务成功率，也无法消除“工具幻觉”的发生；而“置信度评估”范式则遭遇了更为棘手的“妄想”问题，即模型在输出完全错误答案时，却表现出极高的置信度，这使得基于阈值的拒答机制近乎失效。

范式转变：

从“消除不确定性”到“管理与利用不确定性”

在深入分析现有范式的局限后，俞凯带领与会者进行了一场认知层面的思辨。他提出，不确定性并非纯粹的缺陷，而是人类认知和交互中的本质属性，有时甚至是高效率沟通的必要条件。

“我们的目标不应是试图彻底消除不确定性，而是要像人类一样，学会识别、管理并利用它。”俞凯强调，“可靠性”的定义需要从单纯的“正确性”转变为综合考量“交互代价”与“有用性”的性价效用平衡。基于这一理念，他提出了第三种范式，即“基于不确定性感知的可靠性对齐”。这一范式的核心在于，将智能体从传统的“回答”或“拒答”扩展为包含“澄清”、“询问”、“切换工具”等在内的“非决定性行动”。

俞凯表示，智能体的可靠性不应片面追求绝对正确率，而应构建一个兼顾“有用性”与“负责度”的框架，让系统学会在不确定中做出合理决策与担当。

实践路径：

单智能体与多智能体的可靠性解决方案

会上，俞凯介绍了在实践中落实新范式的情况。在单智能体可靠性方面，团队通过“显式知识边界感知建模”的方式，来训练智能体明确区分“确定”、“不确定”和“拒答”区域。通过基于知识反馈的强化学习等技术，让智能体学会在信息不足时主动向用户澄清，而非强行执行或直接放弃。例如，当用户查询“请帮我查一下去北京的票价”时，可靠的智能体会主动询问“您从哪个城市出发？”，从而避免因信息缺失而产生的工具调用幻觉。实践证明，该方法显著降低了知识幻觉和工具幻觉，在数值推理和工具调用任务中的幻觉率甚至低于顶尖商业模型。

针对更为复杂的多轮交互场景，则引入“慢思考”精炼机制。对于智能体标记为“不确定”的响应，由一个独立的“精炼模型”进行深度推理和优化，形成“快速思维”负责高精度输出、“慢速思维”处理模糊地带的协同系统，有效解决了多轮对话中不确定性的传播与放大问题。

在多智能体可靠性方面，俞凯提出了“分布式路由选择”架构。不同规模和能力的模型组成一个模型池，面对用户查询，成本较低的小型模型首先进行自我评估，若胜任则直接回答，若不胜任则“路由”给更强大的模型。“这实现了一种既可靠又高效的资源配置，在保证性能的同时，尽可能控制计算成本。”

演讲的最后，俞凯表示，基于“不确定性感知的可靠性对齐”框架能够将人工智能从一台追求绝对正确的“答题机器”，转变为一个能够感知边界、主动沟通、协同决策的“可靠伙伴”。

作为思必驰首席科学家，俞凯带领团队研发的“1+N”分布式大模型智能体系统，也是基于“不确定性感知的可靠性对齐”范式构建。“1”即一个中枢大模型，负责基础语言处理与通用知识整合；“N”即N个垂域模型，针对具体行业场景进行优化，形成可柔性定制的行业语言大模型。现已广泛用于智能汽车、智慧物联、会议办公等领域，成本与响应速度优势显著。

这一创新范式并非一蹴而就，而是建立在俞凯与团队长期的学术研究与产业实践基础上。在今年8月召开的第二十四届中国计算语言学大会（CCL2025）和10月举行的2025年第二十届全国人机语音通讯学术会议（NCMMSC2025）现场，俞凯已就相关研究方向进行了分享，在行业内形成了持续讨论。

“不确定性感知的可靠性对齐”范式切中了AI工程化应用时所遇到问题的要害，引发了在场顶尖科学家与产业专家的共鸣与深入讨论。随着任务型大语言模型智能体在各个行业场景的深度融合，对“可靠性”的重新定义与技术攻坚，已成为推动人工智能纵深发展的关键引擎，并将催生以高质量、高可靠性为特征的新质生产力。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

人工智能

人工智能

+关注

关注
1821

文章
50385

浏览量
267138
思必驰

思必驰

+关注

关注
4

文章
423

浏览量
16057
大模型

大模型

+关注

关注
2

文章
3811

浏览量
5282

原文标题：2025世界顶尖科学家论坛之国际工程智能大会 | 直面“幻觉”挑战，思必驰俞凯提出构建可靠任务型AI新范式

文章出处：【微信号：思必驰，微信公众号：思必驰】欢迎添加关注！文章转载请注明出处。

搜索历史

思必驰出席2025世界顶尖科学家论坛之国际工程智能大会

评论