0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

蚂蚁集团全模态代码算法团队自研OpAgent技术框架

OSC开源社区 来源:CodeFuse 2026-03-18 17:13 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

以下文章来源于CodeFuse,作者CodeFuse

为应对真实 Web 环境的非结构化复杂性、时序不稳定性与交互隐式逻辑等挑战,蚂蚁集团全模态代码算法团队提出了一套结合了多任务微调、在线强化学习与模块化协作的综合解决方案:OpAgent。

OpAgent 通过层次化多任务微调 (MT-SFT) 构建具备规划、行动和定位能力的视觉语言模型(VLM)基座;继而,在自建的在线交互环境中,利用创新的混合奖励机制进行在线强化学习(Online RL) ,有效缓解了离线训练带来的分布偏移问题;最后,通过一个包含规划器、定位器、反思器和总结器的模块化智能体架构,实现对复杂长时程任务的鲁棒执行与自我修正。

在权威 Web 智能体评测基准 WebArena 上,OpAgent 以 71.6% 的成功率于 2026 年 1 月取得了榜单第一的 SOTA 成绩。

GitHub:https://github.com/codefuse-ai/OpAgent

Hugging Face:https://huggingface.co/codefuse-ai/OpAgent

ModelScope:https://modelscope.cn/models/codefuse-ai/OpAgent-32B

Technical Report:https://github.com/codefuse-ai/OpAgent/blob/main/technical_report/OpAgent.pdf

一、背景与挑战

自主Web智能体旨在模拟人类在图形用户界面( GUI )上执行任务,其在自动化测试、数据采集、智能助理等领域具有广阔应用前景。然而,相较于 PC 或移动端环境,Web 环境呈现出独特的挑战:

非结构化复杂性:网页的 DOM 树结构庞大且充满噪声,传统基于 HTML 或 DOM 解析的方法难以有效提取关键信息,容易被冗余内容干扰。

时序不稳定性:网页内容是动态的,异步加载、实时更新和临时性元素(如弹窗)使得环境状态频繁变化。依赖静态离线数据集训练的模型在部署于真实动态环境时,会面临严重的分布偏移( Distributional Shift )问题。

交互的隐式逻辑:许多 Web 交互(如悬停触发菜单)依赖实时的视觉反馈来确认操作的成功与否,这种闭环交互逻辑是离线学习范式无法有效建模的。

为应对上述挑战,我们设计并实现了 OpAgent 框架,其核心在于从依赖静态数据向与真实环境动态交互的范式转变。

二、OpAgent技术框架

OpAgent 的整体设计遵循一个分阶段的优化路径:首先通过多任务监督微调( MT-SFT )为模型注入基础的 Web 交互能力,然后通过在线强化学习( Online RL )在真实环境中对策略进行迭代优化,最终在推理阶段利用模块化智能体架构( Agentic Architecture )执行复杂任务。

57fc2542-22a7-11f1-90a1-92fbcf53809c.jpg

2.1 层次化多任务微调 (Hierarchical Multi-Task Fine-tuning)

为构建一个强大的视觉语言模型( VLM )基座,我们首先摒弃了对脆弱的 HTML 文本解析的依赖,转而让模型直接从视觉截图( Screenshot )中感知和理解页面布局。我们将 Web 智能体的基础能力分解为三个维度:

规划 ( Planning ):预测交互行为将导致的页面状态变迁。

行动 ( Acting ):基于当前页面状态,决策下一步所需执行的操作。

定位 ( Grounding ):在视觉上精确定位执行操作的UI元素坐标。

我们整合了包括 Mind2Web 、Aguvis 、UGround 在内的多个领域数据集,分别对上述三种能力进行训练。为解决不同数据集样本量级差异巨大(例如,百万级 vs. 千级)可能导致的梯度主导问题,我们引入了基于有效样本数 (Effective Number of Samples)的加权策略,动态调整各任务在训练中的损失权重,确保模型在所有基础能力上得到均衡发展。

58619f26-22a7-11f1-90a1-92fbcf53809c.jpg

2.2 真实环境在线强化学习 ( Online Agentic RL in the Wild )

在线学习是解决分布偏移问题的关键。为此,我们构建了一套支持在真实 Web 环境中进行大规模在线强化学习的系统。

1. 四层RL基础设施:该系统分为决策层、执行层、基础设施层和环境层。VLM 代理在决策层生成动作,通过 Playwright 引擎在执行层被解析并分发至分布式浏览器集群,与环境层中的真实网站(包括自部署的 WebArena 环境)进行交互,最终将包含截图和 DOM 的观测数据反馈回决策层,形成一个完整的闭环交互与数据采集流程。

58bde718-22a7-11f1-90a1-92fbcf53809c.jpg

2. 混合奖励机制 ( Hybrid Reward Mechanism ):在没有真值( Ground-truth )轨迹的真实环境中,如何为智能体的探索行为提供有效监督信号至关重要。我们设计了一种混合奖励机制:

基于规则的决策树 ( RDT ) 进行过程监督:为智能体的每一步提供即时反馈。该机制通过一系列规则判断动作的有效性,如是否产生页面视觉变化、是否点击在可交互元素上等,对无效或冗余的动作给予惩罚。

基于 VLM 的 WebJudge 进行结果评估:在一条轨迹( trajectory )结束后,引入一个强大的 VLM 评估器 WebJudge ,从任务完成度、动作有效性和路径效率三个维度对整个轨迹进行综合评分,作为最终的稀疏奖励信号。

这种结合了稠密过程奖励和稀疏结果奖励的机制,为模型在真实环境中的策略优化提供了稳定且全面的监督。

59171fc2-22a7-11f1-90a1-92fbcf53809c.jpg

2.3 Operator Agentic 模块化智能体架构

对于长时程、多步骤的复杂任务,单一模型的决策能力有限。我们因此设计了一个包含四个专业角色的模块化协作架构,以提升任务执行的鲁棒性和成功率。

模块 核心职责 主要输出
Planner
规划器
任务分解与策略制定 语义化的步骤指令
Grounder
定位器
将语义指令映射到UI坐标 标准化的工具调用(Tool Call)
Reflector
反思器
验证动作效果,监控任务进展 反思信号与中间笔记
Summarizer
总结器
综合轨迹信息,生成最终答案 整合后的最终答案

该架构通过一个“规划-执行-反思”的迭代循环运作:Planner 根据全局目标和当前状态生成高层指令,Grounder 将其翻译为具体动作并执行,Reflector 在动作后评估状态变化并判断是否需要重新规划。这种机制实现了有效的错误检测与自我修正。

5970b3e8-22a7-11f1-90a1-92fbcf53809c.jpg

三、实验与结果

我们在多个基准上对 OpAgent 框架的各组件进行了充分评估。

单模型性能:

经过在线RL优化的单模型( Qwen3-VL-32B-Thinking + RL-HybridReward-Zero )在 WebArena 上取得了 38.1% 的成功率( Pass@5 ),显著超越了原始基线模型( 27.4% )以及其他采用类似 Test-Time Training ( TTT ) 策略的方法。

59ce8770-22a7-11f1-90a1-92fbcf53809c.jpg

Pass@K 分析:

对比 RL 优化前后的模型在不同 Pass@K 下的表现,可以看到随着尝试次数 K 的增加,RL优化后模型的性能优势愈发明显,Pass@5 的绝对提升达到 10.66% 。这表明在线强化学习显著增强了模型决策的鲁棒性。

5a2bb06c-22a7-11f1-90a1-92fbcf53809c.jpg

Agentic Architecture 性能:

最终,集成了所有优化的 OpAgent 整体框架(使用 Gemini-3-Pro 作为部分模块后端,Qwen2.5-VL-MFT 作为 Grounder ),在 WebArena 上达到了 71.6% 的成功率,刷新了该基准的 SOTA 记录,并登顶排行榜。

5a89daf2-22a7-11f1-90a1-92fbcf53809c.jpg

四、总结与展望

本文介绍了蚂蚁全模态代码算法团队在 Web 智能体方向的最新研究成果 OpAgent 。通过在多任务微调、真实环境在线强化学习以及模块化智能体架构等方面的探索,我们显著提升了 Web 智能体在复杂动态环境中的任务执行能力,并在 WebArena 基准上取得了 SOTA 性能。

当前工作在实现高性能的同时,仍一定程度上依赖于精细的提示工程和多智能体的复杂编排。未来的研究方向将包括提升单模型内在的探索与泛化能力,以期减少对复杂框架的依赖,实现更加通用和高效的自主智能体。

关于我们

我们是蚂蚁集团智能平台工程的全模态代码算法团队。团队成立 3 年以来,在 ACL、EMNLP、ICLR、NeurIPS、ICML 等顶级会议发表论文 20 余篇,两次获得蚂蚁技术最高奖 T-Star ,1 次蚂蚁集团最高奖 SuperMA ,我们研发的 CodeFuse 项目连续两年蝉联学术开源先锋项目。

团队常年招聘研究型实习生,有志于 NLP、大模型、多模态、图神经网络的同学欢迎联系 hyu.hugo@antgroup.com,期待与你一起,探索AI的无限可能!

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • Web
    Web
    +关注

    关注

    2

    文章

    1309

    浏览量

    74942
  • 强化学习
    +关注

    关注

    4

    文章

    273

    浏览量

    11996
  • 蚂蚁集团
    +关注

    关注

    0

    文章

    108

    浏览量

    4701

原文标题:蚂蚁集团全模态代码算法团队自研多模态Web GUI Agent:OpAgent

文章出处:【微信号:OSC开源社区,微信公众号:OSC开源社区】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    进迭时空参与我国首款 RISC-V 栈测评工具发布

    。进迭时空参与技术分享、标准讨论等多项活动。深度参与我国首款RISC-V栈测评工具发布全体委员会议上,我国首款
    的头像 发表于 04-13 09:33 206次阅读
    进迭时空参与我国首款<b class='flag-5'>自</b><b class='flag-5'>研</b> RISC-V <b class='flag-5'>全</b>栈测评工具发布

    广汽集团与海尔集团正式签署战略合作框架协议

    4月10日,广汽集团与海尔集团在青岛正式签署战略合作框架协议。双方将充分发挥各自在智能制造、科技创新、产业生态等方面的领先优势,共同探索“人车家”互联生态等领域的新范式,为中国制造业高质量发展注入新动能。
    的头像 发表于 04-11 17:02 1967次阅读

    软通动力基于OpenClaw开源框架深度端侧智能体平台

    随着人工智能加速从云端下沉至终端、从被动交互迈向主动执行,端侧智能体正成为定义智能硬件体验的核心引擎。软通动力基于OpenClaw开源框架深度端侧智能体平台,以轻量化推理、本地自主决策、端云协同
    的头像 发表于 02-27 11:48 840次阅读

    众智FlagOS适配面壁智能开源模态大模型MiniCPM-o 4.5

    2月3日,面壁智能正式发布并开源了集语言、视觉、语音于一体的模态大模型 MiniCPM-o 4.5。作为首个全双工模态大模型,MiniCPM-o 4.5 首次实现“类人”感知交互,
    的头像 发表于 02-09 14:45 969次阅读
    众智FlagOS适配面壁智能开源<b class='flag-5'>全</b><b class='flag-5'>模态</b>大模型MiniCPM-o 4.5

    天硕TOPSSD G40 M.2 2280工业级SSD——存储如何成就防数据泄露固态硬盘的典范

    关键领域存储最怕“卡脖子”与数据风险,自主可控存储解决方案是破局关键。天硕(TOPSSD)从主控到固件,消除供应链隐患,为电子对抗、指挥控制场景提供链路安全支撑。
    的头像 发表于 01-19 16:53 592次阅读

    格灵深瞳多模态大模型荣登InfoQ 2025中国技术力量年度榜单

    灵感实验室联合LLaVA社区发布的多模态大模型LLaVA-OneVision-1.5,实现了训练数据、代码和模型权重的链路开源,在多项公开多模态基准上表现优于同等规模的Qwen2.5
    的头像 发表于 01-05 10:05 644次阅读

    京东电商数据库内核DongSQL简介

    团队于今年(2025.9)打磨出了深度优化的数据库内核——DongSQL V1.1.0。
    的头像 发表于 01-04 17:07 1186次阅读
    京东<b class='flag-5'>自</b><b class='flag-5'>研</b>电商数据库内核DongSQL简介

    图扑智慧汽车展示平台技术方案

    随着中国智能电动汽车市场的快速扩张,产业对高效、精准的产品展示与技术研发工具需求日益迫切。图扑软件依托自主研发的 HT for Web 核心技术,打造
    的头像 发表于 11-21 15:16 329次阅读
    图扑智慧汽车展示平台<b class='flag-5'>全</b><b class='flag-5'>自</b><b class='flag-5'>研</b><b class='flag-5'>技术</b>方案

    季丰电子PCB管理系统的简单介绍

    季丰电子的PCB管理系统,整合报价+投板+Release三大核心模块,覆盖从设计发布、订单对接到生产交付的业务流程。
    的头像 发表于 11-11 14:51 1380次阅读

    知乎开源“智能预渲染框架” 几行代码实现鸿蒙应用页面“秒开”

    近日,知乎在Gitee平台开源了其的鸿蒙“智能预渲染框架”,并将该框架的Har包上架到OpenHarmony三方库中心仓。该框架在鸿蒙平
    的头像 发表于 08-29 14:32 701次阅读
    知乎开源“智能预渲染<b class='flag-5'>框架</b>” 几行<b class='flag-5'>代码</b>实现鸿蒙应用页面“秒开”

    声智科技与蚂蚁集团共探声学AI前沿技术

    当声学AI遇上金融科技,会碰撞出怎样的火花?当声学AI模型赋能AI硬件产品,又将如何重塑人机交互的边界?近日,声智科技受邀参加蚂蚁集团《AI圆桌派》内部分享会,一场关于声学AI前沿技术与未来应用的深度对话就此展开。
    的头像 发表于 07-24 10:18 1163次阅读

    直击一线 | 简形电力技术团队攻坚特殊光伏变压器检测难题

    简形电力技术团队快速攻坚特殊光伏变压器检测数据异常,1小时完成仪器适配,验证仪器,彰显服务实力。
    的头像 发表于 06-13 09:52 864次阅读
    直击一线 | 简形电力<b class='flag-5'>技术</b><b class='flag-5'>团队</b>攻坚特殊光伏变压器检测难题

    商汤科技“小浣熊家族”与蚂蚁集团旗下智能体开发平台“蚂蚁百宝箱”正式达成生态合作

    打开蚂蚁百宝箱,跳出一只商汤小浣熊。 商汤科技“小浣熊家族”与蚂蚁集团旗下智能体开发平台“蚂蚁百宝箱”正式达成生态合作,双方联合打造“AI数据分析助手”,为百宝箱广大用户提供大模型服务
    的头像 发表于 06-09 15:09 1514次阅读
    商汤科技“小浣熊家族”与<b class='flag-5'>蚂蚁</b><b class='flag-5'>集团</b>旗下智能体开发平台“<b class='flag-5'>蚂蚁</b>百宝箱”正式达成生态合作

    江波龙车规存储矩阵登陆2025上海车展,PTM定制“驾控随芯”

    实现多模态交互与情感图谱引擎等,各大汽车品牌纷纷推出了其最新研发成果,引发业内关注。作为半导体存储品牌企业,江波龙以“自在存储驾控随芯”为主题,携矩阵车规存
    的头像 发表于 04-23 17:02 1137次阅读
    江波龙<b class='flag-5'>自</b><b class='flag-5'>研</b>车规存储<b class='flag-5'>全</b>矩阵登陆2025上海车展,PTM定制“驾控随芯”

    18个常用的强化学习算法整理:从基础方法到高级模型的理论技术代码实现

    本来转:DeepHubIMBA本文系统讲解从基本强化学习方法到高级技术(如PPO、A3C、PlaNet等)的实现原理与编码过程,旨在通过理论结合代码的方式,构建对强化学习算法的全面理
    的头像 发表于 04-23 13:22 1758次阅读
    18个常用的强化学习<b class='flag-5'>算法</b>整理:从基础方法到高级模型的理论<b class='flag-5'>技术</b>与<b class='flag-5'>代码</b>实现