近日,微软官网宣布了一项重要更新。微软发布了其视觉Agent解析框架OmniParser的最新版本V2。这一新版本具备将包括OpenAI的4o、o1、o3-mini,DeepSeek的R1,Qwen的2.5VL,以及Anthropic的Sonnet在内的大模型,转化为“计算机使用智能体”(Computer Use Agent)的能力。
与前代版本相比,OmniParser V2在多个方面实现了显著提升。在检测更微小、可交互的元素时,V2展现了更高的精度和更快的推理速度。这一提升得益于V2采用了更大规模的交互元素检测数据集和图标功能描述数据进行训练。
此外,OmniParser V2还通过缩小图标描述模型的输入图像尺寸,进一步优化了推理性能。据微软官方数据,与前代版本相比,V2的推理延迟降低了60%。这一改进使得OmniParser V2在处理复杂视觉任务时更加高效,为用户提供了更加流畅、实时的交互体验。
此次OmniParser V2的发布,不仅展示了微软在人工智能领域的持续创新,也为大模型在计算机智能体领域的应用开辟了新的道路。
-
微软
+关注
关注
4文章
6719浏览量
107354 -
计算机
+关注
关注
19文章
7764浏览量
92688 -
数据集
+关注
关注
4文章
1230浏览量
26046 -
大模型
+关注
关注
2文章
3442浏览量
4970
发布评论请先 登录
【作品合集】赛昉科技VisionFive 2单板计算机开发板测评
微软正式发布Microsoft行星计算机专业版
新一代神经拟态类脑计算机“悟空”发布,神经元数量超20亿
在V2板子上部署豆包模型调试指南
微软推出两款全新销售智能体
求助,关于LT8625SP在LTPOWERCADII V2中的疑问求解
硅基觉醒已至前夜,联发科携手生态加速智能体化用户体验时代到来
软通计算机重磅发布DeepSeek大模型一体机产品
NVIDIA 宣布推出 DGX Spark 个人 AI 计算机
机智云发布Gokit5 AI智能体开发板:工业级智能体流水线重构AIoT开发范式

微软OmniParser V2发布:大模型转化为计算机智能体
评论