微软近日宣布,视觉Agent解析框架OmniParser已发布最新版本V2。这一新版本具有将大型语言模型如OpenAI(4o/o1/o3-mini)、DeepSeek(R1)、Qwen(2.5VL)以及Anthropic(Sonnet)等,转化为“计算机使用智能体”(Computer Use Agent)的能力。
与前一版本相比,OmniParser V2在检测更微小、可交互的元素时展现出了更高的精度和更快的推理速度。这一显著提升得益于V2采用了更大规模的交互元素检测数据集和图标功能描述数据进行训练。通过这些训练,OmniParser V2能够更好地理解和识别计算机界面中的各种元素,从而为用户提供更加智能、便捷的操作体验。
此外,OmniParser V2还通过缩小图标描述模型的输入图像尺寸,进一步降低了推理延迟。据微软透露,与前代版本相比,V2的推理延迟降低了60%,这意味着用户可以更加迅速地获得系统的响应和反馈。
微软OmniParser V2的发布,标志着大型语言模型在计算机使用智能体领域的应用取得了重要进展。
-
微软
+关注
关注
4文章
6719浏览量
107318 -
计算机
+关注
关注
19文章
7763浏览量
92666 -
大模型
+关注
关注
2文章
3439浏览量
4960
发布评论请先 登录
香蕉派 BPI-2K3000 工业计算机开发板采用龙芯2K3000芯片设计
【「AI芯片:科技探索与AGI愿景」阅读体验】+具身智能芯片
【作品合集】赛昉科技VisionFive 2单板计算机开发板测评
微软正式发布Microsoft行星计算机专业版
自动化计算机经过加固后有什么好处?
自动化计算机的功能与用途
工业计算机与商用计算机的区别有哪些
在V2板子上部署豆包模型调试指南
一文带你了解工业计算机尺寸
求助,关于LT8625SP在LTPOWERCADII V2中的疑问求解
软通计算机重磅发布DeepSeek大模型一体机产品
机智云发布Gokit5 AI智能体开发板:工业级智能体流水线重构AIoT开发范式

微软OmniParser V2:大模型转化为计算机智能体
评论