0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

苹果发布研究论文:揭示Ferret-UI AI系统,破解MLLMs移动应用理解难题

微云疏影 来源:综合整理 作者:综合整理 2024-04-10 10:17 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

据悉,Apple近期发表了有关于Ferret-UI AI系统的研究论文,这款新型AI系统可理解应用程序屏幕上的内容。

目前围绕人工智能(AI)技术,出现了如ChatGPT这样的大语言模型(LLMs),这些模型擅长处理文本资料。然而,对于像图片、视频和声音等多媒体类型的非文本n内容,就需要扩大AI模型的适用范围,相应地,多模态大语言模型(MLLMs)也就应运而生。

尽管MLLMs已表现出对移动应用程序的理解不足,具体表现在以下几点:

首先,智能手机屏幕的宽高比和大多数训练视觉模型所使用的比例不同;其次,MLLMs需要识别出较小的图标和按钮。

针对以上问题,Apple提出了名为“Ferret-UI”的MLLM系统,以应对这些挑战。系统通过引入WMDR(任意分辨率),提升模型在处理用户界面任务时的辨识度,使其能更好地识别和理解小图标、文字等元素。

此外,我们专门采集了大量与初级用户界面任务相关的样本,包括图标识别、文本查找和小部件列表等。所有样本均按照区域注释指令进行设计,以便于精确解释和实用化。

为了提高模型的认知水平,我们进一步定制了高级任务数据集,含括详细描写、感官/互交互对话及功能推理等方面。

该项研究表明,与现行的GPT-4V以及其他MLLMs模型相比,Ferret-UI AI模型具有显著优势。

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1813

    文章

    49781

    浏览量

    261862
  • 语言模型
    +关注

    关注

    0

    文章

    570

    浏览量

    11265
  • ChatGPT
    +关注

    关注

    31

    文章

    1596

    浏览量

    10095
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    华为发布并开源创新AI容器技术Flex:ai

    11月21日,2025AI容器应用落地与发展论坛在上海举行。华为公司副总裁、数据存储产品线总裁周跃峰博士在论坛上正式发布AI容器技术——Flex:ai,同时,华为联合上海交通大学、西安
    的头像 发表于 11-25 15:34 397次阅读

    GMate发布《2025全球AI内容营销趋势报告》

    条社媒内容样本的深入研究揭示AI营销如何重塑品牌增长模式,成为2025年全球企业竞争的核心驱动力。   一、A
    的头像 发表于 11-18 19:42 336次阅读

    新能源电子EMC整改:破解电磁兼容难题系统工程

    深圳南柯电子|新能源电子EMC整改:破解电磁兼容难题系统工程
    的头像 发表于 11-13 09:27 291次阅读

    新能源电子EMC整改:破解电磁兼容难题系统方案

    深圳南柯电子|新能源电子EMC整改:破解电磁兼容难题系统方案
    的头像 发表于 11-04 09:56 223次阅读

    海瑞思科技如何破解AI眼镜密封检测难题

    2025年,消费电子赛道的最大黑马无疑是AI眼镜!根据调研机构Counterpoint发布的《全球智能眼镜型号出货量追踪》报告,2025年上半年国际智能眼镜市场的出货量同比增长110%。随着技术突破与场景刚需的双重推动,AI眼镜
    的头像 发表于 09-26 10:46 654次阅读

    实时监测技术如何破解高温巡检难题

    持续高温,电网负荷屡创新高。设备过热引发故障风险激增,如何准确防控?本文聚焦实时监测技术如何破解高温巡检难题
    的头像 发表于 08-12 14:20 639次阅读
    实时监测技术如何<b class='flag-5'>破解</b>高温巡检<b class='flag-5'>难题</b>

    【「零基础开发AI Agent」阅读体验】+Agent的案例解读

    AI助手等功能,大大提升了古籍整理与研究利用的效率。​ 业务特色​ 在引入扣子前,识典古籍在古籍数字化过程中面临以下的挑战:​ 1)内容理解难度高 古籍语言复杂晦涩,使普通用户往往望而却步,平台
    发表于 05-14 11:23

    企业通过AI技术定制提升营业收入

    生成式AI技术正在重塑我们的生活场景,而商业战场上已掀起AI定制的浪潮。MIT最新报告揭示,50%企业通过AI定制实现效率跃升,49%借此构筑竞争壁垒,但数据隐私与人才缺口等仍是最大挑
    的头像 发表于 04-16 12:48 856次阅读

    Banana Pi 发布 BPI-AI2N &amp; BPI-AI2N Carrier,助力 AI 计算与嵌入式开发

    RZ/V2N——近期在嵌入式世界2025上新发布,为 AI 计算、嵌入式系统及工自动化提供强大支持。这款全新的计算平台旨在满足开发者和企业用户对高性能、低功耗和灵活扩展的需求。 []() 领先的计算
    发表于 03-19 17:54

    美报告:中国芯片研究论文全球领先

    据新华社报道,美国乔治敦大学“新兴技术观察项目(ETO)”3日在其网站发布一份报告说,2018年至2023年间,在全球发表的芯片设计和制造相关论文中,中国研究人员的论文数量远超其他国家
    的头像 发表于 03-05 14:32 1738次阅读

    AI Agent 应用与项目实战》阅读心得2——客服机器人、AutoGen框架 、生成式代理

    关系,这种表示方法使得代理能够更好地理解和预测环境变化。项目的评估结果表明,具备记忆和反思能力的代理在长期交互任务中表现出了更好的适应性和学习能力,这对未来AI系统的设计具有重要的启发意义。 总的来说
    发表于 02-25 21:59

    中兴通讯AiCube:破解AI模型部署难题

    ,成为制约技术价值释放的新痛点。 异构算力适配困难、算力资源利用率低以及数据安全风险高等问题,让许多企业在AI技术的实际应用中遇到了瓶颈。这些问题不仅增加了部署的难度,还可能导致资源的浪费和潜在的安全威胁。 为了破解这一难题,中
    的头像 发表于 02-13 09:11 887次阅读

    Qt Group发布Qt AI Assistant,助力跨平台UI开发

    为了进一步提升跨平台用户界面(UI)开发的效率与便捷性,Qt Group近日推出了一款实验性工具——Qt AI Assistant。这款工具的问世,标志着Qt Group在简化UI开发流程、减少
    的头像 发表于 02-07 13:47 1666次阅读

    英监管机构或优先调查苹果谷歌移动生态系统

    近日,英国竞争与市场管理局(CMA)发布了一项重要声明,引起了广泛关注。该声明指出,CMA正考虑根据将于明年生效的数字市场竞争新规,优先对苹果和谷歌的移动生态系统活动展开调查。 据悉,
    的头像 发表于 02-05 13:46 815次阅读

    华为悬赏300万元求解难题 牵引全球数据存储领域基础理论研究方向

    华为奥林帕斯奖奖金池高达3百万,设置有2个奥林帕斯奖,奖金各100万元;5个奥林帕斯先锋奖,奖金各20万元。 难题1:每bit极致性价比的存储技术 AI应用的普及,引发存储数据量激增且长期留存,冷数据呈现向温数据转变的趋势,研究
    的头像 发表于 12-30 17:50 1322次阅读