0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Google正式发布LLM评测基准Android Bench

谷歌开发者 来源:谷歌开发者 2026-03-14 16:00 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

作者 / 产品副总裁、Android 开发者 Matthew McCullough

我们希望帮助您更快速、更轻松地构建高质量的 Android 应用,而提升生产力的方式之一,就是让 AI 触手可及。我们知道您希望 AI 真正理解 Android 平台的细微差异,因此我们一直在评估 LLM 在 Android 开发任务中的表现。现在,我们发布了Android Bench的首个版本,这是 Google 官方专门针对 Android 开发打造的 LLM 排行榜。

我们的目标是为模型开发者提供一个基准,用于评估 LLM 在 Android 开发方面的能力。通过为高质量的 Android 开发建立清晰、可靠的基准,我们致力于帮助模型开发者识别能力差距并加速改进。这将使开发者能够更高效地工作,并在更多优质模型中选择适合的 AI 辅助工具,最终推动 Android 生态系统的应用质量全面提升。

以现实世界的Android 开发任务为设计基础

我们通过整理一系列涵盖常见 Android 开发领域的任务来创建基准测试。该基准由不同难度的实际挑战组成,任务来源于公开的 GitHub Android 库。测试场景包括: 解决 Android 版本升级带来的破坏性更改、处理可穿戴设备上的网络连接等特定领域任务,以及迁移到最新版本的 Jetpack Compose 等。

在每次评估中,我们都会引导 LLM 尝试修复任务中报告的问题,并通过单元测试或插桩测试进行验证。这种与模型无关的方法,使我们能够衡量模型在复杂代码库中导航、理解依赖关系,以及解决开发者日常遇到的各类实际问题的能力。

我们已与多家 LLM 研发厂商 (包括 JetBrains) 共同验证了这一方法论。

JetBrains AI 集成负责人 Kirill Smelov:“衡量 AI 对 Android 的影响是一项巨大的挑战,因此很高兴看到这样一个完善且实用的框架。虽然我们自身也在积极进行基准测试,但 Android Bench 这一独特的且备受期待的补充方案确实很有意义。这种方法正是当前 Android 开发者所需要的严谨评估体系。”

首批 Android Bench 测试结果

在本次初始发布中,我们旨在纯粹评估模型性能,并未侧重智能体能力或工具的使用。结果显示,各模型任务完成率在 16% 至 72% 之间。这一较大的差距表明,部分 LLM 已经具备较强的 Android 开发基础能力,而另一些模型仍有较大的提升空间。无论当前表现如何,我们都期待 LLM 开发者持续优化其模型以更好地支持 Android 开发,并在此过程中不断地提升性能。

在本次首发评测中,平均得分最高的 LLM 是 Gemini 3.1 Pro,紧随其后的是 Claude Opus 4.6。您可以在最新稳定版本的Android Studio中配置 API 密钥,体验我们评测的所有模型,为您的 Android 项目提供 AI 辅助支持。

f658182a-1df9-11f1-90a1-92fbcf53809c.png

为开发者与 LLM 研发厂商提供信息透明度

我们秉持开放与透明的原则,因此我们的评测方法、数据集以及自动化测试框架已经在 GitHub 上公开。

任何公开基准都会面临一个挑战——数据污染的风险,即模型可能在训练过程中已经接触过评测任务。为确保评测结果反映的是真实推理能力,而非记忆或猜测,我们采取了多项措施,包括对智能体轨迹进行严格的人工审查,以及引入 Canary 字符串以劝阻模型对测试数据的训练学习。

展望未来,我们将持续优化评测方法,以维护数据集的完整性,同时不断改进基准的后续版本,例如增加任务数量和复杂度。

我们期待Android Bench在长远角度提升 AI 辅助开发能力;我们的愿景是缩小创意与高质量代码之间的差距,为未来奠定基础——助力您在 Android 上轻松构建出您心中所想。也欢迎您关注 "谷歌开发者" 微信公众号,及时了解更多开发技术和产品更新等资讯动态!

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • Android
    +关注

    关注

    12

    文章

    4035

    浏览量

    134446
  • Google
    +关注

    关注

    5

    文章

    1812

    浏览量

    60623
  • LLM
    LLM
    +关注

    关注

    1

    文章

    350

    浏览量

    1394

原文标题:Android Bench 正式发布 | 专为 Android 开发打造的 LLM 评测基准

文章出处:【微信号:Google_Developers,微信公众号:谷歌开发者】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    昆仑天工Skywork与Google Cloud深度合作发布桌面级Agent

    天工 Skywork 如何通过 Google 的 Gemini 3 模型家族,并结合 Google Distributed Cloud (GDC) 混合云架构,成功构建面向 Windows 生态的桌面级
    的头像 发表于 02-25 10:17 728次阅读

    谷歌Android Studio Otter 3功能更新发布

    我们很高兴地宣布,Android Studio Otter 3 功能更新稳定版现已发布!本次更新干货满满,不仅重磅升级了 Android Studio 中的智能体工作流,还为开发者提供了更高的灵活性和掌控力,助力大家轻松利用 A
    的头像 发表于 01-28 14:15 823次阅读
    谷歌<b class='flag-5'>Android</b> Studio Otter 3功能更新<b class='flag-5'>发布</b>

    探索MOTIX™ Motor Bench:电机控制评估的得力助手

    探索MOTIX™ Motor Bench:电机控制评估的得力助手 在电子工程师的日常工作中,电机控制评估是一个重要的环节,而合适的工具能极大提升工作效率和准确性。今天,我们就来深入了解一款出色的电机
    的头像 发表于 12-20 15:40 1030次阅读

    nordic NRF54蓝牙设备在Google Pixel 10上“听诊”蓝牙信道示例

    今年早些时候发布Android 16系统首次引入了支持蓝牙®信道探测的公共API,实现了智能手机的精准测距功能。然而直到近期,市面上仍未出现支持蓝牙6.0及信道探测技术的手机硬件。这一局面在
    发表于 11-26 17:44

    【CIE全国RISC-V创新应用大赛】+ 一种基于LLM的可通过图像语音控制的元件库管理工具

    一种基于LLM的可通过图像语音控制的元件库管理工具 项目概述 ​ 库存管理在我们的生活中几乎无处不在,在许多小型的库存当中,比如实验室中的库存管理,往往没有人去专职维护,这就会导致在日积月累中逐渐
    发表于 11-12 19:32

    JoyCode:SWE-bench Verified打榜技术报告

    在权威SWE-Bench Verified基准测试中,JoyCode Agent凭借 74.6% 的高通过率 强势登榜全球 Top3,并正式开源! Github开源地址:https
    的头像 发表于 11-03 17:16 1655次阅读
    JoyCode:SWE-<b class='flag-5'>bench</b> Verified打榜技术报告

    NVIDIA TensorRT LLM 1.0推理框架正式上线

    TensorRT LLM 作为 NVIDIA 为大规模 LLM 推理打造的推理框架,核心目标是突破 NVIDIA 平台上的推理性能瓶颈。为实现这一目标,其构建了多维度的核心实现路径:一方面,针对需
    的头像 发表于 10-21 11:04 1386次阅读

    广和通发布端侧情感对话大模型FiboEmo-LLM

    9月,广和通正式发布自主研发的端侧情感对话大模型FiboEmo-LLM。该模型专注于情感计算与自然语言交互融合,致力于为AI玩具、智能陪伴设备等终端场景提供“情感理解-情感响应”一体化能力,推动终端人工智能向更具人性化、情感化的方向演进。
    的头像 发表于 09-26 13:37 2011次阅读

    谷歌查找我的设备配件(Google Find My Device Accessory)详解和应用

    设备(Owner device)通常是指具有Android系统的设备如手机等,且和附件做过关联(配置),是配件的所有者,Google服务器和其它支持Google FMDN功能的手机或平板等An
    发表于 08-31 21:10

    Android 16更新亮点介绍

    Android 近期在整个平台上推出了一系列更新,包括:发布 Android 16 并为开发者和用户提供详细信息,推出改进外接显示设备上 Android 桌面体验的开发者预览版,为
    的头像 发表于 07-05 11:37 3901次阅读

    如何在魔搭社区使用TensorRT-LLM加速优化Qwen3系列模型推理部署

    TensorRT-LLM 作为 NVIDIA 专为 LLM 推理部署加速优化的开源库,可帮助开发者快速利用最新 LLM 完成应用原型验证与产品部署。
    的头像 发表于 07-04 14:38 2395次阅读

    Google Fast Pair服务简介

    Pair, and associated extensions, that are to be certified. 手机或其它Android 设备如何知道,附近蓝牙设备是否支持Google Fast
    发表于 06-29 19:28

    使用 llm-agent-rag-llamaindex 笔记本时收到的 NPU 错误怎么解决?

    使用 conda create -n ov-nb-demos python=3.11 创建运行 llm-agent-rag-llamaindex notebook 的环境。 执行“创建
    发表于 06-23 06:26

    使用NVIDIA Triton和TensorRT-LLM部署TTS应用的最佳实践

    针对基于 Diffusion 和 LLM 类别的 TTS 模型,NVIDIA Triton 和 TensorRT-LLM 方案能显著提升推理速度。在单张 NVIDIA Ada Lovelace
    的头像 发表于 06-12 15:37 2049次阅读
    使用NVIDIA Triton和TensorRT-<b class='flag-5'>LLM</b>部署TTS应用的最佳实践

    LM Studio使用NVIDIA技术加速LLM性能

    随着 AI 使用场景不断扩展(从文档摘要到定制化软件代理),开发者和技术爱好者正在寻求以更 快、更灵活的方式来运行大语言模型(LLM)。
    的头像 发表于 06-06 15:14 1408次阅读
    LM Studio使用NVIDIA技术加速<b class='flag-5'>LLM</b>性能