作者 / 产品副总裁、Android 开发者 Matthew McCullough
我们希望帮助您更快速、更轻松地构建高质量的 Android 应用,而提升生产力的方式之一,就是让 AI 触手可及。我们知道您希望 AI 真正理解 Android 平台的细微差异,因此我们一直在评估 LLM 在 Android 开发任务中的表现。现在,我们发布了Android Bench的首个版本,这是 Google 官方专门针对 Android 开发打造的 LLM 排行榜。
我们的目标是为模型开发者提供一个基准,用于评估 LLM 在 Android 开发方面的能力。通过为高质量的 Android 开发建立清晰、可靠的基准,我们致力于帮助模型开发者识别能力差距并加速改进。这将使开发者能够更高效地工作,并在更多优质模型中选择适合的 AI 辅助工具,最终推动 Android 生态系统的应用质量全面提升。
以现实世界的Android 开发任务为设计基础
我们通过整理一系列涵盖常见 Android 开发领域的任务来创建基准测试。该基准由不同难度的实际挑战组成,任务来源于公开的 GitHub Android 库。测试场景包括: 解决 Android 版本升级带来的破坏性更改、处理可穿戴设备上的网络连接等特定领域任务,以及迁移到最新版本的 Jetpack Compose 等。
在每次评估中,我们都会引导 LLM 尝试修复任务中报告的问题,并通过单元测试或插桩测试进行验证。这种与模型无关的方法,使我们能够衡量模型在复杂代码库中导航、理解依赖关系,以及解决开发者日常遇到的各类实际问题的能力。
我们已与多家 LLM 研发厂商 (包括 JetBrains) 共同验证了这一方法论。
JetBrains AI 集成负责人 Kirill Smelov:“衡量 AI 对 Android 的影响是一项巨大的挑战,因此很高兴看到这样一个完善且实用的框架。虽然我们自身也在积极进行基准测试,但 Android Bench 这一独特的且备受期待的补充方案确实很有意义。这种方法正是当前 Android 开发者所需要的严谨评估体系。”
首批 Android Bench 测试结果
在本次初始发布中,我们旨在纯粹评估模型性能,并未侧重智能体能力或工具的使用。结果显示,各模型任务完成率在 16% 至 72% 之间。这一较大的差距表明,部分 LLM 已经具备较强的 Android 开发基础能力,而另一些模型仍有较大的提升空间。无论当前表现如何,我们都期待 LLM 开发者持续优化其模型以更好地支持 Android 开发,并在此过程中不断地提升性能。
在本次首发评测中,平均得分最高的 LLM 是 Gemini 3.1 Pro,紧随其后的是 Claude Opus 4.6。您可以在最新稳定版本的Android Studio中配置 API 密钥,体验我们评测的所有模型,为您的 Android 项目提供 AI 辅助支持。

为开发者与 LLM 研发厂商提供信息透明度
我们秉持开放与透明的原则,因此我们的评测方法、数据集以及自动化测试框架已经在 GitHub 上公开。
任何公开基准都会面临一个挑战——数据污染的风险,即模型可能在训练过程中已经接触过评测任务。为确保评测结果反映的是真实推理能力,而非记忆或猜测,我们采取了多项措施,包括对智能体轨迹进行严格的人工审查,以及引入 Canary 字符串以劝阻模型对测试数据的训练学习。
展望未来,我们将持续优化评测方法,以维护数据集的完整性,同时不断改进基准的后续版本,例如增加任务数量和复杂度。
我们期待Android Bench在长远角度提升 AI 辅助开发能力;我们的愿景是缩小创意与高质量代码之间的差距,为未来奠定基础——助力您在 Android 上轻松构建出您心中所想。也欢迎您关注 "谷歌开发者" 微信公众号,及时了解更多开发技术和产品更新等资讯动态!
-
Android
+关注
关注
12文章
4035浏览量
134446 -
Google
+关注
关注
5文章
1812浏览量
60623 -
LLM
+关注
关注
1文章
350浏览量
1394
原文标题:Android Bench 正式发布 | 专为 Android 开发打造的 LLM 评测基准
文章出处:【微信号:Google_Developers,微信公众号:谷歌开发者】欢迎添加关注!文章转载请注明出处。
发布评论请先 登录
昆仑天工Skywork与Google Cloud深度合作发布桌面级Agent
谷歌Android Studio Otter 3功能更新发布
探索MOTIX™ Motor Bench:电机控制评估的得力助手
nordic NRF54蓝牙设备在Google Pixel 10上“听诊”蓝牙信道示例
【CIE全国RISC-V创新应用大赛】+ 一种基于LLM的可通过图像语音控制的元件库管理工具
JoyCode:SWE-bench Verified打榜技术报告
NVIDIA TensorRT LLM 1.0推理框架正式上线
广和通发布端侧情感对话大模型FiboEmo-LLM
谷歌查找我的设备配件(Google Find My Device Accessory)详解和应用
Android 16更新亮点介绍
如何在魔搭社区使用TensorRT-LLM加速优化Qwen3系列模型推理部署
Google Fast Pair服务简介
使用 llm-agent-rag-llamaindex 笔记本时收到的 NPU 错误怎么解决?
使用NVIDIA Triton和TensorRT-LLM部署TTS应用的最佳实践
Google正式发布LLM评测基准Android Bench
评论