谷歌正式发布Gemma Scope 2模型-电子发烧友网

作者 / 语言模型可解释性团队

大语言模型 (LLM) 具备令人惊叹的推理能力，但其内部决策过程在很大程度上仍然不透明。如果系统未按预期运行，对其内部运作机制缺乏可见性将难以准确定位问题根源。过去，我们通过发布Gemma Scope工具包推动了可解释性科学的发展，该工具旨在帮助研究人员理解我们轻量级开放模型系列 Gemma 2 的内部运作机制。

近期我们正式发布了Gemma Scope 2: 这是一套全面且开放的可解释性工具套件，适用于从 2.7 亿到 270 亿参数的所有Gemma 3模型规模。借助这套工具，我们可以追踪模型整个 "大脑" 中的潜在风险。

据我们了解，这是迄今为止 AI 实验室发布的最大规模可解释性工具开源项目。构建 Gemma Scope 2 共涉及存储约 110PB 数据，训练的参数量更是超过了 1 万亿。

随着 AI 持续发展，我们期待 AI 研究社区运用 Gemma Scope 2 来调试模型涌现行为，借助这些工具更有效地审计与调试 AI 智能体，最终实现加速开发实用且稳健的安全干预方案，以应对越狱攻击、幻觉生成及谄媚倾向等问题。

我们与 Neuronpedia 合作推出的Gemma Scope 2 交互式演示现已开放体验。

Gemma Scope 2 新功能

可解释性研究旨在揭示 AI 模型的内部运作机制及其训练中习得的算法。随着 AI 的能力日益增强、系统日趋复杂，可解释性对于构建安全可靠的 AI 至关重要。

与上一代工具类似，Gemma Scope 2 如同为 Gemma 系列语言模型配备的显微镜。通过结合稀疏自编码器 (SAEs) 与转码器，研究人员得以深入模型内部，观察其思考内容，溯源这些思维如何形成并与模型行为产生关联。由此，这种洞察力进一步推动对越狱攻击等 AI 安全相关问题的更深入研究，例如揭示模型对外表述的推理过程与其内部真实状态之间的差异。

初代 Gemma Scope 已在模型幻觉、识别模型已知机密信息、训练更安全模型等关键安全研究领域发挥作用，而 Gemma Scope 2 则通过以下重大升级来支持更具雄心的研究:

全规模覆盖: 我们为整个 Gemma 3 系列 (参数规模最高达 270 亿) 提供了一整套完整的工具，这对于研究仅在大规模模型中显现的涌现行为至关重要。例如，此前270 亿参数的 C2S Scale 模型曾协助科研人员发现潜在的新型癌症治疗路径。尽管 Gemma Scope 2 并未在该模型上进行训练，但这一案例体现了此工具套件未来有望解析的涌现行为类型。

更精细的复杂内部行为解析工具: Gemma Scope 2 包含针对 Gemma 3 模型系列每一层训练的稀疏自编码器与转码器。通过引入跳跃转码器和跨层转码器，让解析贯穿在模型中的多步骤计算与算法变得更加轻松。

先进的训练技术: 我们采用最前沿的训练技术，特别是Matryoshka 训练技术，该技术能帮助稀疏自编码器识别更有价值的概念，并修正了在初代 Gemma Scope 中发现的部分缺陷。

对话机器人行为分析工具: 对于针对聊天场景微调的 Gemma 3 版本，我们还专门提供定制化的可解释性工具。这些工具有助于分析复杂、多步骤的行为模式，例如越狱攻击、拒绝响应机制以及思维链的忠实度。

推动领域发展

我们希望通过发布 Gemma Scope 2 为 AI 安全研究社区提供一套前沿的可解释性工具，以推动该领域发展。针对那些仅在更大、更先进的大语言模型中出现的现实安全问题，这种全新的开放程度提供了至关重要的解决途径。欢迎您持续关注 "谷歌开发者" 微信公众号，及时了解更多开发技术和产品更新等资讯动态。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉