作者 / 语言模型可解释性团队
大语言模型 (LLM) 具备令人惊叹的推理能力,但其内部决策过程在很大程度上仍然不透明。如果系统未按预期运行,对其内部运作机制缺乏可见性将难以准确定位问题根源。过去,我们通过发布Gemma Scope工具包推动了可解释性科学的发展,该工具旨在帮助研究人员理解我们轻量级开放模型系列 Gemma 2 的内部运作机制。
近期我们正式发布了Gemma Scope 2: 这是一套全面且开放的可解释性工具套件,适用于从 2.7 亿到 270 亿参数的所有Gemma 3模型规模。借助这套工具,我们可以追踪模型整个 "大脑" 中的潜在风险。
据我们了解,这是迄今为止 AI 实验室发布的最大规模可解释性工具开源项目。构建 Gemma Scope 2 共涉及存储约 110PB 数据,训练的参数量更是超过了 1 万亿。
随着 AI 持续发展,我们期待 AI 研究社区运用 Gemma Scope 2 来调试模型涌现行为,借助这些工具更有效地审计与调试 AI 智能体,最终实现加速开发实用且稳健的安全干预方案,以应对越狱攻击、幻觉生成及谄媚倾向等问题。
我们与 Neuronpedia 合作推出的Gemma Scope 2 交互式演示现已开放体验。
Gemma Scope 2 新功能
可解释性研究旨在揭示 AI 模型的内部运作机制及其训练中习得的算法。随着 AI 的能力日益增强、系统日趋复杂,可解释性对于构建安全可靠的 AI 至关重要。
与上一代工具类似,Gemma Scope 2 如同为 Gemma 系列语言模型配备的显微镜。通过结合稀疏自编码器 (SAEs) 与转码器,研究人员得以深入模型内部,观察其思考内容,溯源这些思维如何形成并与模型行为产生关联。由此,这种洞察力进一步推动对越狱攻击等 AI 安全相关问题的更深入研究,例如揭示模型对外表述的推理过程与其内部真实状态之间的差异。
初代 Gemma Scope 已在模型幻觉、识别模型已知机密信息、训练更安全模型等关键安全研究领域发挥作用,而 Gemma Scope 2 则通过以下重大升级来支持更具雄心的研究:
全规模覆盖: 我们为整个 Gemma 3 系列 (参数规模最高达 270 亿) 提供了一整套完整的工具,这对于研究仅在大规模模型中显现的涌现行为至关重要。例如,此前270 亿参数的 C2S Scale 模型曾协助科研人员发现潜在的新型癌症治疗路径。尽管 Gemma Scope 2 并未在该模型上进行训练,但这一案例体现了此工具套件未来有望解析的涌现行为类型。
更精细的复杂内部行为解析工具: Gemma Scope 2 包含针对 Gemma 3 模型系列每一层训练的稀疏自编码器与转码器。通过引入跳跃转码器和跨层转码器,让解析贯穿在模型中的多步骤计算与算法变得更加轻松。
先进的训练技术: 我们采用最前沿的训练技术,特别是Matryoshka 训练技术,该技术能帮助稀疏自编码器识别更有价值的概念,并修正了在初代 Gemma Scope 中发现的部分缺陷。
对话机器人行为分析工具: 对于针对聊天场景微调的 Gemma 3 版本,我们还专门提供定制化的可解释性工具。这些工具有助于分析复杂、多步骤的行为模式,例如越狱攻击、拒绝响应机制以及思维链的忠实度。
推动领域发展
我们希望通过发布 Gemma Scope 2 为 AI 安全研究社区提供一套前沿的可解释性工具,以推动该领域发展。针对那些仅在更大、更先进的大语言模型中出现的现实安全问题,这种全新的开放程度提供了至关重要的解决途径。欢迎您持续关注 "谷歌开发者" 微信公众号,及时了解更多开发技术和产品更新等资讯动态。
-
谷歌
+关注
关注
27文章
6271浏览量
112181 -
AI
+关注
关注
91文章
41970浏览量
303061 -
模型
+关注
关注
1文章
3873浏览量
52337
原文标题:Gemma Scope 2: 赋能 AI 安全社区,深度洞察大语言模型复杂行为
文章出处:【微信号:Google_Developers,微信公众号:谷歌开发者】欢迎添加关注!文章转载请注明出处。
发布评论请先 登录
谷歌发布Gemini for Science
Google为Gemma 4系列发布MTP草稿模型
瑞芯微(EASY EAI)RV1126B AI模型转换
在Google AI Edge Gallery中探索Gemma 4的Agent Skills
Google正式推出最新开放模型Gemma 4
谷歌推出TranslateGemma全新开放翻译模型系列
解锁谷歌FunctionGemma模型的无限潜力
借助谷歌FunctionGemma模型构建下一代端侧智能体
泰凌微:布局端侧AI,产品支持谷歌LiteRT、TVM开源模型
谷歌与耶鲁大学合作发布最新C2S-Scale 27B模型
谷歌推出AI模型Gemma 3 270M
谷歌Gemma 3n模型的新功能
Liquid AI发布边缘AI模型LFM2,实现毫秒级实时推理与离线运行
谷歌Gemma 3n预览版全新发布
树莓派5上的Gemma 2:如何打造高效的边缘AI解决方案?
谷歌正式发布Gemma Scope 2模型
评论