0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

谷歌正式发布Gemma Scope 2模型

谷歌开发者 来源:谷歌开发者 2026-01-24 14:01 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

作者 / 语言模型可解释性团队

大语言模型 (LLM) 具备令人惊叹的推理能力,但其内部决策过程在很大程度上仍然不透明。如果系统未按预期运行,对其内部运作机制缺乏可见性将难以准确定位问题根源。过去,我们通过发布Gemma Scope工具包推动了可解释性科学的发展,该工具旨在帮助研究人员理解我们轻量级开放模型系列 Gemma 2 的内部运作机制。

近期我们正式发布了Gemma Scope 2: 这是一套全面且开放的可解释性工具套件,适用于从 2.7 亿到 270 亿参数的所有Gemma 3模型规模。借助这套工具,我们可以追踪模型整个 "大脑" 中的潜在风险。

据我们了解,这是迄今为止 AI 实验室发布的最大规模可解释性工具开源项目。构建 Gemma Scope 2 共涉及存储约 110PB 数据,训练的参数量更是超过了 1 万亿。

随着 AI 持续发展,我们期待 AI 研究社区运用 Gemma Scope 2 来调试模型涌现行为,借助这些工具更有效地审计与调试 AI 智能体,最终实现加速开发实用且稳健的安全干预方案,以应对越狱攻击、幻觉生成及谄媚倾向等问题。

我们与 Neuronpedia 合作推出的Gemma Scope 2 交互式演示现已开放体验。

Gemma Scope 2 新功能

可解释性研究旨在揭示 AI 模型的内部运作机制及其训练中习得的算法。随着 AI 的能力日益增强、系统日趋复杂,可解释性对于构建安全可靠的 AI 至关重要。

与上一代工具类似,Gemma Scope 2 如同为 Gemma 系列语言模型配备的显微镜。通过结合稀疏自编码器 (SAEs) 与转码器,研究人员得以深入模型内部,观察其思考内容,溯源这些思维如何形成并与模型行为产生关联。由此,这种洞察力进一步推动对越狱攻击等 AI 安全相关问题的更深入研究,例如揭示模型对外表述的推理过程与其内部真实状态之间的差异。

初代 Gemma Scope 已在模型幻觉、识别模型已知机密信息、训练更安全模型等关键安全研究领域发挥作用,而 Gemma Scope 2 则通过以下重大升级来支持更具雄心的研究:

全规模覆盖: 我们为整个 Gemma 3 系列 (参数规模最高达 270 亿) 提供了一整套完整的工具,这对于研究仅在大规模模型中显现的涌现行为至关重要。例如,此前270 亿参数的 C2S Scale 模型曾协助科研人员发现潜在的新型癌症治疗路径。尽管 Gemma Scope 2 并未在该模型上进行训练,但这一案例体现了此工具套件未来有望解析的涌现行为类型。

更精细的复杂内部行为解析工具: Gemma Scope 2 包含针对 Gemma 3 模型系列每一层训练的稀疏自编码器与转码器。通过引入跳跃转码器和跨层转码器,让解析贯穿在模型中的多步骤计算与算法变得更加轻松。

先进的训练技术: 我们采用最前沿的训练技术,特别是Matryoshka 训练技术,该技术能帮助稀疏自编码器识别更有价值的概念,并修正了在初代 Gemma Scope 中发现的部分缺陷。

对话机器人行为分析工具: 对于针对聊天场景微调的 Gemma 3 版本,我们还专门提供定制化的可解释性工具。这些工具有助于分析复杂、多步骤的行为模式,例如越狱攻击、拒绝响应机制以及思维链的忠实度。

推动领域发展

我们希望通过发布 Gemma Scope 2 为 AI 安全研究社区提供一套前沿的可解释性工具,以推动该领域发展。针对那些仅在更大、更先进的大语言模型中出现的现实安全问题,这种全新的开放程度提供了至关重要的解决途径。欢迎您持续关注 "谷歌开发者" 微信公众号,及时了解更多开发技术和产品更新等资讯动态。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 谷歌
    +关注

    关注

    27

    文章

    6271

    浏览量

    112181
  • AI
    AI
    +关注

    关注

    91

    文章

    41970

    浏览量

    303061
  • 模型
    +关注

    关注

    1

    文章

    3873

    浏览量

    52337

原文标题:Gemma Scope 2: 赋能 AI 安全社区,深度洞察大语言模型复杂行为

文章出处:【微信号:Google_Developers,微信公众号:谷歌开发者】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    谷歌发布Gemini for Science

    2026年5月20日,谷歌I/O开发者大会上,谷歌正式推出Gemini for Science——一款专门面向科研场景的AI模型。这不是又一个能帮你查文献的聊天机器人,而是谷歌试图让A
    的头像 发表于 05-21 10:42 849次阅读

    Google为Gemma 4系列发布MTP草稿模型

    上个月,我们推出了 Gemma 4 —— 我们迄今为止最强大的开放模型。在发布之初的短短几周内,Gemma 4 的全球下载量便突破了 6,000 万次。它为开发者工作站、移动设备以及云
    的头像 发表于 05-20 14:43 343次阅读
    Google为<b class='flag-5'>Gemma</b> 4系列<b class='flag-5'>发布</b>MTP草稿<b class='flag-5'>模型</b>

    瑞芯微(EASY EAI)RV1126B AI模型转换

    ,Qwen,Qwen2,Phi-2,Phi-3,ChatGLM3,Gemma,InternLM2和MiniCPM等,本章以Deepseek-R1为例。本章主要说明如何
    的头像 发表于 05-13 16:58 349次阅读
    瑞芯微(EASY EAI)RV1126B AI<b class='flag-5'>模型</b>转换

    在Google AI Edge Gallery中探索Gemma 4的Agent Skills

    前不久,Google DeepMind 推出了 Gemma 4,这是一系列业界领先的开放模型,重塑了端侧 AI 的可能性。Gemma 4 已通过 Apache 2.0 许可发布,为开发
    的头像 发表于 04-23 09:19 636次阅读

    Google正式推出最新开放模型Gemma 4

    源于社区的巨大推动力: 自第一代模型发布以来,Gemma 的下载量已突破 4 亿次,并构建了一个拥有超过 10 万个衍生模型且充满活力的 Gemmaverse 生态系统。我们密切关注开
    的头像 发表于 04-08 10:06 712次阅读
    Google正式推出最新开放<b class='flag-5'>模型</b><b class='flag-5'>Gemma</b> 4

    谷歌推出TranslateGemma全新开放翻译模型系列

    我们已正式推出 TranslateGemma,这一全新的开放翻译模型系列基于 Gemma 3 构建,并提供 4B、12B 和 27B 三种参数规模。TranslateGemma 的问世标志着开放翻译领域迈出了重要一步,它可帮助人们跨越 55 种语言进行交流,无论身在何处或
    的头像 发表于 02-26 10:22 831次阅读

    解锁谷歌FunctionGemma模型的无限潜力

    在智能体 AI 领域,工具调用能力是将自然语言转化为可执行软件操作的关键。此前,我们发布了专门针对函数调用而特别优化的 Gemma 3 270M 模型版本 FunctionGemma。该模型
    的头像 发表于 02-04 11:30 506次阅读
    解锁<b class='flag-5'>谷歌</b>FunctionGemma<b class='flag-5'>模型</b>的无限潜力

    借助谷歌FunctionGemma模型构建下一代端侧智能体

    对于 Gemma 模型系列而言,2025 年是充满变革的一年。我们的下载量已从 1 亿次增长到超过 3 亿次,同时还展现了开放模型的变革潜力: 从凭借 Gemma 3 定义最先进的单加
    的头像 发表于 01-20 09:11 906次阅读
    借助<b class='flag-5'>谷歌</b>FunctionGemma<b class='flag-5'>模型</b>构建下一代端侧智能体

    泰凌微:布局端侧AI,产品支持谷歌LiteRT、TVM开源模型

    。   公司发布的基于TL721X系列芯片的TL-EdgeAI平台,支持谷歌LiteRT、TVM等开源模型,是目前世界上功耗最低的智能物联网连接协议平台。其芯片已在谷歌(Google)
    的头像 发表于 12-15 08:21 1.1w次阅读

    谷歌与耶鲁大学合作发布最新C2S-Scale 27B模型

    我们很荣幸发布与耶鲁大学合作研究的 Cell2Sentence-Scale 27B (C2S-Scale),这是一个新的 270 亿参数基础模型,旨在理解单个细胞的 "语言"。C
    的头像 发表于 11-06 10:35 1137次阅读

    谷歌推出AI模型Gemma 3 270M

    过去几个月,Gemma 开放模型系列的发展是激动人心的。我们推出了 Gemma 3 和 Gemma 3 QAT,为单一云端和桌面加速器带来了最先进的性能。
    的头像 发表于 09-11 15:09 1406次阅读

    谷歌Gemma 3n模型的新功能

    从第一个 Gemma 模型于去年年初推出以来,已逐渐发展为生机勃勃的 Gemmaverse 生态系统,累计下载量突破 1.6 亿。这个生态系统包括十余款专业模型系列,涵盖从安全防护到医疗应用的各领
    的头像 发表于 07-25 10:16 1779次阅读
    <b class='flag-5'>谷歌</b><b class='flag-5'>Gemma</b> 3n<b class='flag-5'>模型</b>的新功能

    Liquid AI发布边缘AI模型LFM2,实现毫秒级实时推理与离线运行

    源于对AI底层逻辑的重构。与传统基于Transformer的模型不同,LFM2采用结构化、自适应的算子构建,其灵感源自动态系统理论、信号处理与数值线性代数的深度融合。   这种设计使模型具备三大核心优势:其一,训练效率较上一代提
    的头像 发表于 07-15 08:59 6099次阅读

    谷歌Gemma 3n预览版全新发布

    Gemma 3 和 Gemma 3 QAT 的成功发布之后,我们的先进开放模型系列具备了在单一云端或桌面加速器上运行的能力,我们正在进一步推进我们对可访问 AI 的愿景。
    的头像 发表于 06-26 17:18 1175次阅读

    树莓派5上的Gemma 2:如何打造高效的边缘AI解决方案?

    从数学基础到边缘实现,研究团队:Conecta.ai(ufrn.br)摘要1.引言2.GEMMA2:通用集成机器模型算法2.1模型架构2.2预训练2.3后训练3.边缘AI实现1.引言GEMMA
    的头像 发表于 06-20 16:57 1872次阅读
    树莓派5上的<b class='flag-5'>Gemma</b> <b class='flag-5'>2</b>:如何打造高效的边缘AI解决方案?