0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

谷歌Gemini 2.5模型系列更新

谷歌开发者 来源:谷歌黑板报 2025-05-23 14:56 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

来源:谷歌黑板报

作者:

Tulsee Doshi,产品管理高级总监,代表 Gemini 团队

今年 3 月,我们发布了迄今为止最智能的模型 Gemini 2.5 Pro,两周前,我们提前为您带来了 I/O 更新,以便开发者构建出色的网络应用。今天,我们分享 Gemini 2.5 模型系列的更多更新:

除了 2.5 Pro 在学术基准测试中令人难以置信的性能外,它现在还是 WebDev Arena 和 LMArena 排行榜上的全球领先模型,并且在帮助人们学习方面表现出色。

我们正在为 2.5 Pro 和 2.5 Flash 带来新功能: 用于更自然对话体验的原生音频输出、更高的安全防护,以及 Project Mariner 的计算机使用功能。2.5 Pro 还将通过 Deep Think,一种用于高度复杂的数学和编程的实验性增强推理模式,进一步升级。

我们继续投资于开发者体验,在 Gemini API 和 Vertex AI 中引入了模型推理摘要以提高透明度,将模型推理预算扩展到 2.5 Pro 以实现更多控制,并在 Gemini API 和 SDK 中添加了对 MCP 工具的支持,以便访问更多开源工具。

2.5 Flash 现在已在 Gemini 应用中向所有人开放,我们将在 6 月初在 Google AI Studio 中向开发者以及在 Vertex AI 中向企业全面提供更新版本,2.5 Pro 也将紧随其后。

这一显著进展是 Google 各团队不懈努力的结果,旨在改进我们的技术,并安全负责地开发和发布它们。下面让我们从以下方面深入了解。

2.5 Pro 表现更胜以往

我们最近更新了 2.5 Pro,以帮助开发者构建更丰富、更具交互性的网络应用。非常高兴看到用户和开发者的积极反响,同时我们正在根据用户反馈不断改进。

除了在学术基准测试中的出色表现外,新的 2.5 Pro 现在正领跑流行的编码排行榜 WebDev Arena,ELO 分数为 1415。它还在 LMArena 排行榜的所有类别中处于领先地位,该排行榜评估人类在不同维度上的偏好。而且,凭借其百万级令牌的上下文窗口,2.5 Pro 拥有最先进的长上下文和视频理解性能。

自从融入了与教育专家合作构建的学习模型系列 LearnLM 以来,2.5 Pro 现已成为领先的学习模型。在对其教学法和有效性进行的直接比较中,教育工作者和专家在各种场景下都更青睐 Gemini 2.5 Pro,而非其他模型。并且,在构建用于辅助学习的 AI 系统的学习科学的五项原则中,它在每一项上都超越了顶级模型。

Deep Think

通过探索 Gemini 思维能力的边界,我们开始测试 Deep Think 的增强推理模式,它采用新的研究技术,使模型能够在回应之前考虑多种假设。

2.5 Pro Deep Think 在目前最难的数学基准之一 2025 USAMO 上取得了令人印象深刻的分数。它还在一个针对竞赛级编程的难度基准 —— LiveCodeBench 上处于领先地位,并在测试多模态推理的 MMMU 上取得了 84.0% 的分数。

由于 2.5 Pro DeepThink 是一项非常前沿的技术,我们正在额外花费时间进行更多的前沿安全评估,并从安全专家那里获得进一步的反馈。作为其中的一部分,我们将在广泛发布之前,通过 Gemini API 将其提供给受信任的测试人员,以获取他们的反馈。

更优秀的 2.5 Flash

2.5 Flash 是我们最高效的主力模型,专为速度和低成本而设计——现在它在很多维度上都更优秀了。它在推理、多模态、代码和长上下文的关键基准测试中都得到了改进,同时效率更高,在我们的评估中使用的令牌数量减少了 20-30%。

新的 2.5 Flash 现在已在 Google AI Studio 中向开发者、在 Vertex AI 中向企业用户以及在 Gemini 应用中向所有人提供预览版。6 月初,它将全面上线可用。

Gemini 2.5 新功能

原生音频输出和 Live API 的改进

今天,Live API 正在推出视听输入和原生音频输出对话的预览版,这样您就可以直接构建更自然、更富有表现力的 Gemini 对话体验。

它还允许用户控制其说话的语调、口音和风格。例如,您可以告诉模型在讲故事时使用戏剧性的声音。该模型现在还支持工具使用,以便能够代表您进行搜索。

您可以体验以下一些早期功能:

情感对话 (Affective Dialogue): 模型能够检测用户声音中的情感并作出适当回应。

主动音频 (Proactive Audio): 模型将忽略背景对话并知道何时回应。

Live API 中的模型推理能力 (Thinking in the Live API): 模型利用 Gemini 的模型推理能力来支持更复杂的任务。

我们还在发布 2.5 Pro 和 2.5 Flash 的文本转语音新预览版。这些版本首次支持多位说话人,能够通过原生音频输出实现两种声音的文本转语音。

与原生音频对话一样,文本转语音富有表现力,可以捕捉非常微妙的细微差别,例如耳语。它支持超过 24 种语言,并可以在它们之间无缝切换。

这项文本转语音功能现已在 Gemini API 中可用。

计算机使用功能

我们正在将 Project Mariner 的计算机使用功能引入 Gemini API 和 Vertex AI。像 Automation Anywhere、UiPath、Browserbase、Autotab、The Interaction Company 和 Cartwheel 这样的公司正在探索其潜力,我们很高兴能在今年夏天更广泛地推出它,供开发者进行实验。

更高的安全性

我们还显著增强了对例如间接提示词注入攻击等安全威胁的防护。间接提示词注入攻击是指将恶意指令嵌入到 AI 模型检索的数据中。我们的新安全方法有助于显著提高 Gemini 在使用过程中对抗间接提示词注入攻击的防护率,使 Gemini 2.5 成为我们迄今为止最安全的模型系列。

增强的开发者体验

模型推理摘要

2.5 Pro 和 Flash 现在将在 Gemini API 和 Vertex AI 中包含模型推理摘要。模型推理摘要会将模型的原始模型推理组织成清晰的格式,包含标题、关键细节以及有关模型操作的信息,例如何时使用工具。

我们希望通过更结构化、更精简的模型推理过程格式,开发者和用户会发现与 Gemini 模型的交互更容易理解和调试。

模型推理预算

我们推出了带有模型推理预算的 2.5 Flash,通过平衡延迟和质量,让开发者更好地控制成本。我们将此功能扩展到 2.5 Pro。这允许您控制模型在响应前用于模型推理的令牌数量,甚至可以关闭其模型推理能力。

带有预算功能的 Gemini 2.5 Pro 将在未来几周内与我们全面发布的模型一起,正式用于稳定生产环境。

MCP 支持

我们在 Gemini API 中添加了对模型上下文协议 (Model Context Protocol, MCP) 定义的原生 SDK 支持,以便更轻松地与开源工具集成。我们还在探索部署 MCP 服务器和其他托管工具的方法,让您更容易构建智能体应用。

我们一直在探索新的方法来改进我们的模型和开发者体验,包括使其更高效且性能更强,并持续响应开发者的反馈,所以请继续提出宝贵意见!同时,我们持续在基础研究的广度和深度上加倍投入——包括推动 Gemini 能力的边界。更多内容即将推出。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • Gemini
    +关注

    关注

    0

    文章

    73

    浏览量

    8107
  • AI
    AI
    +关注

    关注

    89

    文章

    38087

    浏览量

    296412
  • 模型
    +关注

    关注

    1

    文章

    3648

    浏览量

    51701

原文标题:Gemini 2.5: 我们最智能的模型系列再升级

文章出处:【微信号:Google_Developers,微信公众号:谷歌开发者】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    谷歌AI霸主归来!多线反击OpenAI,开启安卓Gemini时代

    电子发烧友网报道(文/莫婷婷)北京时间5月21日,谷歌2025 Google I/O开发者大会正式召开,从其发布的新品来看,这可以说是一场AI盛会。 在AI大模型方面,发布了Gemini 2.
    的头像 发表于 05-22 09:01 6342次阅读
    <b class='flag-5'>谷歌</b>AI霸主归来!多线反击OpenAI,开启安卓<b class='flag-5'>Gemini</b>时代

    谷歌正式推出最新Gemini 3 AI模型

    今天我们正式推出 Gemini 3,这是我们迄今为止最智能的模型,能够帮助用户实现任何创意。Gemini 3 Pro 基于最先进的推理技术,与之前的版本相比,它在所有主要的 AI 基准测试中都取得了无与伦比的结果,尤其是在编程方
    的头像 发表于 11-24 11:10 764次阅读
    <b class='flag-5'>谷歌</b>正式推出最新<b class='flag-5'>Gemini</b> 3 AI<b class='flag-5'>模型</b>

    谷歌Gemini 3模型开启智能新纪元

    Overviews)。Gemini app 的月用户量已突破 6.5 亿,超过 70% 的 Cloud 客户使用我们的 AI,1300 万开发者在使用我们的生成模型进行构建——而这只是我们所看到的巨大影响的一个缩影。
    的头像 发表于 11-24 11:07 452次阅读
    <b class='flag-5'>谷歌</b><b class='flag-5'>Gemini</b> 3<b class='flag-5'>模型</b>开启智能新纪元

    谷歌Gemini 2.5模型系列全新升级

    在 AI 日新月异的浪潮中,技术不再只是算力堆叠,而是一种可以被人“感知”、与人“共创”的未来语言。
    的头像 发表于 08-29 09:19 3068次阅读

    Firebase Studio现已集成Gemini 2.5

    。近期,我们通过增强其内置的 App Prototyping 智能体,使其采用 Google 强大的 AI 模型 Gemini 2.5。所有 Firebase Studio 预览版用户现在都可以使用升级后集成
    的头像 发表于 07-10 18:13 767次阅读

    谷歌推出Gemini 2.5 Pro预览版(I/O版本)

    我们目睹了开发者使用 Gemini 2.5 Pro 取得了令人赞叹的成就。因此,我们决定提前数周发布更新版本,以便开发者尽早体验新版模型
    的头像 发表于 06-10 10:43 999次阅读

    谷歌Gemini API最新进展

    今年的 Cloud Next 大会上,我们推出了一系列突破性更新与强大功能,旨在赋能广大开发者,与大家携手共创人工智能的未来。本次发布亮点包括:最新的 Gemini 2.5 思考
    的头像 发表于 04-12 16:10 1462次阅读

    谷歌 Gemini 2.0 Flash 系列 AI 模型上新

    谷歌旗下 AI 大模型 Gemini 系列全面上新,正式版 Gemini 2.0 Flash、Gemin
    的头像 发表于 02-07 15:07 1081次阅读

    三星 Galaxy S25 系列谷歌 Gemini 深度整合

    在Galaxy Unpacked发布会上,三星Galaxy S25系列手机震撼登场,其与谷歌Gemini的深度整合成为一大亮点。 此次整合后,Gemini AI助手为Galaxy S2
    的头像 发表于 01-23 17:41 1309次阅读

    谷歌Gemini AI目标年底用户达5亿

    近日,谷歌CEO桑达尔·皮查伊在内部会议上向员工透露,他对公司自主研发的Gemini AI技术充满信心,认为其能力已经超越了当前的竞争对手。这一表态不仅彰显了谷歌在AI领域的雄心壮志,也预示着
    的头像 发表于 01-18 11:30 1265次阅读

    谷歌推出Gemini 2.0 Flash体验版

    我们正赋予开发者构建 AI 未来的能力,包括尖端模型、智能代码编写工具以及跨平台和设备的无缝集成。自 2023 年 12 月我们推出 Gemini 1.0 以来,数百万的开发者已经使用 Google AI Studio 和 Vertex AI 在 109 种语言中使用
    的头像 发表于 01-06 09:52 2558次阅读

    借助谷歌Gemini和Imagen模型生成高质量图像

    在快速发展的生成式 AI 领域,结合不同模型的优势可以带来显著的成果。通过利用谷歌Gemini 模型来制作详细且富有创意的提示,然后使用 Imagen 3
    的头像 发表于 01-03 10:38 1332次阅读
    借助<b class='flag-5'>谷歌</b><b class='flag-5'>Gemini</b>和Imagen<b class='flag-5'>模型</b>生成高质量图像

    谷歌发布“深度研究”AI工具,利用Gemini模型进行网络信息检索

    据外媒最新报道,谷歌近期发布了一款名为“深度研究”的先进AI工具。这款工具借助其内部的Gemini大型语言模型,实现了对网络信息的高效检索与深度挖掘,进一步满足了用户对精准、详尽信息的需求。 据悉
    的头像 发表于 12-16 09:35 1026次阅读

    谷歌正式发布Gemini 2.0 性能提升近两倍

    在智能体时代,谷歌再次引领技术潮流,正式发布了其最新力作——Gemini 2.0。这款AI模型不仅在性能上实现了显著提升,更是在多模态表现和原生工具应用方面展现了前所未有的强大功能。 Gemi
    的头像 发表于 12-12 14:22 1115次阅读

    谷歌发布Gemini 2.0 AI模型

    谷歌近日正式推出了新一代AI模型——Gemini 2.0。此次更新引入了名为“深度研究”的新特性,旨在为用户提供更加全面和深入的复杂主题探索与报告撰写辅助。
    的头像 发表于 12-12 10:13 966次阅读