所有事件
model-release
☆ 世家

Gemini 2.5 Pro:谷歌思考模型登顶排行

概述 2025年3月25日,Google DeepMind以"实验性"预览版发布了Gemini 2.5 Pro——谷歌首个明确指定的思考模型,能够在给出最终答案之前通过扩展推理来解决问题。 发布后,Gemini 2.5 Pro立即以显著优势位列LMArena排行榜第一——这是谷歌模型首次领跑这一社区最受关注的对比评估。 基准表现 基准测试 得分 说明 AIME 2025 86.7% 数学竞赛题,接近人类专家水平 GPQA Diamond 84.0% 博士级科学题 …

2025-03-25

概述

2025年3月25日,Google DeepMind以"实验性"预览版发布了Gemini 2.5 Pro——谷歌首个明确指定的思考模型,能够在给出最终答案之前通过扩展推理来解决问题。

发布后,Gemini 2.5 Pro立即以显著优势位列LMArena排行榜第一——这是谷歌模型首次领跑这一社区最受关注的对比评估。

基准表现

基准测试 得分 说明
AIME 2025 86.7% 数学竞赛题,接近人类专家水平
GPQA Diamond 84.0% 博士级科学题
SWE-bench Verified 63.8% 软件工程任务
LMArena 排名第1 人类偏好盲测投票

GPQA Diamond(研究生级谷歌防探查问答)84%的得分尤为引人注目——该基准专门设计为抵抗在互联网文本上训练的AI系统,需要跨研究生级生物、化学和物理的真正推理。

技术架构

Gemini 2.5 Pro在前代基础上引入了多项进展:

原生思考模式

与在独立模式下产生思考过程的模型不同,Gemini 2.5 Pro原生集成了思维链推理:

  • 根据任务复杂度动态分配"思考预算"
  • 在启用时提供可见的思考轨迹以增强透明度
  • 通过可验证推理任务的强化学习训练

上下文窗口

发布时:100万词元(约75万个英文单词,或一整部百科全书)。谷歌计划在随后几周内将其扩展至200万词元——足以处理整个代码库、冗长的法律文件或科学文献。

多模态推理

Gemini 2.5 Pro原生处理文本、图像、音频和视频——并将其思考能力应用于所有模态。这开启了新任务类型,如:分析视频并推理其内容,或处理图表并解释其含义。

LMArena时刻

LMArena排行榜(前身为LMSYS的Chatbot Arena)是一个众包评估平台,人类评判者在匿名模型回答之间进行选择。它衡量的是人类偏好而非基准表现——被认为是最可靠的独立评估之一。

Gemini 2.5 Pro的第一名具有重要意义,因为:

  1. 它打破了OpenAI在排行榜上的持续主导地位
  2. 领先幅度显著——不是统计意义上的平局,而是明确的偏好
  3. 多位独立评估者立即进行了验证

谷歌DeepMind的回归叙事

Gemini 2.5 Pro在谷歌AI声誉经历艰难2024年后到来:

  • Gemini Ultra vs. GPT-4评估争议(2024年初)引发了对选择性基准测试的质疑
  • Gemini图像生成事件(2024年2月)——历史人物以失真的多样性被描绘——成为重大公关危机
  • 谷歌DeepMind的合并(2023年)仍在消化组织复杂性

在此背景下,Gemini 2.5 Pro的LMArena结果被解读为谷歌DeepMind技术公信力的恢复。

参考资料