概述
2025年3月25日,Google DeepMind以"实验性"预览版发布了Gemini 2.5 Pro——谷歌首个明确指定的思考模型,能够在给出最终答案之前通过扩展推理来解决问题。
发布后,Gemini 2.5 Pro立即以显著优势位列LMArena排行榜第一——这是谷歌模型首次领跑这一社区最受关注的对比评估。
基准表现
| 基准测试 | 得分 | 说明 |
|---|---|---|
| AIME 2025 | 86.7% | 数学竞赛题,接近人类专家水平 |
| GPQA Diamond | 84.0% | 博士级科学题 |
| SWE-bench Verified | 63.8% | 软件工程任务 |
| LMArena | 排名第1 | 人类偏好盲测投票 |
GPQA Diamond(研究生级谷歌防探查问答)84%的得分尤为引人注目——该基准专门设计为抵抗在互联网文本上训练的AI系统,需要跨研究生级生物、化学和物理的真正推理。
技术架构
Gemini 2.5 Pro在前代基础上引入了多项进展:
原生思考模式
与在独立模式下产生思考过程的模型不同,Gemini 2.5 Pro原生集成了思维链推理:
- 根据任务复杂度动态分配"思考预算"
- 在启用时提供可见的思考轨迹以增强透明度
- 通过可验证推理任务的强化学习训练
上下文窗口
发布时:100万词元(约75万个英文单词,或一整部百科全书)。谷歌计划在随后几周内将其扩展至200万词元——足以处理整个代码库、冗长的法律文件或科学文献。
多模态推理
Gemini 2.5 Pro原生处理文本、图像、音频和视频——并将其思考能力应用于所有模态。这开启了新任务类型,如:分析视频并推理其内容,或处理图表并解释其含义。
LMArena时刻
LMArena排行榜(前身为LMSYS的Chatbot Arena)是一个众包评估平台,人类评判者在匿名模型回答之间进行选择。它衡量的是人类偏好而非基准表现——被认为是最可靠的独立评估之一。
Gemini 2.5 Pro的第一名具有重要意义,因为:
- 它打破了OpenAI在排行榜上的持续主导地位
- 领先幅度显著——不是统计意义上的平局,而是明确的偏好
- 多位独立评估者立即进行了验证
谷歌DeepMind的回归叙事
Gemini 2.5 Pro在谷歌AI声誉经历艰难2024年后到来:
- Gemini Ultra vs. GPT-4评估争议(2024年初)引发了对选择性基准测试的质疑
- Gemini图像生成事件(2024年2月)——历史人物以失真的多样性被描绘——成为重大公关危机
- 谷歌DeepMind的合并(2023年)仍在消化组织复杂性
在此背景下,Gemini 2.5 Pro的LMArena结果被解读为谷歌DeepMind技术公信力的恢复。