Gemini 2.5 Pro：谷歌思考模型登顶排行

概述

2025年3月25日，Google DeepMind以"实验性"预览版发布了Gemini 2.5 Pro——谷歌首个明确指定的思考模型，能够在给出最终答案之前通过扩展推理来解决问题。

发布后，Gemini 2.5 Pro立即以显著优势位列LMArena排行榜第一——这是谷歌模型首次领跑这一社区最受关注的对比评估。

GPQA Diamond（研究生级谷歌防探查问答）84%的得分尤为引人注目——该基准专门设计为抵抗在互联网文本上训练的AI系统，需要跨研究生级生物、化学和物理的真正推理。

Gemini 2.5 Pro在前代基础上引入了多项进展：

与在独立模式下产生思考过程的模型不同，Gemini 2.5 Pro原生集成了思维链推理：

发布时：100万词元（约75万个英文单词，或一整部百科全书）。谷歌计划在随后几周内将其扩展至200万词元——足以处理整个代码库、冗长的法律文件或科学文献。

Gemini 2.5 Pro原生处理文本、图像、音频和视频——并将其思考能力应用于所有模态。这开启了新任务类型，如：分析视频并推理其内容，或处理图表并解释其含义。

LMArena排行榜（前身为LMSYS的Chatbot Arena）是一个众包评估平台，人类评判者在匿名模型回答之间进行选择。它衡量的是人类偏好而非基准表现——被认为是最可靠的独立评估之一。

Gemini 2.5 Pro的第一名具有重要意义，因为：

Gemini 2.5 Pro在谷歌AI声誉经历艰难2024年后到来：

在此背景下，Gemini 2.5 Pro的LMArena结果被解读为谷歌DeepMind技术公信力的恢复。