图表内容
图38.谷歌Gemini3示意图
Gemini 3 Deep Think
Humanity's Last Exam
GPQA Diamond
ARC-AGI-2
Reasoning 5 knowledge
45.1%
88.4%88.1%
86.4%
83%
375%
30.7%
31.1%
26.5%
21.6%
176%
158%
13.7%
4.9%
CPT-43
资科来源:华尔街见佩,信达证券研发中心
研究报告节选:
除标准版本外,谷歌还推出了 Gemini 3 Deep Think 增强推理模式,该模式在 Humanity's Last Exam 测试中达到 41.0%的成绩,在 GPQA Diamond 测试中获得 93.8%的分数。在ARC-AGI-2 测试中,Deep Think 模式创下了 45.1%的前所未有成绩,展示了其解决新颖挑战的能力。谷歌表示,该模式正在接受额外的安全评估,将在未来几周内向 Google AI Ultra 订阅用户开放。