⚫Gemini3正式发布,采用Transformer的MoE,原生支持文本、视觉和音频等多
模态输入,构建最强全模态推理能力。具体测试看Gemini3先进性体现在:(1)
推理能力。Gemini3Pro在各项AI基准测试中,LMArena排行榜1501的Elo评分
推理能力。Gemini3Pro在各项AI基准测试中,LMArena排行榜1501的Elo评分
高居榜首,GPQADiamonds达到91.9%的准确率,在Humanity’sLastExam不
使用任何外部工具取得37.5%的成绩。(2)多模态理解能力。从Gemini1.0即确
立原生多模态和长上下文的原则,致力于原生且无缝理解文本、图像或音频等信息
模态之间的内在联系和差别。Gemini3Pro在多模态理解上达到新高度,MMMU-
Pro取得81%成绩、Video-MMMU达87.6%。(3)编码能力。基于推理和多模态
能力,Gemini3Pro仅需非常简单的自然语言描述,即可交付出视觉丰富、可交互
的前端界面或应用实体。
⚫重构用户体验,全栈优势体现:Gemini3发布即全面集成到搜索AIMode下,
GeminiAPP用增年内有望进一步提速。(1)Google为应对Chatbot对传统搜索
冲击,24年起推出AIO和AIMode模式,目前搜索AIO已覆盖20亿MAU、AI
ModeDAU达7500万。此次Gemini3发布即上线AIMode,重塑传统搜索从单点
查询--->散点主动规划生成。(2)我们观点为底模能力为应用(用增)第一生产
力。Gemini25Q1DAU3500万-->25Q2MAU4.5亿-->25Q3MAU6.5亿,Gemini
3Pro上线及后续NanoBanana2集成(更强语义理解能力、更简易自然语言交互、
更强中文能力),看好GeminiAPP、及GoogleAI系列用增进一步上行。(3)比
直接落地更重要的是Gemini3优化了用户交互【看见并交互】,比如让搜索实现
了“生成式用户界面”(GenerativeUI)。AI不再只是生成内容,开始实时动态生
成一个为用户搜索量身定制的可视化界面。对于用户而言,这意味着信息获取从
“阅读”升级为“体验”,不仅是文字、图文简单交互,这是应用场景的巨大进
步。
⚫重构生产力范式:全新AIIDEGoogleAntiGravity,从AI辅助写代码到AI合作
开发。基于GoogleAntiGravity,开发者可以在更高的抽象层级下达任务,Gemini
3会自主将其分解为子任务,规划执行路径开始编码,并通过浏览器验证运行效
果。
⚫我们观点是:科技大厂更强调全栈能力,硬件(自研芯片、数据中心等)-研究层
(AGI探索)-模型-应用(产品、平台),全栈路径的最大优势在于速度和协同。
(1)速度:能大幅缩短模型开发完成与在产品中展示给大量用户之间的时间。
(2)协同:谷歌搜索产生的大量用户数据将为Gemini模型后训练带来极强数据优
势,即应用数据-模型训练具有明显飞轮效应。模型能力强化将带来Gemini算力消
耗大幅增加,有望反哺上游googlecloud需求增长,且谷歌TPU在Gemini的训
练具有明显效率优势,即云/硬件-模型能力具有飞轮效应。因此我们看好谷歌全栈
AI能力的飞轮效应,对标国内同样具备全栈优势的阿里巴巴。
(1)我们看好具有硬件-研究-模型-应用场景全栈AI路径的科技大厂,相关标的:阿里