【行业研究报告】信息技术-AI+专题系列点评(七):Gemini、Sora、V-JEPA三大模型对比点评

类型: 行业专题

机构: 华创证券

发表时间: 2024-03-08 00:00:00

更新时间: 2024-03-10 11:14:25

Gemini1.5在多模态的复杂信息推理方面取得突破。Gemini1.5在长语境理解
方面取得突破,能够显著增加模型可处理的信息量——持续运行多达100万
个tokens。Gemini1.5Pro可以在给定的提示符内无缝地分析、分类和总结大
量内容;对不同的模式执行高度复杂的理解和推理任务,包括视频;可以对
量内容;对不同的模式执行高度复杂的理解和推理任务,包括视频;可以对
100,000行代码进行推理,给出有用的解决方案、修改和解释。
Sora视频生成效果惊艳。Sora采用Transformer架构,能从看似静态噪声的视
频出发,经过多步骤的噪声去除过程,逐渐生成视频,并且可以在延长已生成
的视频的同时,保持主体的一致性。能够在更广泛的视觉数据上训练扩散
Transformer,覆盖了不同的持续时间、分辨率和纵横比。Sora采用了DALL·E3
的重标注技术,通过为视觉训练数据生成详细描述的标题,使模型更加准确地
遵循用户的文本指令生成视频。除了能根据文本指令生成视频外,这款模型还
能将现有的静态图像转化成视频,精确细致地赋予图像中内容以生动的动画,
扩展现有视频或补全缺失的帧。
V-JEPA自监督学习模型,像人类一样学习。作为一种非生成模型,V-JEPA依
靠未标记的数据进行预训练,通过预测抽象表示空间中视频的缺失或屏蔽部分
来学习。V-JEPA的研究表明,其可以一次性预训练模型,不依赖任何标记数
据,然后将模型用于多个不同的任务。
投资建议。三大模型性能优良,未来应用场景广泛,有望带动AIGC行业进一
步发展,涉及算力、大模型以及AI+应用(绘图、视频)等领域。建议关注:
1)算力基础:海光信息、寒武纪、龙芯中科;2)服务器:中科曙光、浪潮信
息、紫光股份、高新发展、神州数码、拓维信息等;3)大模型:科大讯飞、
商汤、三六零等;4)AI+应用:金山办公、万兴科技、美图、虹软科技、当虹
科技。
风险提示:多模态技术发展不及预期、算力基础设施建设不及预期、AI应用
需求不及预期。
行业基本数据
占比%