报告摘要
➢图像:腾讯发布混元图像2.0,Manus上线生图功能
腾讯发布混元图像2.0模型,该模型显著提升生图速度,实现输入
腾讯发布混元图像2.0模型,该模型显著提升生图速度,实现输入
即输出的毫秒级响应。同时,基于实时生图的优势,模型推出实时绘
画板功能,可根据创作者的绘图要求,实时生成预览效果,有效提升
图像生成交互体验。此外,Manus上线图像生成功能。不同于文生图
模型,Manus生图功能将生图过程嵌入Agent工作流,具备理解用户
意图、制定解决方案、并调用包括生图在内的各种工具完成任务的能
力。从测评结果来看,因引入思考和制定方案的过程,生图时间明显
长于主流生图模型,且对于复杂任务可能出现无法生成的情况。
➢音视频:MiniMaxSpeech02发布,豆包视觉理解模型更新
音频模型方面:1)MiniMax全新文本转语音模型Speech02:该模
型可完成32种语言、不同口音、不同音色、不同情绪的语音内容生
成。在两项语音基准测评中,其得分均超越了语音生成领域龙头
OpenAI和ElevenLabs,位列第一。2)豆包·音乐模型升级:该模型
不仅支持英文歌曲创作,还可通过理解视频,自动适配纯音乐背景
音。视频模型方面:1)豆包视频生成模型Seedance1.0lite:该
模型为豆包视频生成模型系列的小参数量版本,实现了影视级的视
频生成质量及视频生成速度的大幅提升。2)豆包1.5视觉深度思考
模型:该模型具备视频理解能力,同时通过学习数万亿的多模态标记
数据,视觉推理能力实现大幅提升。
➢3D:阶跃星辰发布开源3D模型Step1X-3D
阶跃星辰发布开源3D模型Step1X-3D,该模型基于200万高质量、
标准化的训练样本库进行训练,采用3D原生两阶段架构,将3D内
容生成分为几何生成和纹理生成两个阶段。具体来看:1)在3D几何
生成阶段,生成模型结构完成且高度还原几何细节的3D模型:2)在
纹理生成阶段,通过几何信息的引导,生成与3D几何结构表面精密
贴合、质感逼真的表面纹理。根据自建的综合测试进行评测,Step1X-
3D在多项关键维度表现出色,在目前已实现SOTA的主流3D模型中
得分靠前。
➢核心观点
我们认为,近期AI文生图、文生音视频、3D生成模型持续迭代,不
仅在生成质量上不断提升,生成速度亦有所突破。更高的生成质量及
更快的生成速度,有望提升用户使用体验,推动AI生成在广告营销、
游戏、影视等场景的应用,加快产业落地。建议关注:1)AI+营销:
天娱数科;2)AI+游戏:恺英网络、巨人网络、电魂网络;3)AI+影
视:博纳影业等。
➢风险提示
AI技术发展不及预期、政策监管、行业竞争加剧的风险。
◼走势对比
◼子行业评级