【行业研究报告】互联网-互联网传媒行业周报-周观点:Kimi升级200万超长文本输入,Colossal AI开源视频生成模型Open Sora1.0

类型: 行业周报

机构: 上海证券

发表时间: 2024-03-25 00:00:00

更新时间: 2024-03-26 10:14:21

◼主要观点
3月18日,月之暗面宣布Kimi智能助手启动200万字无损上下文内
测,过去要10000小时才能成为专家的领域,现在只需要10分钟,
Kimi就能接近任何一个新领域的初级专家水平。Kimi是人工智能初创
公司月之暗面于2023年10月推出的一款智能助手,主要有长文总结
公司月之暗面于2023年10月推出的一款智能助手,主要有长文总结
和生成、联网搜索、数据处理、编写代码、用户交互、翻译6项功
能,是全球首个支持输入20万汉字的智能助手产品。KimiChat最多
支持20万汉字的超长文本输入,是目前全球市场上能够产品化使用的
大模型服务中所能支持的最长上下文输入长度。作为对比,Anthropic
的Claude-100k模型支持约8万字,而OpenAI的GPT-4-32k只支持
约2.5万字。
2024年3月17日,Colossal-AI团队全面开源全球首个类Sora架构
视频生成模型Open-Sora1.0,涵盖了数据处理、所有训练细节和模型
权重整个训练流程,携手全球AI热爱者共同推进视频创作的新纪元。
Open-Sora的复现方案参考了StableVideoDiffusion3工作,共包括
大规模图像预训练、大规模视频预训练、高质量视频数据微调三个阶
段,每个阶段都会基于前一个阶段的权重继续训练。相比于从零开始
单阶段训练,多阶段训练通过逐步扩展数据,更高效地达成高质量视
频生成的目标。除了大幅降低Sora复现的技术门槛,提升视频生成在
时长、分辨率、内容等多个维度的质量,Colossal-AI加速系统进行
Sora复现的高效训练加持。通过算子优化和混合并行等高效训练策
略,在处理64帧、512x512分辨率视频的训练中,实现了1.55倍的
加速效果。同时通过Colossal-AI的异构内存管理系统,在单台服务器
上(8*H800)可以无阻碍地进行1分钟的1080p高清视频训练任务。
Colossal-AI团队将会继续维护和优化Open-Sora项目,预计将使用更
多的视频训练数据,以生成更高质量、更长时长的视频内容,并支持
多分辨率特性,切实推进AI技术在电影、游戏、广告等领域的落地。
Kimi升级至200万超长文本输入,我们认为超长文本输入可使AI扮演
书中的角色,甚至按照人类的想象去改编剧情,有望颠覆小说和阅读
App领域。在大语言模型百花齐放阶段,我们认为国内大厂持续投入
大语言模型,有望打造出更适合中国的AI生产力工具。目前AIGC行
情已有所分化,未来主题性机会有望逐步切换向案例兑现、甚至基本
面兑现,龙头及龙头板块需重点关注,持续推荐具备基本面优势的
【游戏】板块。
◼投资建议
基于我们“大模型+小模型+应用及内容”的研究框架,我们认为从基本
面受益的角度上看,需沿着目前成熟大模型模态输出的范围选择标
的,重点关注AI+文本/虚拟人板块,其次关注AI+图片(大模型+小模
型);从价值重估的角度上看,需沿着掌握优质数据或内容(多模态
数据)的范围选择标的,重点关注AI+内容/IP/版权板块。
行业:传媒
日期:
shzqdatemark
Tel:021-53686134