【行业研究报告】信息技术-通信:“合成数据+强化学习”:大模型进化的新范式

类型: 行业深度研究

机构: 国盛证券

发表时间: 2024-09-19 00:00:00

更新时间: 2024-09-19 15:10:41

当地时间9月12日,OpenAI发布新模型系列o1(代号“草莓”),该
模型的特点主要是在给出推理结果前,花更多时间“思考”,产生较长内
部思维链,在解决科学、数学、代码等类问题的表现更好。o1-preview每
部思维链,在解决科学、数学、代码等类问题的表现更好。o1-preview每
百万token输入15美元,每百万输出token60美元,o1-mini相对便宜,
每百万token输入3美元,每百万token输出12美元。目前ChatGPTPlus
和Team用户可以在模型选取器中手动选择,o1-preview每周限制30条
消息,o1-mini每周限制50条消息。
o1亮点一:或为OpenAI新模型“Orin”生成合成数据。据The
Information,o1或为OpenAI新模型“Orin”生成合成数据。无独有偶,
我们注意到,OpenAI创始团队出走创办的Anthropic——OpenAI的有力
竞争对手,2024年6月发布了大模型Claude3.5Sonnet,该模型使用了
合成数据,在多个测试中的表现优于GPT4o。我们发现,在人类生成的数
据或将耗尽之际,合成数据还具备“性价比可能更高”“更完整、全面”
“隐私性更好”等优点,尽管存在可能“可能为模型引入噪声”“泛化能
力不足”等问题,但能通过“诱导幻觉”“加入数据评估机制”“在训练
过程中积累数据”等方式尝试解决。
o1亮点二:“合成数据+强化学习”,o1或确认大模型进化新范式。市
场认为,ScalingLaw(指大模型随着参数的增大而增强能力)只存在于大
模型训练阶段。但我们发现,根据OpenAI工程师JasonWei,o1使用了
强化学习(RL)做思维链(ChainofThought)来训练模型;思维链可以
使模型在推理阶段实现能力增强,即ScalingLaw可以不止出现在训练阶
段,也出现在推理阶段。这里我们所说的强化学习(RL),指模型A生成
推理结果后,由模型B给推理结果打分,帮助模型A不断调整参数、迭
代、进化,分成RLAIF(基于AI反馈的强化学习)和RLHF(基于人类反
馈的强化学习)多种,后者曾因被用于ChatGPT而名声大噪。我们认为,
o1系列的惊艳面世,或许不仅是确认了合成数据的重要性,还意味着大模
型对强化学习的倚重,而在强化学习中,我们注意到,RLAIF(基于AI反
馈的强化学习)逐渐成为MetaLLama3、英伟达Nemotron-4340B、微软
Orca-2等热门大模型的选择,相较于RLHF(基于人类反馈的强化学习),
需要的人类标注较少,适合代码、数学等有客观评价标准的领域。我们推
测,RLAIF或许也是o1在代码、数学等问题上表现更好的原因。
投资建议:根据OpenAI,o1模型训练和测试阶段在美国奥林匹克数学竞
赛(AIME)的表现随着训练和测试计算量的增长而变得更好,这表明o1
“推理时,在响应用户前,思考更多”有助于让o1表现更好,这正是推
理ScalingLaw。我们认为,这有助于打破投资界过往的担忧,即“推理需
要的算力比训练少,当大模型的进化转向推理,算力板块承压”;相反,
推理ScalingLaw仍将利好算力板块。建议关注:1)光模块产业链:中际
旭创、新易盛、天孚通信、太辰光、光迅科技、华工科技、腾景科技等;
2)液冷服务商:英维克;3)PCB服务商:沪电股份等;4)AIDC:润泽
科技等。
风险提示:大模型算法进展不及预期,大模型应用落地不及预期,全球宏
观经济下行风险。
行业走势
作者