(类反馈的强化学习训练示意图-小牛行研(hangyan.co)-AI驱动的行业研究数据服务

(类反馈的强化学习训练示意图

研究报告节选:

ChatGPT 的人类反馈强化学习训练过程包括三个阶段。第一阶段,收集人工反馈数据,训练监督策略模型。为了让 GPT-3.5 初步具备理解指令的意图,首先会在数据集中随机抽取问题,由人类标注人员给出高质量答案,然后用这些人工标注好的数据来微调 GPT-3.5 模型。第二阶段,训练奖励模型。使用第一阶段生成的模型,对于每个问题生成多个不同的回答,由人类标注者对这些结果综合考虑给出排名顺序。第三阶段,采用近端策略优化(Proximal Policy Optimization,PPO)强化学习来优化策略。对于每个问题,使用 PPO 模型生成回答,并用上一阶段训练好的奖励模型给出质量分数;通过回报分数的依次传递产生策略梯度,不断优化 PPO 模型参数。对第二和第三阶段进行迭代,能够训练出更高质量的 ChatGPT 模型。
最后更新: 2023-02-27

相关行业研究图表


Chiplet技术示意图
Chiplet技术示意图-小牛行研(hangyan.co)-AI驱动的行业研究数据服务
计算机视觉原理和应用举例
计算机视觉原理和应用举例-小牛行研(hangyan.co)-AI驱动的行业研究数据服务
OpenAl模型API定价
OpenAl模型API定价-小牛行研(hangyan.co)-AI驱动的行业研究数据服务
2021年中国公有云IaaS市场份额占比
2021年中国公有云IaaS市场份额占比-小牛行研(hangyan.co)-AI驱动的行业研究数据服务
NVIDIA人工智能赋能GPU
NVIDIA人工智能赋能GPU-小牛行研(hangyan.co)-AI驱动的行业研究数据服务
科大讯飞智能产品覆盖多行业
科大讯飞智能产品覆盖多行业-小牛行研(hangyan.co)-AI驱动的行业研究数据服务

相关行业研究报告


图表内容


(类反馈的强化学习训练示意图
收集人工反馈
训练奖励模型
使用PPO优化策路
One post with
mpled from
judged by a
human are ted
summary for the
post.
dre
The reward
a reward for the
summary.
mary of the
Learning to summarize from human feedback
东方财富证券研究所