由GPT-4评估的回答质量-小牛行研(hangyan.co)-AI驱动的行业研究数据服务

由GPT-4评估的回答质量

研究报告节选:

目前大部分开源大模型性能未进行系统评价,更多处在起步试验阶段。在对性能进行评价的开源大模型中,Vicuna 的报告中利用 GPT-4 进行的评估相对较为系统,结果也最令人瞩目。
最后更新: 2023-05-31

相关行业研究图表


弊分开粥大换生指数塔装的井3与尚用清说
弊分开粥大换生指数塔装的井3与尚用清说-小牛行研(hangyan.co)-AI驱动的行业研究数据服务
大模型训练和推理的一殷流程
大模型训练和推理的一殷流程-小牛行研(hangyan.co)-AI驱动的行业研究数据服务
ChatGPT RLHF三步骤
ChatGPT RLHF三步骤-小牛行研(hangyan.co)-AI驱动的行业研究数据服务
开源大模型与Open4IGPT系大模型能力对比
开源大模型与Open4IGPT系大模型能力对比-小牛行研(hangyan.co)-AI驱动的行业研究数据服务
缸帽公司的部分产品及其定价(战至2023年5月9日)
缸帽公司的部分产品及其定价(战至2023年5月9日)-小牛行研(hangyan.co)-AI驱动的行业研究数据服务
歌工程师发文阑述对大模型竞争格局的担忧
歌工程师发文阑述对大模型竞争格局的担忧-小牛行研(hangyan.co)-AI驱动的行业研究数据服务

相关行业研究报告


图表内容


图表12:由GPT-4评估的回答质量
100%
100%
92%
93%
90%
76%
80%
68%
70%
60%
50%
LLaMA-13B Alpaca-13B Vicuna-13B
Bard
ChatGPT