主流大模型数据集来源可分为六类-小牛行研(hangyan.co)-AI驱动的行业研究数据服务

主流大模型数据集来源可分为六类

研究报告节选:

国内厂商在中文训练数据方面有一定优势,以百度为例,ERNIE 3.0 的中文预训练语料数量最多,主要来源为 ERNIE 2.0(包括百科、Feed 等)、百度搜索(包括百家号、知乎、铁算盘、经验)、网络文本、QA-long、 QA-short、Poetry 2&Couplet 3、医学、法律、金融等领域的特定数据以及百度知识图谱(超过 5000 万条事实)。
最后更新: 2023-03-19

相关行业研究图表


NewBing的Chat入口可以对搜索结果进行人性化整合
NewBing的Chat入口可以对搜索结果进行人性化整合-小牛行研(hangyan.co)-AI驱动的行业研究数据服务
05年起中国A!论文总数超美国
05年起中国A!论文总数超美国-小牛行研(hangyan.co)-AI驱动的行业研究数据服务
Github社区中主流AI框架情况(2022.1)
Github社区中主流AI框架情况(2022.1)-小牛行研(hangyan.co)-AI驱动的行业研究数据服务
类ChatGPT模型年均训练成本测算
类ChatGPT模型年均训练成本测算-小牛行研(hangyan.co)-AI驱动的行业研究数据服务
百度昆仑一、二代芯片与英伟达A100参数对比
百度昆仑一、二代芯片与英伟达A100参数对比-小牛行研(hangyan.co)-AI驱动的行业研究数据服务
百度知识图谱的首要应用场景即为搜索
百度知识图谱的首要应用场景即为搜索-小牛行研(hangyan.co)-AI驱动的行业研究数据服务

图表内容


图7主流大模型数据集来源可分为六类
Books
Reddit
cc
Other
Total
GPT-1
4.6
GPT-2
GPT-3
egatron-118
11.4
4.6
MT-NLG
Gopher
12.5
164.4
资料来源:Alan D
Thompson

华西证券研究所