主流大模型数据集来源可分为六类-小牛行研(hangyan.co)-AI驱动的行业研究数据服务

主流大模型数据集来源可分为六类

研究报告节选:

国内厂商在中文训练数据方面有一定优势，以百度为例，ERNIE 3.0 的中文预训练语料数量最多，主要来源为 ERNIE 2.0（包括百科、Feed 等）、百度搜索（包括百家号、知乎、铁算盘、经验）、网络文本、QA-long、 QA-short、Poetry 2&Couplet 3、医学、法律、金融等领域的特定数据以及百度知识图谱（超过 5000 万条事实）。

阅读研究报告

最后更新: 2023-03-19

相关行业研究图表

NewBing的Chat入口可以对搜索结果进行人性化整合

NewBing的Chat入口可以对搜索结果进行人性化整合-小牛行研(hangyan.co)-AI驱动的行业研究数据服务

05年起中国A!论文总数超美国

05年起中国A!论文总数超美国-小牛行研(hangyan.co)-AI驱动的行业研究数据服务

Github社区中主流AI框架情况(2022.1)

Github社区中主流AI框架情况(2022.1)-小牛行研(hangyan.co)-AI驱动的行业研究数据服务

类ChatGPT模型年均训练成本测算

类ChatGPT模型年均训练成本测算-小牛行研(hangyan.co)-AI驱动的行业研究数据服务

百度昆仑一、二代芯片与英伟达A100参数对比

百度昆仑一、二代芯片与英伟达A100参数对比-小牛行研(hangyan.co)-AI驱动的行业研究数据服务

百度知识图谱的首要应用场景即为搜索

百度知识图谱的首要应用场景即为搜索-小牛行研(hangyan.co)-AI驱动的行业研究数据服务

相关行业研究报告

AGI（通用人工智能）专题之二：“文心一言”发布，国内厂商距离复现ChatGPT有多远？

类ChatGPT应用中期年均成本测算-小牛行研(hangyan.co)-AI驱动的行业研究数据服务

类ChatGPT应用中期年均推理成本测算-小牛行研(hangyan.co)-AI驱动的行业研究数据服务

类ChatGPT模型年均训练成本测算-小牛行研(hangyan.co)-AI驱动的行业研究数据服务

华西证券 | 2023-03-17 | 21个图表

图表内容

图7主流大模型数据集来源可分为六类
Books
Reddit
cc
Other
Total
GPT-1
4.6
GPT-2
GPT-3
egatron-118
11.4
4.6
MT-NLG
Gopher
12.5
164.4
资料来源：Alan D
Thompson

华西证券研究所

其他行业调研报告

中钨高新: 2023年年报点评：需求弱势，业绩承压 - 2024-04-27

华东医药: 医美业务维持高增，创新转型持续兑现 - 2024-04-27

海外周度观察：三个季度前，美国经济已经“着陆”！ - 2024-04-27

地素时尚: 地素时尚点评报告：业绩阶段性承压，静待渠道优化成效释放 - 2024-04-27

永艺股份: 永艺股份点评报告：内外销齐头并进，盈利能力有望持续优化 - 2024-04-27

亿纬锂能: 公司简评报告：业绩符合预期，储能电池出货同比高增 - 2024-04-27

涪陵榨菜: 涪陵榨菜24年一季报点评：动销持续恢复，盈利能力改善 - 2024-04-27

丸美股份: 抖音天猫齐发力，恋火持续高增长 - 2024-04-27

登康口腔: 基础口腔护理稳健增长，净利率稳步提升 - 2024-04-27

贝泰妮: 产品聚焦+组织调整，静待多品牌发力 - 2024-04-27

微信小程序

添加到"我的小程序", 随时随地访问

小牛行研小程序码

微信服务号

关注产品动态、获知行业资讯

小牛行研服务号二维码

产品吐槽|意见|建议|BUG >