图表内容 表10:著名公开数据库(部分) 类型 数据集名称 特点 WikiText 维基百科语料库 SQuAD 斯坦福大学问答数据集 自然语言 Common Crawl PB级别的网络爬虫数据 Billion Words 常用的语言建模数据库 语音识别 VoxForge 带口音的语料库