这是Lumix-Document的文档
这是Lumix项目的官方文档,根据当前已有的研究表明训练数据的质量对模型能力的提升是至关重要的。Falcon与Phi-1.5都说明数据对模型能力的重要性,所以我们尽可能完善一个大语言模型文本数据处理相关知识。
正在更新
已经完成
- 文档格式
- 文档去重
- 文档分类
- 文档聚类
- 文档过滤
- 文本清洗
- 文档可视化
数据工程
在大部分人都只拥有有限的资源的训练过程中,不得不得将注意力从模型的规模转移至数据的规模与质量上,毕竟与花钱买机器相比,收集并清洗数据则便宜的多,根据Falcon这类paper的证明,将数据做的更好确实是可行的。
在对文本数据收集清洗过程中,我们则会有许多疑问,没有一个确定的标准来量化数据的质量。我们不知道什么样的数据应该称作好,也不知道如何优化数据,以及优化数据的目标如何定义。
这里我大概总结了一下,符尧大佬最近所提出的数据工程,以及中文开源数据项目MNBVC,从数据混合比例,数据格式,数据训练顺序以及模型规格对数据带来的影响进行简单总结说明。