文档分类

文档分类在针对训练数据分类中大体分为两类，质量分类与内容分类。质量分类指针对文档的格式，以及是否有乱码进行分类，内容分类则是对内容是否有意义，或者内容的倾向进行分类。

我们想为你做文档分类一些例子，从而让你快速上手，找到适合你文档分类的方法。下面我们将会使用fasttext方法训练一个文本格式二分类模型用于剔除含有乱码的文档；以及我们将会使用零样本分类的方法，给予一个内容分类的例子；当然文本聚类我们也将分别给予kmeans聚类，层次聚类等例子。我们无法告诉你哪种方法适合你，只能给予你建议与参考。

自定义fasttext分类

fasttext是Facebook于2016年开源的一个词向量计算和文本分类工具，在学术上没有太大的创新，主要的优点就是快，在处理大规模数据分类时，能够做到近似深度神经网络的效果。这里我们就简要说明fasttext的原理就是将整篇文档的词及n-gram向量叠加平均得到文档向量，然后使用文档向量做softmax多分类。这中间涉及到两个技巧：字符级n-gram特征的引入以及分层Softmax分类。

Bert分类

使用Bert模型进行分类任务是当下数据分类工作中，标准简单的方法，但是Bert分类在针对具体任务时，需要准备训练数据集。人工标准或者其他方法选择数据集后，通过模型训练后进行推理。通过我们的测试，在对外贸数据做二分类任务上，大数据协助下载的外贸数据与通用领域数据构造1：1训练集，训练出的二分类效果比fasttext的效果要稍好，不过处理速度上相比于fasttext则要慢上很多。

集成分类

集成分类是针对样本内容分类所提出的，使用Zero shot方法分类，避免人工标注消耗。我们使用sentence-transformer官方所提供的两个多语言模型与MTEB排行榜上最优的中英模型相结合。根据我们在分类，召回，生成不同方法间的测试，最终我们选择多类别召回方式，在对三个不同模型所召回的类目中，通过频率与相关性排序，选择得分最高的标签给予样本数据。该方法的优势，就是通用性能强，修改标签数量与内容，模型不需要重新训练对齐。