0%

文档分类

文档分类

文档分类在针对训练数据分类中大体分为两类,质量分类与内容分类。质量分类指针对文档的格式,以及是否有乱码进行分类,内容分类则是对内容是否有意义,或者内容的倾向进行分类。


我们想为你做文档分类一些例子,从而让你快速上手,找到适合你文档分类的方法。下面我们将会使用fasttext方法训练一个文本格式二分类模型用于剔除含有乱码的文档;以及我们将会使用零样本分类的方法,给予一个内容分类的例子;当然文本聚类我们也将分别给予kmeans聚类,层次聚类等例子。我们无法告诉你哪种方法适合你,只能给予你建议与参考。

自定义fasttext分类

fasttext是Facebook于2016年开源的一个词向量计算和文本分类工具,在学术上没有太大的创新,主要的优点就是快,在处理大规模数据分类时,能够做到近似深度神经网络的效果。这里我们就简要说明fasttext的原理