文本分类可以把未标注类别的文档分到预先定义好的类别中 去。图1.1 是文本分类的示意图。一般来说,文本分类系统是采用有指导学 习(Supervised Learning)方法来构造一个分类器(Classifier)。首先,提供一些标注 Fig. 1.1 The Frame of Text Categorization 好类别的训练样本文档集合;然后,基于这些训练样本,训练分类模型的参 数;这样就构造一个文本分类系统,它可以对新文档进行分类。
我们需要开始思考如何将文本集合转化为可量化的东西。最简单的方法是考虑词频。
我将尽量尝试不使用NLTK和Scikits-Learn包。我们首先使用Python讲解一些基本概念。
基本词频
首先,我们回顾一下如何得到每篇文档中的词的个数:一个词频向量。
#examples taken from here: http://stackoverflow.com/a/1750187
mydoclist = ['Julie loves me more than Linda loves me',
'J