在本文中,选择数据挖掘来检查是否存在某种语言学以词性(POS)为例的功能可以用作中文量化风格特征。 也可以说本文的目的是探索确定中文定量文体特征的方法。 课文新闻,科学,官方,艺术,电视对话以及选择日常会话方式以建立我们研究的语料库。 文本用主成分分析法分析了以POS为特征的向量。 通过聚集层次聚类方法聚类。 他们的结果表示POS可以用作文本的独特功能。 然后,支持采用矢量机建立训练数据分类模型, 精度和召回率,以验证文本分类的结果。 随机的选择森林来计算POS的重要性,即对POS的贡献分类,并