自然语言处理之文本主题判别问题发现：本次案例为工作中遇到的实际问题，在语音识别中的语料准备部分，

文件名称: 自然语言处理之文本主题判别

所属分类: 机器学习

开发工具:

文件大小: 2mb

下载次数: 0

上传时间: 2018-06-25

提供者: weixin_********

下载 (2mb)

不能下载？报告错误

详细说明：问题发现：本次案例为工作中遇到的实际问题，在语音识别中的语料准备部分，需要从网络中爬取相当数量的相关文本，其中发现爬取到了一些不相关的内容，如何把这些不相关的内容剔除掉成为笔者需要思考的问题。初步思考：遇到此问题笔者第一时间考虑是将文本分词后向量化，使用聚类看一下分布情况，然而发现在不同训练集中，训练样本变化时，向量随之变化，在测试集中表现一般，在实测中几乎无用。于是想到向量化的方法问题，使用sklearn CountVectorizer方法进行向量化，仅仅是将所有词频无序的向量化，看到另外博文时，发现应该先将目标主题的文本进行词频统计，将统计结果当做向量化模板，实测发现效果不错，现将此方法分享给大家

(系统自动生成,下载前可以参看下载内容)